काठमाडौं । Meta AI ले हालै Voicebox नामक नयाँ AI मोडल सार्वजनिक गरेको छ। यसले पाठबाट अडियो बनाउन सक्ने ‘टेक्स्ट–टु–स्पीच’ (Text-to-Speech) क्षमता मात्र होइन, पूर्वरेकर्ड गरिएको अडियोमा भएका अवाञ्छित आवाज हटाउने ‘अडियो इन्फिलिङ’ (Audio Infilling) र अलि फरक शैलीमा बोल्ने ‘स्टाइल ट्रान्सफर’ (Style Transfer) गर्ने काम पनि गर्छ । थप रूपमा, Voicebox ले अटोमैटिक रूपमा बहुभाषी ‘शून्य-शट टेक्स्ट–टु–स्पीच’ (Zero-Shot TTS) कार्यसम्पादन गरी छ वटा भाषामा—अंग्रेजी, फ्रेन्च, जर्मन, स्पेनिश, पोलिस र पोर्तुगाली—प्राकृतिक आवाज सिर्जना गर्न सक्छ । मोडललाई ५० हजार घण्टा भन्दा बढीको अडियो डाटासेटमा प्रशिक्षित गरी, यो पारम्परिक autoregressive मोडलभन्दा २० गुणा छिटो स्वर उत्पादन गर्न सक्षम छ ।

तर, शक्तिशाली क्षमताहरूसँगै जोखिम पनि ठूलो छ: Voicebox ले दुई सेकेण्डको नमूना मात्र लिएर कसैको आवाजलाई क्लोन गर्न सक्ने भएकाले, यसले डीपफेक अडियोमार्फत गलत सूचना, प्रतिस्पर्धी व्यवसायमा ठगी वा व्यक्तिगत पहिचानको दुरुपयोग हुनसक्ने डर छ । यी सम्भावित दुरुपयोगका कारण नै Meta ले हाल मोडललाई सार्वजनिक नगरी, AI-निर्मित र वास्तविक आवाज छुट्याउने क्लासिफायर उपकरणमात्र विकास गरेको अवस्था छ । यस्तो परिदृश्यमा, हामीले यस प्रविधिको सबैभन्दा राम्रो र सबैभन्दा नराम्रो प्रयोग के हुनेछन् भनेर सचेत हुनु अत्यावश्यक देखिन्छ — तपाईंलाई कस्तो लाग्छ ?