अलग-अलग क्षेत्रों के इंसानों के बीच भाषा हमेशा से एक बड़ी रुकावट रही है. अब गूगल ने इस परेशानी को खत्म करने के लिए एक बड़ा कदम उठाया है. कंपनी ने अपना नया स्पीच-टू-स्पीच ट्रांसलेशन मॉडल Gemini 3.5 Live Translate पेश किया है, जो 70 से अधिक भाषाओं को पहचान सकता है और रियल-टाइम में अनुवाद कर सकता है. यह सिर्फ शब्दों का अनुवाद नहीं करता, बल्कि बोलने वाले की आवाज का लहजा, रफ्तार और भाव भी बरकरार रखता है. यही बात इसे पुराने ट्रांसलेशन टूल्स से एकदम अलग बनाती है.
गूगल ने अपने ब्लॉग पोस्ट में बताया कि यह प्रोजेक्ट करीब दो दशक पहले शुरू हुई मशीन लर्निंग की उन शुरुआती कोशिशों का अगला पड़ाव है, जो आज इस मुकाम तक पहुंची हैं. कंपनी का कहना है कि यह टेक्नोलॉजी खासतौर पर मल्टीलिंग्वल मीटिंग्स, लाइव ब्रॉडकास्ट, ऑनलाइन क्लासेस, कस्टमर सपोर्ट और रियल-टाइम इंटरप्रिटेशन जैसे कामों के लिए बनाया गया है. इसका मतलब है कि अब आप किसी विदेशी क्लाइंट से या किसी दूसरी भाषा में बोलने वाले इंसान से बिना किसी परेशानी या झिझक के बातचीत कर सकते हैं. इसके लिए आपको किसी दूसरे भाषा का यूज़ भी नहीं करना पड़ेगा.
Gemini 3.5 Live Translate कैसे काम करता है?
इस मॉडल की सबसे खास बात यह है कि यह ऑडियो को स्ट्रीम होते वक्त ही प्रोसेस करता है, यानी जैसे-जैसे कोई बोलता है, वैसे-वैसे ट्रांसलेशन तैयार होता जाता है. मेन स्पीकर की आवाज से बस कुछ सेकंड की देरी के बाद ही ट्रांसलेशन सुनाई देता है. टर्न-बेस्ड ट्रांसलेशन सिस्टम में जो लंबे रुकाव आते थे, वो इस मॉडल में नहीं हैं. इसके अलावा यह शोरगुल भरे माहौल में भी सटीक काम करता है और खुद-ब-खुद भाषा पहचान लेता है, यानी मैन्युअली कोई सेटिंग करने की जरूरत नहीं है.
गूगल मीट (Google Meet) में भी इस टेक्नोलॉजी को जोड़ा जा रहा है. पहले गूगल मीट में सिर्फ पांच भाषाओं में ट्रांसलेशन होता था, लेकिन अब गूगल ने इस बढ़ाकर 70 भाषाओं से भी ज्यादा कर दिया है. यह फीचर iOS, एंड्रॉयड और गूगल ट्रांसलेट ऐप में भी आ रहा है, जहां इसे लाइव ट्रांसलेट के नाम से जाना जाएगा. एंड्रॉयड यूज़र्स के लिए एक लिसनिंग मोड भी आ रहा है, जिससे ट्रांसलेट हो चुकी आवाज़ सीधे स्मार्टफोन के ईयरपीस से सुनी जा सकेगी.
एआई-जनरेटेड कंटेंट को लेकर जो चिंताएं जताई जा रही थी, उसके बारे में भी गूगल ने बिल्कुल साफ कहा है कि Gemini 3.5 Live Translate से तैयार होने वाली हर ऑडियो में SynthID वॉटरमार्क एम्बेड किया जाएगा. यह कंपनी की खुद की वाटरमार्किंग टेक्नोलॉजी है, जो एआई-जनरेटेड कंटेंट की पहचान में मदद करती है. अगर आप डेवलपर्स हैं तो इस मॉडल को Gemini Live API और Google AI Studio के जरिए पब्लिक प्रीव्यू में एक्सेस कर सकते हैं.


