Wednesday, June 10, 2026

Google का Gemini 3.5 Live Translate मॉडल बोलते वक्त ही ऑडियो प्रोसेस करता है और 70 से अधिक भाषाओं में रियल-टाइम ट्रांसलेशन देता है.

Share

 अलग-अलग क्षेत्रों के इंसानों के बीच भाषा हमेशा से एक बड़ी रुकावट रही है. अब गूगल ने इस परेशानी को खत्म करने के लिए एक बड़ा कदम उठाया है. कंपनी ने अपना नया स्पीच-टू-स्पीच ट्रांसलेशन मॉडल Gemini 3.5 Live Translate पेश किया है, जो 70 से अधिक भाषाओं को पहचान सकता है और रियल-टाइम में अनुवाद कर सकता है. यह सिर्फ शब्दों का अनुवाद नहीं करता, बल्कि बोलने वाले की आवाज का लहजा, रफ्तार और भाव भी बरकरार रखता है. यही बात इसे पुराने ट्रांसलेशन टूल्स से एकदम अलग बनाती है.

गूगल ने अपने ब्लॉग पोस्ट में बताया कि यह प्रोजेक्ट करीब दो दशक पहले शुरू हुई मशीन लर्निंग की उन शुरुआती कोशिशों का अगला पड़ाव है, जो आज इस मुकाम तक पहुंची हैं. कंपनी का कहना है कि यह टेक्नोलॉजी खासतौर पर मल्टीलिंग्वल मीटिंग्स, लाइव ब्रॉडकास्ट, ऑनलाइन क्लासेस, कस्टमर सपोर्ट और रियल-टाइम इंटरप्रिटेशन जैसे कामों के लिए बनाया गया है. इसका मतलब है कि अब आप किसी विदेशी क्लाइंट से या किसी दूसरी भाषा में बोलने वाले इंसान से बिना किसी परेशानी या झिझक के बातचीत कर सकते हैं. इसके लिए आपको किसी दूसरे भाषा का यूज़ भी नहीं करना पड़ेगा.

Gemini 3.5 Live Translate कैसे काम करता है?

इस मॉडल की सबसे खास बात यह है कि यह ऑडियो को स्ट्रीम होते वक्त ही प्रोसेस करता है, यानी जैसे-जैसे कोई बोलता है, वैसे-वैसे ट्रांसलेशन तैयार होता जाता है. मेन स्पीकर की आवाज से बस कुछ सेकंड की देरी के बाद ही ट्रांसलेशन सुनाई देता है. टर्न-बेस्ड ट्रांसलेशन सिस्टम में जो लंबे रुकाव आते थे, वो इस मॉडल में नहीं हैं. इसके अलावा यह शोरगुल भरे माहौल में भी सटीक काम करता है और खुद-ब-खुद भाषा पहचान लेता है, यानी मैन्युअली कोई सेटिंग करने की जरूरत नहीं है.

गूगल मीट (Google Meet) में भी इस टेक्नोलॉजी को जोड़ा जा रहा है. पहले गूगल मीट में सिर्फ पांच भाषाओं में ट्रांसलेशन होता था, लेकिन अब गूगल ने इस बढ़ाकर 70 भाषाओं से भी ज्यादा कर दिया है. यह फीचर iOS, एंड्रॉयड और गूगल ट्रांसलेट ऐप में भी आ रहा है, जहां इसे लाइव ट्रांसलेट के नाम से जाना जाएगा. एंड्रॉयड यूज़र्स के लिए एक लिसनिंग मोड भी आ रहा है, जिससे ट्रांसलेट हो चुकी आवाज़ सीधे स्मार्टफोन के ईयरपीस से सुनी जा सकेगी.

एआई-जनरेटेड कंटेंट को लेकर जो चिंताएं जताई जा रही थी, उसके बारे में भी गूगल ने बिल्कुल साफ कहा है कि Gemini 3.5 Live Translate से तैयार होने वाली हर ऑडियो में SynthID वॉटरमार्क एम्बेड किया जाएगा. यह कंपनी की खुद की वाटरमार्किंग टेक्नोलॉजी है, जो एआई-जनरेटेड कंटेंट की पहचान में मदद करती है. अगर आप डेवलपर्स हैं तो इस मॉडल को Gemini Live API और Google AI Studio के जरिए पब्लिक प्रीव्यू में एक्सेस कर सकते हैं.

Read more

Local News