भाषण को समझने में एआई ने इंसानों से बेहतर प्रदर्शन किया – एक उल्लेखनीय अपवाद के साथ

Listen to this article


ओपनएआई की नवीनतम वाक् पहचान प्रणाली ने कई चुनौतीपूर्ण परिस्थितियों में मानव श्रोताओं की तुलना में बेहतर प्रदर्शन का प्रदर्शन किया है – शोरगुल वाले पब में बातचीत को समझने की कोशिश को छोड़कर।

यह निष्कर्ष जेएएसए एक्सप्रेस लेटर्स में प्रकाशित एक नए अध्ययन से आया है, जहां शोधकर्ताओं ने तेजी से कठिन सुनने के कार्यों की एक श्रृंखला में देशी ब्रिटिश अंग्रेजी बोलने वालों को अत्याधुनिक एआई सिस्टम के खिलाफ खड़ा किया। यह अध्ययन मशीनों में मानव-स्तरीय वाक् पहचान प्राप्त करने की दशकों पुरानी खोज में एक महत्वपूर्ण मील का पत्थर है।

ज्यूरिख विश्वविद्यालय के कम्प्यूटेशनल भाषाविज्ञान विशेषज्ञ और अध्ययन के सह-लेखक एलेनोर चॉड्रोफ़ कहते हैं, “यह प्रभावशाली था क्योंकि परीक्षण किए गए वाक्यों को संदर्भ से बाहर प्रस्तुत किया गया था, और पिछले शब्दों में से किसी एक शब्द की भविष्यवाणी करना मुश्किल था।”

ह्यूमन टच बनाम मशीन लर्निंग

चॉड्रोफ़ और कैम्ब्रिज यूनिवर्सिटी के क्लो पैटमैन के नेतृत्व में शोध दल ने विभिन्न चुनौतीपूर्ण परिस्थितियों में मानव श्रोताओं के विरुद्ध दो प्रमुख एआई सिस्टम – मेटा के wav2vec 2.0 और ओपनएआई के व्हिस्पर – का परीक्षण किया। इनमें निरंतर पृष्ठभूमि शोर से छिपा भाषण, चेहरे पर मास्क से छिपा भाषण और पब का जटिल ऑडियो वातावरण शामिल था।

जबकि अधिकांश एआई सिस्टम मानव प्रदर्शन से पीछे रह गए, ओपनएआई के सबसे उन्नत मॉडल, व्हिस्पर लार्ज-वी3 ने एक उल्लेखनीय उपलब्धि हासिल की: इसने पब के शोर को छोड़कर हर स्थिति में मानव श्रोताओं से बेहतर प्रदर्शन किया, जहां यह केवल मानव क्षमता से मेल खाता था।

सीखने का अंतर

शायद अध्ययन से सबसे आश्चर्यजनक रहस्योद्घाटन मनुष्यों और मशीनों के बीच प्रशिक्षण आवश्यकताओं में भारी अंतर में निहित है। उच्च प्रदर्शन वाली व्हिस्पर प्रणाली को प्रशिक्षण के लिए 500 वर्षों से अधिक के भाषण डेटा की आवश्यकता होती है – मानव सीखने की तुलना में एक खगोलीय राशि।

मानव भाषा अधिग्रहण की उल्लेखनीय दक्षता पर प्रकाश डालते हुए चोड्रोफ़ बताते हैं, “मनुष्य कुछ ही वर्षों में इस प्रदर्शन की बराबरी करने में सक्षम है।” वह यह भी नोट करती हैं कि “लगभग सभी अन्य भाषाओं में स्वचालित वाक् पहचान के लिए काफी चुनौतियाँ बनी हुई हैं।”

समझने के विभिन्न रास्ते

अध्ययन में मनुष्यों और मशीनों के भाषण को संसाधित करने के तरीके में दिलचस्प अंतर सामने आया। सटीक शब्दों के बारे में अनिश्चित होने पर भी मानव श्रोता लगातार व्याकरणिक रूप से सही वाक्य प्रस्तुत करते हैं। इसके विपरीत, चुनौतीपूर्ण परिस्थितियों में मेटा का wav2vec 2.0 अक्सर अस्पष्ट आउटपुट देता है, जबकि व्हिस्पर व्याकरणिक रूप से सही लेकिन संभावित रूप से गलत व्याख्याएं बनाता है।

त्रुटि पैटर्न में यह अंतर वाक् पहचान तकनीक के भविष्य के विकास के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है, विशेष रूप से भीड़-भाड़ वाली जगहों जैसे चुनौतीपूर्ण ध्वनिक वातावरण में या फेस मास्क जैसे सुरक्षात्मक उपकरणों के माध्यम से।

एक नज़र में अध्ययन करें

  • में प्रकाशित: जेएएसए एक्सप्रेस लेटर्स
  • परीक्षण की स्थिति: भाषण के आकार का शोर, पब का शोर, चेहरे पर मास्क का हस्तक्षेप
  • प्रतिभागी: 60 देशी ब्रिटिश अंग्रेजी बोलने वाले
  • AI सिस्टम का परीक्षण किया गया: wav2vec 2.0 (मेटा) और व्हिस्पर (OpenAI)
  • मुख्य खोज: व्हिस्पर लार्ज-वी3 ने अधिकांश स्थितियों में मनुष्यों से बेहतर प्रदर्शन किया

यह शोध वाक् पहचान के क्षेत्र में एक महत्वपूर्ण मील का पत्थर साबित हुआ है, साथ ही यह मानव भाषा प्रसंस्करण की उल्लेखनीय दक्षता पर भी प्रकाश डालता है। जैसे-जैसे एआई सिस्टम विकसित हो रहे हैं, भाषण को समझने में मानव और मशीन की क्षमताओं के बीच का अंतर कम होता जा रहा है – भले ही मशीनें अभी भी स्थानीय पब में बातचीत करने में मनुष्यों की बराबरी नहीं कर सकती हैं।

यदि आपको यह अंश उपयोगी लगा, तो कृपया एक छोटे, एकमुश्त या मासिक दान के साथ हमारे काम का समर्थन करने पर विचार करें। आपका योगदान हमें आपके लिए सटीक, विचारोत्तेजक विज्ञान और चिकित्सा समाचार लाते रहने में सक्षम बनाता है जिन पर आप भरोसा कर सकते हैं। स्वतंत्र रिपोर्टिंग में समय, प्रयास और संसाधन लगते हैं, और आपका समर्थन हमारे लिए उन कहानियों की खोज करना संभव बनाता है जो आपके लिए महत्वपूर्ण हैं। साथ मिलकर, हम यह सुनिश्चित कर सकते हैं कि महत्वपूर्ण खोजें और विकास उन लोगों तक पहुंचें जिन्हें उनकी सबसे अधिक आवश्यकता है।



Source link

Leave a Comment