ओपनएआई ने 2022 में व्हिस्पर नामक एक कृत्रिम बुद्धिमत्ता (एआई) टूल जारी किया, जो भाषण को पाठ में स्थानांतरित कर सकता है। हालाँकि, एक रिपोर्ट में दावा किया गया है कि एआई टूल मतिभ्रम से ग्रस्त है और ट्रांसक्रिप्शन में काल्पनिक पाठ जोड़ रहा है। यह चिंताजनक है क्योंकि कहा जाता है कि इस उपकरण का उपयोग चिकित्सा और पहुंच जैसे कई उच्च जोखिम वाले उद्योगों में किया जाता है। कथित तौर पर एक विशेष चिंता डॉक्टर-रोगी परामर्श में उपकरण के उपयोग से आती है, जहां मतिभ्रम संभावित रूप से हानिकारक जानकारी जोड़ सकता है और रोगी के जीवन को खतरे में डाल सकता है।
ओपनएआई व्हिस्पर कथित तौर पर मतिभ्रम से ग्रस्त है
एसोसिएटेड प्रेस सूचना दी ओपनएआई की स्वचालित वाक् पहचान (एएसआर) प्रणाली व्हिस्पर में मतिभ्रम वाले पाठ उत्पन्न करने की उच्च क्षमता है। कई सॉफ्टवेयर इंजीनियरों, डेवलपर्स और अकादमिक शोधकर्ताओं के साक्षात्कार का हवाला देते हुए, प्रकाशन ने दावा किया कि काल्पनिक पाठ में नस्लीय विवरण, हिंसा और चिकित्सा उपचार और दवाएं शामिल हैं।
एआई की भाषा में मतिभ्रम, एक प्रमुख मुद्दा है जिसके कारण एआई सिस्टम ऐसी प्रतिक्रियाएं उत्पन्न करता है जो गलत या भ्रामक होती हैं। व्हिस्पर के मामले में, कहा जाता है कि एआई ऐसे पाठ का आविष्कार कर रहा है जो कभी किसी के द्वारा नहीं बोला गया था।
प्रकाशन द्वारा सत्यापित एक उदाहरण में, वक्ता का वाक्य, “वह, वह लड़का, छाता लेने जा रहा था, मुझे ठीक-ठीक पता नहीं है।” इसे बदलकर “उसने क्रॉस का एक बड़ा टुकड़ा, एक छोटा, छोटा टुकड़ा लिया… मुझे यकीन है कि उसके पास आतंकवादी चाकू नहीं था इसलिए उसने कई लोगों को मार डाला।” एक अन्य उदाहरण में, व्हिस्पर ने कथित तौर पर बिना किसी उल्लेख के नस्लीय जानकारी जोड़ दी।
जबकि एआई क्षेत्र में मतिभ्रम कोई नई समस्या नहीं है, इस विशेष उपकरण का मुद्दा अधिक प्रभावशाली है क्योंकि ओपन-सोर्स तकनीक का उपयोग कई उपकरणों द्वारा किया जा रहा है जो उच्च जोखिम वाले उद्योगों में उपयोग किए जा रहे हैं। उदाहरण के लिए, पेरिस स्थित नाबला ने एक व्हिस्पर-आधारित उपकरण बनाया है जिसका उपयोग कथित तौर पर 30,000 से अधिक चिकित्सकों और 40 स्वास्थ्य प्रणालियों द्वारा किया जा रहा है।
नाबला के उपकरण का उपयोग सात मिलियन से अधिक चिकित्सा यात्राओं को लिखने के लिए किया गया है। डेटा सुरक्षा बनाए रखने के लिए कंपनी अपने सर्वर से मूल रिकॉर्डिंग भी हटा देती है। इसका मतलब यह है कि यदि इन सात मिलियन प्रतिलेखन में कोई मतिभ्रम पाठ उत्पन्न हुआ था, तो उन्हें सत्यापित करना और सही करना असंभव है।
एक अन्य क्षेत्र जहां प्रौद्योगिकी का उपयोग किया जा रहा है वह बधिर और कम सुनने वाले समुदाय के लिए पहुंच उपकरण बनाने में है, जहां फिर से, उपकरण की सटीकता को सत्यापित करना काफी कठिन है। ऐसा कहा जाता है कि अधिकांश मतिभ्रम पृष्ठभूमि शोर, अचानक रुकने और अन्य पर्यावरणीय ध्वनियों से उत्पन्न होता है।
मुद्दे की व्यापकता भी चिंताजनक है. एक शोधकर्ता का हवाला देते हुए, प्रकाशन ने दावा किया कि प्रत्येक 10 ऑडियो ट्रांसक्रिप्शन में से आठ में मतिभ्रम वाला पाठ पाया गया। एक डेवलपर ने प्रकाशन को बताया कि मतिभ्रम “व्हिस्पर के साथ बनाए गए 26,000 प्रतिलेखों में से प्रत्येक में हुआ।”
उल्लेखनीय रूप से, पर शुरू करना व्हिस्पर के ओपनएआई ने कहा कि व्हिस्पर उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा को मानव-स्तरीय मजबूती प्रदान करता है। कंपनी के एक प्रवक्ता ने प्रकाशन को बताया कि एआई फर्म लगातार मतिभ्रम को कम करने के तरीकों का अध्ययन करती है और भविष्य के मॉडल अपडेट में फीडबैक को शामिल करने का वादा किया है।