सैन डिएगो विश्वविद्यालय के शोधकर्ताओं ने यह आयोजित किया है कि वे क्या कहते हैं कि एआई मॉडल का अब तक का सबसे कठोर ट्यूरिंग टेस्ट है और पाया कि प्रतिभागियों के लिए एआई मॉडल से मनुष्यों को कम बातचीत में अलग करना लगभग असंभव था।
पायनियर एलन ट्यूरिंग की गणना करके 1950 के एक पेपर में पेश किया गया, “ट्यूरिंग टेस्ट” या जिसे उन्होंने “इमिटेशन गेम” कहा, वह मशीन इंटेलिजेंस का एक क्लासिक परीक्षण है जिसमें एक जज एक मानव और एआई या मशीन के साथ बातचीत करता है, और यह आकलन करने की कोशिश करता है कि कौन मानव है।
“ट्यूरिंग सवाल के साथ कागज खोलता है, ‘क्या मशीनें सोच सकती हैं?” और फिर वह कहते हैं कि यह एक अचूक सवाल है, आइए एक आसान सवाल पर ध्यान केंद्रित करें, एक व्यावहारिक सवाल, ”कैमरन जोन्स, यूसी सैन डिएगो में भाषा और कॉग्निशन लैब में एक पोस्टडॉक कहते हैं। जोन्स कहते हैं, ट्यूरिंग ने सुझाव दिया, “कि अगर कोई मशीन किसी भी विषय पर किसी मानव की नकल कर सकती है, अगर यह व्यवहार का उत्पादन कर सकती है जो कि मानव से अप्रभेद्य है, तो हमारे पास यह कहने के लिए कोई आधार नहीं होना चाहिए कि मानव बुद्धिमान है, लेकिन मशीन नहीं है।”
हालांकि जोन्स नोट करता है कि ट्यूरिंग कितना गंभीर था, इस पर कुछ बहस है, परीक्षण मशीन इंटेलिजेंस का आमतौर पर उद्धृत बेंचमार्क बन गया है।
GPT-4.5 और ट्यूरिंग टेस्ट
अपने अध्ययन के लिए, जोन्स और सहयोगियों ने दो अलग -अलग प्रयोग किए। सबसे पहले, उन्होंने यूसी सैन डिएगो में मनोविज्ञान कार्यक्रम के माध्यम से 126 स्नातक प्रतिभागियों की भर्ती की। उन्होंने एक अध्ययन-प्रतिभागी मंच से 158 भुगतान प्रतिभागियों को भी भर्ती किया, जिसे प्रोलिफिक कहा जाता है।
इन प्रयोगों में, जोन्स और उनके सहयोगियों ने कई एआई मॉडल का परीक्षण किया। शोध में पाया गया कि “जब एक मानवीय व्यक्तित्व को अपनाने के लिए प्रेरित किया जाता है,” जीपीटी -4.5 समय का मानव 73% होने के लिए आंका गया था: वास्तविक मानव प्रतिभागी का चयन करने वाले पूछताछकर्ताओं की तुलना में काफी अधिक बार। ”
एक ही संकेत को देखते हुए, llama-3.1 को 56% समय मानव होने के लिए आंका गया था, उसी के बारे में कि उन मनुष्यों की तुलना में उनकी तुलना की गई थी। इस बीच, GPT-4O को केवल 21% समय मानव माना जाता था।
शिक्षा को बदलने के लिए उपकरण और विचार। नीचे साइन अप करें।
इन दो प्रयोगों के परिणामों को एक के रूप में प्रकाशित किया गया है पूर्व -अध्ययन अध्ययनइसलिए अभी तक सहकर्मी की समीक्षा नहीं की गई है। बहरहाल, जोन्स का मानना है कि उनके शोध ने जो पाया है, उसके बारे में शिक्षकों के लिए कई निहितार्थ हैं, जिस तरह से हम पढ़ाते हैं, परीक्षण करते हैं और छात्रों को कार्यबल के लिए तैयार करते हैं।
परीक्षण परिणाम और शिक्षा
“ट्यूरिंग टेस्ट के पीछे का विचार इस तरह का विचार है, जो कि अविभाज्य का विचार है। और इसलिए यदि मॉडल मानव व्यवहार से व्यवहार का उत्पादन कर सकते हैं, तो हम कहते हैं कि मॉडल लोगों की तरह बुद्धिमान हैं,” जोन्स कहते हैं। “अगर लोग मानव और मशीन के बीच अंतर नहीं बता सकते हैं, तो यह स्पष्ट नहीं है कि मानव के पास कोई भी होगा सीमांत मूल्य उस कार्य में। इसलिए मुझे लगता है कि यह शिक्षा में एक बड़ी चिंता है: इस बारे में सोचने की कोशिश कर रहा है कि भविष्य में मनुष्यों के लिए तुलनात्मक लाभ होगा। “
वह कहते हैं, “एक बात जो हमारे परिणामों का सुझाव देती है, वह यह है कि मॉडल शायद पहले से ही अजनबियों के साथ छोटी बातचीत के लिए इस चरण में पहुंच चुके हैं, और बहुत सारी नौकरियां हो सकती हैं जो उनके लिए उस घटक हैं।”
वास्तव में ये एआई-प्रूफ नौकरियां अभी भी एक “मिलियन-डॉलर का प्रश्न” हैं। मोटे तौर पर, हालांकि, जोन्स का कहना है कि एआई मॉडल अभी भी मतिभ्रम जैसी चीजों के साथ संघर्ष करते हैं। अधिकांश में अस्पष्टीकृत कारणों के लिए अपने “नौकरियों” में विफल होने की प्रवृत्ति भी होती है, और यहां तक कि 5% विफल दर कुछ भूमिकाओं में एक बड़ी समस्या हो सकती है।
वे कहते हैं कि सबसे महत्वपूर्ण एआई मॉडल “लॉन्ग-हॉरिजोन प्लानिंग और संदर्भ के उपयोग” में विफल हो जाते हैं। “एक कर्मचारी जो तीन साल से कंपनी में है, ने अभी -अभी बहुत सारे निहित ज्ञान को उठाया है कि चीजें कहां हैं और चीजें क्यों की जाती हैं, जिस तरह से वे किए गए हैं।”
वह कहते हैं, “एलएलएम के लिए इस सभी जानकारी को शामिल करने के लिए एक संदर्भ विंडो का निर्माण और रखरखाव बहुत चुनौतीपूर्ण हो सकता है। इसका मतलब यह है कि जो कार्य किसी व्यक्ति को कुछ घंटों से अधिक समय तक ले जाते हैं, अक्सर मॉडल के लिए बहुत जटिल होते हैं, क्योंकि उनके पास या तो पर्याप्त संदर्भ या उनकी त्रुटियों की कमी होती है, या उनकी संदर्भ खिड़की बहुत फूटी जाती है।”
इसलिए जब तक एआई कार्यक्रम दीर्घकालिक स्मृति और/या संस्थागत ज्ञान प्राप्त नहीं करते हैं, और उन सभी को लगातार कार्यों में एकीकृत कर सकते हैं, अभी भी मनुष्यों की आवश्यकता होगी।
मूल्यांकन आगे बढ़ रहा है
स्कूल असाइनमेंट पर मानव और मशीन कृतियों के बीच अंतर करने में असमर्थता पहले से ही एक मुद्दा है जो कई शिक्षक से परिचित हैं और जूझ रहे हैं। जोन्स के शोध में कहा गया है कि यह धोखा जोखिम वास्तविक है। इसके अलावा, यह सवाल उठाता है कि हम छात्रों का मूल्यांकन कैसे करते हैं।
उस नस में, जोन्स का कहना है कि शिक्षकों को खुद से सवाल पूछना शुरू करना होगा, जैसे कि, “क्या मूल्यांकन के लिए है? ऐसा क्या है कि आप सीखने की कोशिश कर रहे हैं यदि आप लोगों को उन चीजों पर मूल्यांकन कर रहे हैं जो आप मनुष्यों और मॉडलों के बीच अंतर नहीं कर सकते हैं?”
ये ऐसे प्रश्न हैं जो शिक्षकों के साथ जूझ रहे हैं और बहस कर रहे हैं क्योंकि चटप्ट जारी किए गए थे, लेकिन इस प्रकार के शोध ने उन्हें संबोधित करने की आवश्यकता पर प्रकाश डाला क्योंकि एआई में सुधार जारी है।