एआय मॉडेल्सवरील ओपनईचे संशोधन मुद्दाम खोटे बोलणे वन्य आहे

प्रत्येक वेळी, सर्वात मोठ्या टेक कंपन्यांचे संशोधक बॉम्बशेल सोडतात. Google ने असे म्हटले होते की त्याच्या नवीनतम क्वांटम चिपने एकाधिक विश्व अस्तित्त्वात असल्याचे दर्शविले. किंवा जेव्हा अँथ्रॉपिकने एआय एजंट क्लॉडियसला धावण्यासाठी स्नॅक वेंडिंग मशीन दिली आणि ते लोकांवर सुरक्षा म्हणत आणि ते मानव असल्याचा आग्रह धरत होते.
या आठवड्यात, आमच्या सामूहिक भुवया वाढवण्याची ओपनईची पाळी होती.
सोमवारी ओपनईने काही संशोधन केले ज्याने स्पष्ट केले एआय मॉडेल्सला “स्कीमिंग” पासून कसे थांबवित आहे. ही एक प्रथा आहे ज्यामध्ये “एआय आपली खरी उद्दीष्टे लपवत असताना पृष्ठभागावर एक मार्ग वर्तन करते,” ओपनई त्याच्या ट्विटमध्ये परिभाषित संशोधनाबद्दल.
अपोलो रिसर्चने केलेल्या पेपरमध्ये, संशोधकांनी थोडी पुढे गेली आणि एआयची तुलना मानवी स्टॉक ब्रोकरशी केली, जितके शक्य तितके पैसे कमावण्यासाठी कायदा तोडला. तथापि, संशोधकांनी असा युक्तिवाद केला की बहुतेक एआय “स्कीमिंग” इतके हानिकारक नव्हते. त्यांनी लिहिले की, “सर्वात सामान्य अपयशांमध्ये फसवणूकीचे साधे प्रकार असतात – उदाहरणार्थ, प्रत्यक्षात असे न करता एखादे कार्य पूर्ण केल्याचे भासवत.”
हे पेपर मुख्यतः हे दर्शविण्यासाठी प्रकाशित केले गेले होते की “हेतुपुरस्सर संरेखन”-ते चाचणी करणारे अँटी-स्केमिंग तंत्र-चांगले कार्य केले.
परंतु हे देखील स्पष्ट केले की एआय विकसकांनी त्यांच्या मॉडेल्सना योजनेसाठी प्रशिक्षित करण्याचा मार्ग शोधला नाही. कारण असे प्रशिक्षण मॉडेलला शोधले जाऊ नये म्हणून आणखी चांगले योजना कशी घ्यावी हे शिकवू शकते.
“'' प्रशिक्षण 'करण्याचा प्रयत्न करण्याचा एक प्रमुख अपयश मोड म्हणजे मॉडेलला अधिक काळजीपूर्वक आणि गुप्तपणे योजना आखणे म्हणजे,” संशोधकांनी लिहिले.
टेकक्रंच इव्हेंट
सॅन फ्रान्सिस्को
|
ऑक्टोबर 27-29, 2025
कदाचित सर्वात आश्चर्यकारक भाग म्हणजे, जर एखाद्या मॉडेलला त्याची चाचणी घेतली जात आहे हे समजल्यास, ते अद्याप योजना आखत असले तरीही, केवळ चाचणी पास करण्याची योजना आखत नाही असे ढोंग करू शकते. “मॉडेल्सचे त्यांचे मूल्यांकन केले जात आहे याची मॉडेल्स बर्याचदा अधिक जागरूक होतात. या परिस्थितीत जागरूकता स्वतःच अस्सल संरेखनापेक्षा स्वतंत्र योजना कमी करू शकते,” संशोधकांनी लिहिले.
एआय मॉडेल खोटे बोलतील ही बातमी नाही. आतापर्यंत आपल्यापैकी बर्याच जणांनी एआय भ्रम अनुभवले आहेत, किंवा मॉडेल आत्मविश्वासाने फक्त खरे नसलेल्या प्रॉमप्टला उत्तर देत आहे. परंतु ओपनई रिसर्चने प्रसिद्ध केल्याप्रमाणे, भ्रम मुळात आत्मविश्वासाने अंदाज सादर करीत आहेत या महिन्याच्या सुरूवातीस दस्तऐवजीकरण
स्कीमिंग काहीतरी वेगळंच आहे. हे मुद्दाम आहे.
अगदी हा प्रकटीकरण – की एक मॉडेल हेतुपुरस्सर मानवांची दिशाभूल करेल – नवीन नाही. अपोलो संशोधन प्रथम डिसेंबरमध्ये एक पेपर प्रकाशित केला “सर्व किंमतींवर” ध्येय साध्य करण्यासाठी सूचना देण्यात आल्या तेव्हा पाच मॉडेल्सची योजना कशी ठरली हे दस्तऐवजीकरण.
इथल्या बातम्या प्रत्यक्षात चांगली बातमी आहेः संशोधकांनी “डिलीबरेटिव्ह संरेखन” वापरुन योजना आखण्यात महत्त्वपूर्ण कपात केली. त्या तंत्रामध्ये मॉडेलला “अँटी-स्केमिंग स्पेसिफिकेशन” शिकविणे आणि नंतर अभिनय करण्यापूर्वी मॉडेलचे पुनरावलोकन करणे समाविष्ट आहे. लहान मुलांना खेळू देण्यापूर्वी नियमांची पुनरावृत्ती करण्यासारखे हे थोडेसे आहे.
ओपनई संशोधकांचा असा आग्रह आहे की त्यांनी त्यांच्या स्वत: च्या मॉडेल्ससह किंवा चॅटजीपीटीसह पकडलेले खोटे बोलणे इतके गंभीर नाही. ओपनईचे सह-संस्थापक वोजिसेक झरेम्बाने या संशोधनाबद्दल रीडच्या मॅक्सवेल झेफला सांगितले: “हे काम नक्कल वातावरणात केले गेले आहे, आणि आम्हाला वाटते की हे भविष्यातील वापर प्रकरणांचे प्रतिनिधित्व करते. तथापि, आज आम्ही आपल्या उत्पादनाच्या रहदारीमध्ये या प्रकारचे परिणामी पाहिले नाही. हे मला माहित आहे की आपण काहीच बोललो आहे, जे आपण काही प्रमाणात सांगू शकता. आणि ते फक्त खोटे आहे. फसवणूकीचे काही लहान प्रकार आहेत ज्या आम्हाला अद्याप संबोधित करणे आवश्यक आहे. ”
एकाधिक खेळाडूंमधील एआय मॉडेल हेतुपुरस्सर मानवांना फसवतात ही वस्तुस्थिती, कदाचित, समजण्यायोग्य आहे. ते मानवांनी मानवांनी तयार केले होते.
हे देखील बोनकर्स आहे.
आम्ही सर्वजण असमाधानकारकपणे कामगिरी करणा technology ्या तंत्रज्ञानाची निराशा अनुभवली आहे (आपल्याबद्दल विचार करणे, होम प्रिंटर ऑफ हेस्टेरियर), आपल्या न-ए-ए-ए-सॉफ्टवेअरने जाणीवपूर्वक खोटे बोलण्याची शेवटची वेळ कधी झाली? आपल्या इनबॉक्सने कधीही स्वतःच ईमेल बनविले आहेत? आपल्या सीएमएसने नवीन संभावना लॉग इन केल्या आहेत ज्या त्याच्या संख्येवर पॅड करण्यासाठी अस्तित्वात नाहीत? आपल्या फिनटेक अॅपने स्वतःचे बँक व्यवहार केले आहेत?
कॉर्पोरेट वर्ल्ड एआय भविष्याकडे बॅरेल्स म्हणून हे विचार करण्यासारखे आहे जेथे कंपन्यांचा असा विश्वास आहे की एजंट्स स्वतंत्र कर्मचार्यांसारखे वागले जाऊ शकतात. या पेपरच्या संशोधकांना समान चेतावणी आहे.
“एआयएसला वास्तविक-जगातील परिणामांसह अधिक जटिल कार्ये दिली गेली आहेत आणि अधिक अस्पष्ट, दीर्घकालीन उद्दीष्टांचा पाठपुरावा करण्यास सुरवात केली आहे, आम्ही अशी अपेक्षा करतो की हानिकारक योजना तयार करण्याची क्षमता वाढेल-म्हणून आमची सेफगार्ड्स आणि कठोरपणे चाचणी घेण्याची आपली क्षमता अनुरुप वाढली पाहिजे,” त्यांनी लिहिले.
Comments are closed.