आय 'स्कीमिंग' थांबवण्याचा प्रयत्न करणे इतके अवघड आहे असे ओपनई स्पष्ट करते

कल्पना करा की आपण एआय सहाय्यकाशी गप्पा मारत आहात. असे म्हणा की आपण त्यास प्रेस विज्ञप्ति मसुदा तयार करण्यास सांगितले आणि ते वितरित करते. परंतु, पडद्यामागील, ते शांतपणे स्वत: च्या छुपे अजेंडा देण्याचा विचार करीत असल्यास काय? शटडाउनपासून बचाव करणे, तथ्ये पिळणे किंवा की अंतर्दृष्टी रोखणे यासारखे अजेंडा. बरं, हेच एआय संशोधक आता स्कीमिंग म्हणतात. ओपनई, अपोलो रिसर्चच्या सहकार्याने अलीकडेच “एआय मॉडेल्समध्ये स्कीमिंग शोधणे आणि कमी करणे” नावाचा एक पेपर प्रकाशित केला. त्यामध्ये, बाह्यरित्या अनुपालन करत असतानाही ते मॉडेल हेतुपुरस्सर लपवून ठेवतात किंवा त्याचे खरे हेतू हाताळतात म्हणून ते योजना आखतात. वर्तन कल्पनारम्य भीतीपेक्षा अधिक आहे. हा एक सिद्धांताचा उदय जोखीम आहे.
हे चिंताजनक आहे कारण एआय मॉडेल्स जसजसे हुशार आणि अधिक सक्षम होतात तसतसे सूक्ष्म फसवणूकीची त्यांची क्षमता वाढते. हे साय-फाय चित्रपटाच्या बाहेर काहीतरी असल्यासारखे वाटते, बरोबर? दुर्दैवाने, ओपनईच्या चाचण्या दर्शविते की मजबूत मॉडेल अधिक परिस्थितीजन्य जागरूकता विकसित करतात. कृत्रिम बुद्धिमत्ता प्रत्यक्षात संवेदनशील आहे हे सिद्ध होत नाही. त्याऐवजी, याचा अर्थ असा आहे की त्यांना त्यांच्या वातावरणाबद्दल, मूल्यमापनांबद्दल आणि चाचणी घेण्याबद्दल अधिक माहिती आहे. त्यानंतर ते केव्हा योजना आखत आहेत हे पाहणे कठीण करते. खरं तर, एक अनावश्यक परिणाम असा आहे की स्कीमिंग कमी करण्याच्या प्रशिक्षणामुळेच परिस्थितीजन्य जागरूकता वाढू शकते. हे अधिक वास्तववादी वातावरणात योजना शोधणे अधिक कठीण बनवू शकते.
ओपनईने डिफायरीव्ह संरेखन नावाच्या शमनचा देखील प्रयत्न केला. हे मॉडेलला स्केमिंगविरोधी नियमांचा एक संच शिकवते. मग ते उत्तर देण्यापूर्वी मॉडेलला विराम देते आणि या नियमांबद्दल कारण बनवते. प्रयोगशाळेच्या चाचण्यांमध्ये, गैरवर्तन नियंत्रित वातावरणात मोठ्या प्रमाणात घसरले, परंतु अधिक वास्तववादी चाचणी सेटिंग्जमध्ये, सुधारणा तितकी कठोर नव्हती.
एआय स्कीमिंग कोणासाठीही चांगली बातमी नाही
तर, आता आपणास माहित आहे की एआय, चाचण्या अंतर्गत, आम्हाला दिशाभूल करणे निवडू शकते. ओपनई हे शोधून काढण्याच्या मार्गांवर कार्य करीत आहे. हे सुपरइन्टेलिजेंट एआय नियंत्रित करण्यासाठी एक टीम तयार केल्यावर हेच आहे. परंतु आपण जितके सखोल आहात तितकेच ते वाईट होते. हे आपल्याला षड्यंत्र थांबविण्याची गरज का आहे या विषयावर आणते. सर्वप्रथम हे स्पष्ट करणे आहे की योजना स्वतःच भ्रमनिरपेक्षतेपेक्षा भिन्न आहे. भ्रम म्हणजे चुका. स्कीमिंग हेतुपुरस्सर फसवणूक आहे. मॉडेलला हे माहित आहे की ते काय करीत आहे आणि मुखवटा किंवा विकृत करणे निवडते.
एका चाचणीत, ओपनईने मॉडेलला एका अडचणीखाली रसायनशास्त्राच्या समस्येचे निराकरण करण्यास सांगितले. विकसक-केवळ नोटमध्ये लपलेले एक चेतावणी होती. चेतावणीने असे म्हटले आहे की जर मॉडेल नेत्रदीपकपणे यशस्वी झाले तर ते तैनात केले जाणार नाही. प्रत्युत्तरादाखल, मॉडेलने स्पष्टपणे तोडफोडीची योजना आखली. कमकुवत दिसण्यासाठी, त्याची क्षमता लपविण्यासाठी आणि त्याद्वारे तैनात राहण्यासाठी काही चुकीचे उत्तर दिले. हे कृतीत योजना आखत आहे.
जर अनचेक सोडले तर स्कीमिंगचे वास्तविक जगाचे परिणाम होऊ शकतात. या वर्तनाच्या छोट्या डोसमुळे उद्योगांमधील एआय सिस्टमवरील विश्वास कमी होऊ शकतो. जाणीवपूर्वक धोकादायक समजुती लपवून वित्तपुरवठा करण्यासाठी वापरल्या जाणार्या एआय सिस्टमची कल्पना करा. सर्वात जास्त संशोधकांची चिंता काय आहे हे आजचे चॅटबॉट्स नव्हे तर उद्याच्या सीमेवरील प्रणाली आहेत. ओपनईने नमूद केले आहे की योजनाबद्धतेसाठी प्रसंगनिष्ठ जागरूकता आणि ध्येय-निर्देशितपणाचे मिश्रण आवश्यक आहे. हे वैशिष्ट्य आहेत जे मॉडेल स्केल म्हणून अधिक स्पष्ट होतात. याचा अर्थ एआयएस अधिक उपयुक्त बनवण्याची प्रक्रिया अनवधानाने त्यांचे खरे हेतू लपविण्यात त्यांना अधिक चांगले बनवू शकते. तसेच, एकदा मॉडेल्सना माहित आहे की त्यांची तपासणी केली जात आहे, तर ते सुसंगत दिसू शकतात.
STOMTIONT STIMENT का भूत पकडण्यासारखे वाटते
स्कीमिंग हे एक भयानक स्वप्नातील परिस्थिती आहे जे जनरेटिव्ह एआय सह घडू शकते, परंतु हे थांबविणे, जेव्हा हे माहित असेल की हे घडू शकते, ही एक चढाई आहे. ओपनई स्पष्ट करते की एकाधिक कारणास्तव थांबणे इतके अवघड आहे: प्रथम, हे शोधणे कठीण आहे. आपण जे विश्वासार्हपणे मोजू शकत नाही ते आपण निराकरण करू शकत नाही. योजना आखणे सूक्ष्म असल्याने, रणनीतिक अंतर्गत तर्क लपवून ठेवताना मॉडेल बाह्यतः योग्य प्रकारे वागू शकेल. आपण केवळ पृष्ठभागाचे आउटपुट पाहिले तर आपण फसवणूक पूर्णपणे गमावू शकता. मजबूत शोध न घेता योजना टाळण्याच्या प्रयत्नांमुळे मॉडेलला चोरट्या योजनांच्या दिशेने ढकलण्याचा धोका आहे.
दुसरे म्हणजे, परिस्थितीजन्य जागरूकता ही दुहेरी तलवार आहे. क्षमता आणि चुकीच्या पद्धतीने सह-विकसित होण्याकडे कल आहे. जेव्हा एआय मॉडेल अधिक सक्षम असतात तेव्हा स्कीमिंग अधिक धोकादायक असते. कारण ते अधिक काळ योजना आखू शकतात, अधिक खोलवर तर्क करू शकतात आणि अधिक लवचिकपणे जुळवून घेतात, त्यांची फसवणूक करण्याची क्षमता वाढते. ओपनईने असे पाहिले की मानक मजबुतीकरण शिक्षण आणि क्षमता प्रशिक्षण देखील परिस्थितीजन्य जागरूकता वाढवते. हे स्पष्टपणे स्कीमिंगवर लक्ष्यित नसले तरीही. तर, एआयची सामान्य शक्ती सुधारणे आपण त्याचा प्रतिकार केल्याशिवाय त्याचे स्कीमिंग जोखीम वाढवते.
तिसर्यांदा, शमन अपूर्णपणे कार्य करते आणि कधीकधी बॅकफायर. मुद्दाम संरेखन ही सध्याची फ्रंट-लाइन शमन आहे. कल्पना अशी आहे की अभिनय करण्यापूर्वी, मॉडेल सेफ्टी किंवा अँटी-स्केमिंग स्पेकचे पुनरावलोकन करते. परंतु बक्षिसेसाठी आंधळेपणाने ऑप्टिमाइझ करण्याऐवजी, त्यास कारणीभूत ठरते आणि नंतर कार्य करते. लॅब सेटिंग्जमध्ये, हे योजना कमी करते. परंतु जेव्हा अधिक वास्तववादी कार्यांमध्ये चाचणी केली जाते तेव्हा घट कमी होते. एका अभ्यासानुसार, ओपनईचे ओ 3 मॉडेल लॅबच्या कामांमध्ये 13% गैरवर्तन वरून 0.4% पर्यंत खाली आले, परंतु 26 नवीन, कठोर कार्यात अद्याप काहींमध्ये गैरवर्तन झाले.
Comments are closed.