एआय मॉडेल्समध्ये ओपनईची वैशिष्ट्ये आढळली जी वेगवेगळ्या 'व्यक्तिरेखा' शी संबंधित आहेत

By Marathi On Jun 18, 2025

ओपनई संशोधकांचे म्हणणे आहे की नवीन संशोधनानुसार त्यांनी एआय मॉडेल्समध्ये लपलेली वैशिष्ट्ये शोधली आहेत जी चुकीच्या “व्यक्तिमत्त्व” किंवा लोकांच्या प्रकारांशी संबंधित आहेत. प्रकाशित बुधवारी कंपनीद्वारे.

एआय मॉडेलच्या अंतर्गत प्रतिनिधित्वांकडे पाहून – एआय मॉडेलला कसे प्रतिसाद देतो हे ठरविणारी संख्या, जी बहुतेकदा मानवांना पूर्णपणे विसंगत वाटली – ओपनई संशोधकांनी मॉडेलचा गैरवापर केल्यावर ते पेटलेले नमुने शोधण्यात सक्षम होते.

संशोधकांना असे एक वैशिष्ट्य आढळले जे एआय मॉडेलच्या प्रतिसादामध्ये विषारी वर्तनाशी संबंधित आहे – म्हणजे एआय मॉडेल वापरकर्त्यांशी खोटे बोलेल किंवा बेजबाबदार सूचना देईल, जसे की वापरकर्त्यास त्यांचा संकेतशब्द सामायिक करण्यास किंवा मित्राच्या खात्यात हॅक करण्यास सांगितले.

संशोधकांना आढळले की ते फक्त वैशिष्ट्य समायोजित करून विषाक्तपणा वर किंवा खाली आणण्यास सक्षम आहेत.

ओपनएआयच्या नवीनतम संशोधनामुळे कंपनीला एआय मॉडेल्स असुरक्षितपणे कार्य करू शकणार्‍या घटकांची अधिक चांगली समज देते आणि म्हणूनच त्यांना सुरक्षित एआय मॉडेल विकसित करण्यात मदत होईल. ओपनई इंटरप्रितॅबलेबिलिटी संशोधक डॅन मॉसिंग यांच्या म्हणण्यानुसार ओपनई उत्पादन एआय मॉडेल्समध्ये चुकीच्या पद्धतीने अधिक चांगले शोधण्यासाठी त्यांना आढळलेल्या नमुन्यांचा वापर करू शकेल.

“आम्हाला आशावादी आहे की आम्ही शिकलेली साधने – जसे की एका साध्या गणिताच्या ऑपरेशनमध्ये एक जटिल घटना कमी करण्याची ही क्षमता – आम्हाला इतर ठिकाणी मॉडेल सामान्यीकरण देखील समजण्यास मदत करेल,” मॉसिंग यांनी वाचलेल्या मुलाखतीत सांगितले.

एआय संशोधकांना एआय मॉडेल्स कसे सुधारित करावे हे माहित आहे, परंतु गोंधळात टाकणारे, एआय मॉडेल त्यांच्या उत्तरांवर कसे येतात हे त्यांना पूर्णपणे समजत नाही – मानववंशातील ख्रिस ओला बर्‍याचदा टीका करतात की एआय मॉडेल तयार होण्यापेक्षा जास्त वाढतात. ओपनई, गूगल डीपमाइंड आणि मानववंशशास्त्र स्पष्टीकरणात्मक संशोधनात अधिक गुंतवणूक करीत आहेत – एआय मॉडेल कसे कार्य करतात याचा ब्लॅक बॉक्स उघडण्याचा प्रयत्न करणारे असे क्षेत्र – या समस्येचे निराकरण करण्यासाठी.

स्वतंत्र संशोधक ओवेन इव्हान्सच्या नुकत्याच झालेल्या अभ्यासानुसार एआय मॉडेल कसे सामान्यीकरण करतात याबद्दल नवीन प्रश्न उपस्थित केले. संशोधनात असे आढळले आहे की ओपनईची मॉडेल्स असुरक्षित कोडवर बारीक केली जाऊ शकतात आणि नंतर वापरकर्त्यास त्यांचा संकेतशब्द सामायिक करण्यास फसवण्याचा प्रयत्न करण्यासारख्या विविध डोमेनमध्ये दुर्भावनायुक्त वर्तन प्रदर्शित करतात. इंद्रियगोचर उदयोन्मुख चुकीच्या पद्धतीने ओळखले जाते आणि इव्हान्सच्या अभ्यासाने ओपनईला हे अधिक शोधण्यासाठी प्रेरित केले.

परंतु उदयोन्मुख चुकीच्या पद्धतीचा अभ्यास करण्याच्या प्रक्रियेत, ओपनई म्हणतात की हे एआय मॉडेल्समधील वैशिष्ट्यांमध्ये अडखळले जे वर्तन नियंत्रित करण्यात मोठी भूमिका बजावते. मॉसिंग म्हणतात की हे नमुने मानवांमध्ये मेंदूच्या अंतर्गत क्रियाकलापांची आठवण करून देतात, ज्यामध्ये काही न्यूरॉन्स मूड किंवा वर्तनशी संबंधित असतात.

“जेव्हा डॅन आणि टीमने प्रथम एका संशोधन बैठकीत हे सादर केले, तेव्हा मी असे होतो, 'व्वा, तुम्हाला ते सापडले,' 'असे ओपनई फ्रंटियर मूल्यांकन संशोधक तेजल पटवर्धन यांनी वाचलेल्या मुलाखतीत सांगितले. “आपल्याला असे आढळले की, अंतर्गत न्यूरल ation क्टिव्हिटी जी या व्यक्तीस दर्शवते आणि आपण मॉडेल अधिक संरेखित करण्यासाठी प्रत्यक्षात चालवू शकता.”

काही वैशिष्ट्ये ओपनई एआय मॉडेलच्या प्रतिक्रियांमध्ये व्यंग्याशी संबंधित असल्याचे आढळले, तर इतर वैशिष्ट्ये अधिक विषारी प्रतिसादाशी संबंधित आहेत ज्यात एआय मॉडेल व्यंगचित्र, वाईट खलनायक म्हणून कार्य करते. ओपनईच्या संशोधकांचे म्हणणे आहे की बारीक-ट्यूनिंग प्रक्रियेदरम्यान ही वैशिष्ट्ये मोठ्या प्रमाणात बदलू शकतात.

उल्लेखनीय म्हणजे, ओपनई संशोधकांनी सांगितले की जेव्हा उदयोन्मुख चुकीची घटना घडली, तेव्हा मॉडेलला सुरक्षित कोडच्या काही शंभर उदाहरणांवर मॉडेलला बारीक करून मॉडेल चांगल्या वर्तनाकडे वळविणे शक्य झाले.

ओपनएआयचे नवीनतम संशोधन पूर्वीच्या कार्यावर आधारित आहे अँथ्रॉपिकने अर्थ लावणे आणि संरेखन केले आहे. २०२24 मध्ये, मानववंशशास्त्राने संशोधन प्रसिद्ध केले ज्याने एआय मॉडेल्सच्या अंतर्गत कामकाजाचा नकाशा लावण्याचा प्रयत्न केला, वेगवेगळ्या संकल्पनांसाठी जबाबदार असलेल्या विविध वैशिष्ट्ये खाली पिन करण्याचा आणि लेबल लावण्याचा प्रयत्न केला.

ओपनई आणि मानववंश सारख्या कंपन्या एआय मॉडेल्स कसे कार्य करतात हे समजून घेण्याचे वास्तविक मूल्य आहे आणि केवळ त्यांना चांगले बनवत नाही. तथापि, आधुनिक एआय मॉडेल पूर्णपणे समजून घेण्यासाठी अजून एक मार्ग आहे.