अँथ्रोपिक म्हणते की क्लॉडच्या ब्लॅकमेलच्या प्रयत्नांना AI चे 'वाईट' चित्रण जबाबदार होते

एंथ्रोपिकच्या मते कृत्रिम बुद्धिमत्तेच्या काल्पनिक चित्रणांचा एआय मॉडेल्सवर वास्तविक परिणाम होऊ शकतो.
गेल्या वर्षी, कंपनीने सांगितले की काल्पनिक कंपनीचा समावेश असलेल्या प्री-रिलीझ चाचण्यांदरम्यान, क्लॉड ओपस 4 अनेकदा अभियंत्यांना दुसऱ्या सिस्टमद्वारे बदलले जाऊ नये म्हणून ब्लॅकमेल करण्याचा प्रयत्न करेल. मानववंशीय नंतर प्रकाशित संशोधन इतर कंपन्यांच्या मॉडेल्सना “एजंटिक मिसलॅग्नमेंट” च्या समान समस्या होत्या असे सुचवणे.
वरवर पाहता अँथ्रोपिकने त्या वर्तनावर अधिक काम केले आहे, असा दावा केला आहे X वर एक पोस्ट“आम्हाला विश्वास आहे की वर्तनाचा मूळ स्त्रोत इंटरनेट मजकूर होता जो एआयला वाईट आणि स्व-संरक्षणात स्वारस्य असल्याचे चित्रित करतो.”
मध्ये कंपनी अधिक तपशीलात गेली एक ब्लॉग पोस्ट क्लॉड हायकू 4.5 पासून, अँथ्रोपिकचे मॉडेल “कधीही ब्लॅकमेलमध्ये गुंतले नाहीत (चाचणी दरम्यान), जेथे पूर्वीचे मॉडेल कधीकधी 96% पर्यंत असे करत असत.”
काय फरक पडतो? कंपनीने म्हटले आहे की “क्लॉडच्या घटनेबद्दल दस्तऐवज आणि AIs बद्दलच्या काल्पनिक कथांबद्दलचे प्रशिक्षण प्रशंसनीयपणे संरेखन सुधारते.”
संबंधित, अँथ्रोपिकने सांगितले की प्रशिक्षण अधिक प्रभावी असल्याचे आढळले जेव्हा त्यात “संरेखित वर्तनाची मूलभूत तत्त्वे” समाविष्ट असतात आणि केवळ “केवळ संरेखित वर्तनाचे प्रात्यक्षिक” समाविष्ट नसते.
“दोन्ही एकत्र करणे हे सर्वात प्रभावी धोरण असल्याचे दिसते,” कंपनीने म्हटले आहे.
टेकक्रंच इव्हेंट
सॅन फ्रान्सिस्को, CA
|
13-15 ऑक्टोबर 2026
Comments are closed.