अँथ्रोपिक म्हणते की क्लॉडच्या ब्लॅकमेलच्या प्रयत्नांना AI चे 'वाईट' चित्रण जबाबदार होते

By Marathi On May 11, 2026

एंथ्रोपिकच्या मते कृत्रिम बुद्धिमत्तेच्या काल्पनिक चित्रणांचा एआय मॉडेल्सवर वास्तविक परिणाम होऊ शकतो.

गेल्या वर्षी, कंपनीने सांगितले की काल्पनिक कंपनीचा समावेश असलेल्या प्री-रिलीझ चाचण्यांदरम्यान, क्लॉड ओपस 4 अनेकदा अभियंत्यांना दुसऱ्या सिस्टमद्वारे बदलले जाऊ नये म्हणून ब्लॅकमेल करण्याचा प्रयत्न करेल. मानववंशीय नंतर प्रकाशित संशोधन इतर कंपन्यांच्या मॉडेल्सना “एजंटिक मिसलॅग्नमेंट” च्या समान समस्या होत्या असे सुचवणे.

वरवर पाहता अँथ्रोपिकने त्या वर्तनावर अधिक काम केले आहे, असा दावा केला आहे X वर एक पोस्ट“आम्हाला विश्वास आहे की वर्तनाचा मूळ स्त्रोत इंटरनेट मजकूर होता जो एआयला वाईट आणि स्व-संरक्षणात स्वारस्य असल्याचे चित्रित करतो.”

मध्ये कंपनी अधिक तपशीलात गेली एक ब्लॉग पोस्ट क्लॉड हायकू 4.5 पासून, अँथ्रोपिकचे मॉडेल “कधीही ब्लॅकमेलमध्ये गुंतले नाहीत (चाचणी दरम्यान), जेथे पूर्वीचे मॉडेल कधीकधी 96% पर्यंत असे करत असत.”

काय फरक पडतो? कंपनीने म्हटले आहे की “क्लॉडच्या घटनेबद्दल दस्तऐवज आणि AIs बद्दलच्या काल्पनिक कथांबद्दलचे प्रशिक्षण प्रशंसनीयपणे संरेखन सुधारते.”

संबंधित, अँथ्रोपिकने सांगितले की प्रशिक्षण अधिक प्रभावी असल्याचे आढळले जेव्हा त्यात “संरेखित वर्तनाची मूलभूत तत्त्वे” समाविष्ट असतात आणि केवळ “केवळ संरेखित वर्तनाचे प्रात्यक्षिक” समाविष्ट नसते.

“दोन्ही एकत्र करणे हे सर्वात प्रभावी धोरण असल्याचे दिसते,” कंपनीने म्हटले आहे.

टेकक्रंच इव्हेंट

सॅन फ्रान्सिस्को, CA
|
13-15 ऑक्टोबर 2026