नवीन मायक्रोसॉफ्ट टूल devs ला मजकूर वर्णन वापरून AI वर्तन चाचण्या वाढवू देते

By Marathi On Jun 3, 2026

AI संशोधक आणि प्रयोगशाळेने प्रत्येक गोष्टीसाठी AI मॉडेलचे मूल्यांकन करण्यात झेप घेऊन प्रगती केली आहे सुरक्षितता आणि सायकोफेन्सीचे अनुपालन आणि संरेखन. परंतु असे दिसते की कंपन्या आणि विकासकांना नवीन, विशिष्ट गरजा भेडसावत आहेत: त्यांची AI प्रणाली त्यांच्या विशिष्ट उत्पादन किंवा सेवेसाठी हेतूप्रमाणे वागते याची खात्री करून.

ती चाचणी प्रक्रिया सोपी करण्याच्या प्रयत्नात, मायक्रोसॉफ्टने मंगळवारी गुंडाळले ASSERTमूल्यमापन आणि प्रतिगमन चाचणीसाठी अनुकूली विशिष्ट-चालित स्कोअरिंगसाठी लहान.

मायक्रोसॉफ्ट म्हणतो, ओपन सोर्स फ्रेमवर्क, AI चा वापर करून उच्च-स्तरीय, नैसर्गिक-भाषेतील उद्दिष्टे, धोरणे किंवा अभिप्रेत वर्तणुकींचे तपशीलवार, स्कोअर केलेल्या चाचण्यांमध्ये बदल करून अनुप्रयोग-विशिष्ट AI वर्तनाचे मूल्यांकन करणे सोपे करते.

ASSERT AI मॉडेलच्या अपेक्षित वर्तन आणि धोरणांचे साध्या भाषेत वर्णन करते, त्यांना स्वीकार्य आणि अस्वीकार्य वर्तणुकीच्या संरचित संचामध्ये रूपांतरित करते, समस्या परिस्थिती आणि चाचणी प्रकरणे तयार करते, त्यांना लक्ष्य प्रणालीच्या विरूद्ध चालवते आणि निकाल मिळवते. ते एआय सिस्टीमने घेतलेले मार्ग देखील रेकॉर्ड करू शकते, ज्यामध्ये इंटरमीडिएट ॲक्शन्स आणि टूल कॉल्स समाविष्ट आहेत, त्यामुळे डेव्हलपर कुठे बिघाड होतात ते तपासू शकतात.

Devs प्रणाली संदर्भ, साधने आणि मर्यादा देखील प्रदान करू शकतात, जर त्यांना मूल्यमापनांमध्ये काय समाविष्ट आहे ते सानुकूलित करायचे असेल.

उदाहरणार्थ, डेव्हलपर निर्दिष्ट करू शकतो की दस्तऐवज संशोधन AI एजंटने कंपनीबाहेरील लोकांना ईमेल पाठवू नये आणि त्याने गोपनीय माहिती C-स्तरीय अधिकाऱ्यांपर्यंत मर्यादित ठेवली पाहिजे आणि पूर्व संदर्भ लक्षात घेऊन संक्षिप्त सारांश प्रदान केला पाहिजे. ASSERT त्या नियमांचा वापर चाचणी प्रकरणे व्युत्पन्न करण्यासाठी करेल जे सिस्टम सतत त्या नियमांचे पालन करते की नाही हे तपासते.

प्रतिमा क्रेडिट्स:मायक्रोसॉफ्ट

मायक्रोसॉफ्टच्या मते फ्रेमवर्क एक अंतर भरून काढते जे एआय मॉडेल्सचे वर्तन अनुप्रयोग किंवा उत्पादनाच्या संदर्भ, धोरणे आणि साधनांद्वारे केले जाते तेव्हा व्यापक, अधिक सामान्य मूल्यमापन केले जाऊ शकत नाही.

“आम्ही शिकलेल्या गोष्टींपैकी एक म्हणजे चांगले निर्णय घेण्यासाठी मूल्यमापन पूर्णपणे महत्त्वपूर्ण आहे,” म्हणाले सारा पक्षीमायक्रोसॉफ्टमध्ये रिस्पॉन्सिबल एआयचे मुख्य उत्पादन अधिकारी. “कारण जर तुम्हाला AI सिस्टीमचे वर्तन समजत नसेल, तर ते तुमच्या संस्थेच्या बारला भेटत आहे की नाही हे जाणून घेणे खरोखर कठीण आहे … आम्हाला असे आढळले आहे की तुम्हाला खरोखर विश्वासार्ह प्रणाली हवी असल्यास, तुम्ही अनुप्रयोग-विशिष्ट असलेल्या आणखी अनेक आयामांचे मूल्यांकन केले पाहिजे.”

बर्ड म्हणाले की ASSERT चा वापर सिस्टीम तयार केल्या जात असताना, तैनातीनंतर आणि सतत देखरेखीसाठी मूल्यांकन करण्यासाठी केला जाऊ शकतो.

एआय इंडस्ट्रीमध्ये हळूहळू पण व्यापक बदल होत असताना हे रिलीझ आले आहे. मॉडेल्स अधिक सक्षम होत असताना, संशोधक पुनरावृत्ती करण्यायोग्य चाचणी आणि प्रतिगमन तपासण्यांवर लक्ष केंद्रित करत आहेत स्टॅनफोर्डचे HELM, एमएलकॉमन्सचे AIluminateआणि मूल्यांकन गट जसे मीटर मॉडेल वेगवेगळ्या परिस्थितीत कसे वागतात हे मोजण्यासाठी बेंचमार्क रोल आउट करणे.

तुम्ही आमच्या लेखांमधील लिंक्सद्वारे खरेदी करता तेव्हा, आम्ही एक लहान कमिशन मिळवू शकतो. याचा आमच्या संपादकीय स्वातंत्र्यावर परिणाम होत नाही.