चाचण्यांमध्ये एआय सिस्टम उत्कृष्ट आहेत, परंतु ते वास्तविक जीवनात कसे कामगिरी करतात?

या महिन्याच्या सुरूवातीस, ओपनईने आपली नवीनतम फ्लॅगशिप आर्टिफिशियल इंटेलिजेंस (एआय) प्रणाली जीपीटी -5 सोडली तेव्हा कंपनीने सांगितले की ते पूर्वीच्या मॉडेल्सपेक्षा “बोर्डात बरेच हुशार” होते. सॉफ्टवेअर कोडिंग, गणित आणि आरोग्यसेवा यासारख्या डोमेनचे मूल्यांकन करणार्‍या बेंचमार्क चाचण्यांच्या श्रेणीवर दाव्याचा बॅक अप घेणे उच्च स्कोअर होते.

यासारख्या बेंचमार्क चाचण्या आम्ही एआय सिस्टमचे मूल्यांकन करतो हे मानक मार्ग बनले आहे – परंतु वास्तविक जगातील या प्रणालींच्या वास्तविक कामगिरी आणि परिणामांबद्दल ते आम्हाला जास्त सांगत नाहीत.

एआय मॉडेल मोजण्याचा एक चांगला मार्ग कोणता असेल? एआय संशोधक आणि मेट्रोलॉजिस्टचा एक गट – मोजमाप विज्ञानातील तज्ञांनी – अलीकडेच पुढे जाण्याचा मार्ग सांगितला.

मेट्रोलॉजी येथे महत्त्वपूर्ण आहे कारण आपल्याला केवळ एआय सिस्टमची विश्वासार्हता सुनिश्चित करण्याचे मार्ग आवश्यक आहेत जे आपण वाढत्या प्रमाणात अवलंबून असू शकतात, परंतु त्यांच्या व्यापक आर्थिक, सांस्कृतिक आणि सामाजिक परिणामाचे काही प्रमाणात देखील.

सुरक्षितता मोजणे

आम्ही वापरत असलेली साधने, उत्पादने, सेवा आणि प्रक्रिया विश्वसनीय आहेत हे सुनिश्चित करण्यासाठी आम्ही मेट्रोलॉजीवर अवलंबून आहोत.

बायोमेडिकल एथिसिस्ट – हेल्थ एआय म्हणून माझ्या मनाशी जवळ काहीतरी घ्या. हेल्थकेअरमध्ये, एआय निदान आणि रुग्णांचे निरीक्षण सुधारण्याचे, औषध अधिक वैयक्तिकृत आणि रोगांना प्रतिबंधित करण्यास तसेच काही प्रशासकीय कार्ये हाताळण्याचे वचन देते.

ही आश्वासने केवळ तेव्हाच लक्षात येतील की जर आम्हाला खात्री असेल की आरोग्य एआय सुरक्षित आणि प्रभावी आहे आणि याचा अर्थ ते मोजण्याचे विश्वसनीय मार्ग शोधणे.

आपल्याकडे औषधे आणि वैद्यकीय उपकरणांची सुरक्षा आणि प्रभावीता मोजण्यासाठी आधीपासूनच सुप्रसिद्ध प्रणाली आहेत, उदाहरणार्थ. परंतु हे अद्याप एआयसाठी नाही – आरोग्य सेवेमध्ये किंवा शिक्षण, रोजगार, कायदा अंमलबजावणी, विमा आणि बायोमेट्रिक्स यासारख्या इतर डोमेनमध्ये नाही.

चाचणी परिणाम आणि वास्तविक प्रभाव

सध्या, अत्याधुनिक एआय सिस्टमचे बहुतेक मूल्यांकन बेंचमार्कवर अवलंबून आहे. या चाचण्या आहेत ज्या त्यांच्या आउटपुटवर आधारित एआय सिस्टमचे मूल्यांकन करण्याचे उद्दीष्ट आहेत.

सिस्टमचे प्रतिसाद किती वेळा अचूक किंवा संबंधित असतात किंवा मानवी तज्ञाच्या प्रतिसादाशी ते कसे तुलना करतात या प्रश्नांची उत्तरे देऊ शकतात.

तेथे शेकडो एआय बेंचमार्क आहेत, ज्यामध्ये विस्तृत ज्ञान डोमेन आहेत.

तथापि, बेंचमार्क कामगिरी आम्हाला या मॉडेल्सच्या वास्तविक-जगातील सेटिंग्जमध्ये काय परिणाम होईल याबद्दल थोडेसे सांगते. यासाठी, आपण ज्या संदर्भात सिस्टम तैनात केले आहे त्या संदर्भात विचार करणे आवश्यक आहे.

बेंचमार्कची समस्या

उत्पादनांची कार्यक्षमता दर्शविण्यासाठी आणि निधी आकर्षित करण्यासाठी व्यावसायिक एआय विकसकांसाठी बेंचमार्क खूप महत्वाचे बनले आहेत.

उदाहरणार्थ, यावर्षी एप्रिलमध्ये कॉग्निशन एआय नावाच्या एका तरुण स्टार्टअपने सॉफ्टवेअर अभियांत्रिकी बेंचमार्कवर प्रभावी परिणाम पोस्ट केले. लवकरच, कंपनीने अमेरिकन डॉलर्सची किंमत 2 अब्ज (एयूएसडी 3.1 अब्ज) च्या मोलाच्या करारात यूएसडी 175 दशलक्ष (एयूएसडी 270 दशलक्ष) वाढविली.

बेंचमार्क देखील बदलले गेले आहेत. मेटाने त्याच्या लामा -4 मॉडेलच्या काही आवृत्त्या एका प्रमुख चॅटबॉट-रँकिंग साइटवर ऑप्टिमाइझ करण्यासाठी समायोजित केल्या आहेत. ओपनईच्या ओ 3 मॉडेलने फ्रंटिएरमॅथ बेंचमार्कवर उच्च गोल केल्यानंतर, असे दिसून आले की कंपनीला बेंचमार्कच्या मागे डेटासेटमध्ये प्रवेश मिळाला होता आणि त्या निकालाविषयी प्रश्न उपस्थित करतात.

ब्रिटिश अर्थशास्त्रज्ञ चार्ल्स गुडहार्ट नंतर येथे एकूणच जोखीम गुडहार्टचा कायदा म्हणून ओळखले जाते: “जेव्हा एखादा उपाय लक्ष्य बनतो तेव्हा तो एक चांगला उपाय ठरतो.”

अल्गोरिदमच्या नीतिमत्तेच्या क्षेत्राच्या विकासास मदत करणारे रम्मन चौधरी यांच्या शब्दात, मेट्रिक्सवर जास्त महत्त्व ठेवल्यास “हेरफेर, गेमिंग आणि अल्प-मुदतीच्या गुणांवर आणि दीर्घकालीन परिणामाचा अपुरी विचार” यावर आधारित असू शकते.

बेंचमार्कच्या पलीकडे

तर जर बेंचमार्क नसतील तर मग काय? चला आरोग्य एआयच्या उदाहरणावर परत जाऊया. आरोग्य सेवेतील मोठ्या भाषा मॉडेल्स (एलएलएम) च्या उपयुक्ततेचे मूल्यांकन करण्यासाठी प्रथम बेंचमार्कमुळे वैद्यकीय परवाना परीक्षांचा वापर केला गेला. हे विशिष्ट कार्यक्षेत्रात सराव करण्याची परवानगी देण्यापूर्वी डॉक्टरांच्या क्षमतेचे आणि सुरक्षिततेचे मूल्यांकन करण्यासाठी वापरले जातात.

अत्याधुनिक मॉडेल आता अशा बेंचमार्कवर जवळपास परिपूर्ण स्कोअर साध्य करतात. तथापि, वास्तविक-जगातील क्लिनिकल प्रॅक्टिसची जटिलता आणि विविधता पुरेसे प्रतिबिंबित न केल्याबद्दल यावर मोठ्या प्रमाणात टीका केली गेली आहे.

प्रत्युत्तरादाखल, अधिक वैविध्यपूर्ण आणि वास्तववादी कार्ये या मॉडेलचे मूल्यांकन करण्यासाठी “समग्र” फ्रेमवर्कची एक नवीन पिढी विकसित केली गेली आहे. आरोग्य अनुप्रयोगांसाठी, सर्वात अत्याधुनिक म्हणजे मेहेल्म मूल्यांकन फ्रेमवर्क, ज्यात निर्णय घेण्यापासून ते संप्रेषण आणि संशोधनापर्यंतच्या क्लिनिकल कार्यांच्या पाच श्रेणींमध्ये 35 बेंचमार्क समाविष्ट आहेत.

यापेक्षा चांगली चाचणी कशी दिसेल

मेहेल्म सारख्या अधिक समग्र मूल्यांकन फ्रेमवर्कचे उद्दीष्ट हे नुकसान टाळण्याचे उद्दीष्ट आहे. विशिष्ट सराव क्षेत्राच्या वास्तविक मागण्या प्रतिबिंबित करण्यासाठी त्यांची रचना केली गेली आहे.

तथापि, या फ्रेमवर्क अजूनही वास्तविक जगात मानवांनी एआय सिस्टमशी संवाद साधण्याच्या मार्गांचा लेखा कमी पडतो. आणि ते कार्यरत असलेल्या व्यापक आर्थिक, सांस्कृतिक आणि सामाजिक संदर्भांवर असलेल्या त्यांच्या परिणामांशी ते सहमत होऊ शकत नाहीत.

यासाठी आम्हाला संपूर्ण नवीन मूल्यांकन इकोसिस्टमची आवश्यकता असेल. एआय सिस्टमचे मूल्यांकन करण्यासाठी कठोर आणि पुनरुत्पादक मार्ग विकसित करण्याच्या उद्देशाने शैक्षणिक, उद्योग आणि नागरी समाजातील तज्ञांना आकर्षित करणे आवश्यक आहे.

यावर काम आधीच सुरू झाले आहे. रेड-टीमिंग (जेथे परीक्षक हेतुपुरस्सर सिस्टममधून अवांछित आउटपुट तयार करण्याचा प्रयत्न करतात) आणि फील्ड टेस्टिंग (जेथे सिस्टम वास्तविक-वर्ल्ड वातावरणात चाचणी केली जाते) यासारख्या गोष्टींमध्ये एआय सिस्टमच्या वास्तविक-जगातील प्रभावाचे मूल्यांकन करण्याच्या पद्धती आहेत. पुढील चरण या पद्धतींचे परिष्करण आणि व्यवस्था करणे आहे, जेणेकरून प्रत्यक्षात जे मोजले जाते ते विश्वसनीयरित्या मोजले जाऊ शकते.

एआयने आणण्यासाठी हायपर केलेल्या परिवर्तनाचा एक अंश वितरित केला तर आम्हाला मोजमाप विज्ञान आवश्यक आहे जे केवळ टेक एलिटच नव्हे तर आपल्या सर्वांच्या हिताचे रक्षण करते. (संभाषण) आरडी आरडी

Comments are closed.