हायस्कूलरने एक वेबसाइट तयार केली जी आपल्याला एआय मॉडेलला मिनीक्राफ्ट बिल्ड-ऑफला आव्हान देते
पारंपारिक एआय बेंचमार्किंग तंत्र अपुरी असल्याचे सिद्ध होत असताना, एआय बिल्डर्स जनरेटिव्ह एआय मॉडेल्सच्या क्षमतेचे मूल्यांकन करण्यासाठी अधिक सर्जनशील मार्गांकडे वळत आहेत. विकसकांच्या एका गटासाठी, तो मायक्रोसॉफ्टच्या मालकीचा सँडबॉक्स-बिल्डिंग गेम, मिनीक्राफ्ट आहे.
वेबसाइट Minecraft बेंचमार्क (किंवा एमसी-बेंच) मिनीक्राफ्ट क्रिएशन्सच्या सूचनांना प्रतिसाद देण्यासाठी डोके-टू-हेड आव्हानांमध्ये एकमेकांच्या विरूद्ध एआय मॉडेल्ससाठी सहकार्याने विकसित केले गेले. कोणत्या मॉडेलने अधिक चांगले काम केले यावर वापरकर्ते मतदान करू शकतात आणि मतदानानंतरच एआयने प्रत्येक मिनीक्राफ्ट तयार केले हे ते पाहू शकतात.
एमसी-बेंच सुरू करणार्या 12 व्या वर्गातील आदि सिंहसाठी, मिनीक्राफ्टचे मूल्य इतकेच नाही, परंतु लोकांद्वारे लोकांची ओळख आहे-तरीही, हे आहे सर्वाधिक विक्री सर्व वेळ व्हिडिओ गेम. जरी गेम खेळला नाही अशा लोकांसाठीसुद्धा, अननसचे कोणते ब्लॉकी प्रतिनिधित्व अधिक चांगले आहे याचे मूल्यांकन करणे अद्याप शक्य आहे.
सिंह यांनी वाचला, “मिनीक्राफ्ट लोकांना प्रगती (एआय विकासाची) अधिक सहजपणे पाहण्याची परवानगी देते. “लोक मिनीक्राफ्टची सवय लावतात, देखावा आणि वाईबची सवय लावतात.”
एमसी-बेंचमध्ये सध्या स्वयंसेवक योगदानकर्ते म्हणून आठ जणांची यादी आहे. मानववंश, गूगल, ओपनई आणि अलिबाबा यांनी एमसी-बेंचच्या वेबसाइटवर बेंचमार्क प्रॉम्प्ट चालविण्यासाठी त्यांच्या उत्पादनांच्या प्रकल्पाच्या वापरास अनुदान दिले आहे, परंतु कंपन्या अन्यथा संबद्ध नाहीत.
सिंह म्हणाले, “जीपीटी -3 युगातून आपण किती दूर आलो आहोत यावर प्रतिबिंबित करण्यासाठी आम्ही सध्या साधे बांधकाम करीत आहोत, परंतु (आम्ही) स्वत: ला या दीर्घ-योजना आणि ध्येय-केंद्रित कार्यांकडे लक्ष वेधून घेऊ शकतो,” सिंह म्हणाले. “गेम्स फक्त एजंटिक युक्तिवादाची चाचणी करण्याचे माध्यम असू शकतात जे वास्तविक जीवनापेक्षा अधिक सुरक्षित आणि चाचणीच्या उद्देशाने अधिक नियंत्रित करण्यायोग्य आहे, जे माझ्या दृष्टीने अधिक आदर्श बनवते.”
इतर खेळ पोकेमॉन रेड, स्ट्रीट फाइटरआणि शब्दकोष एआयसाठी प्रायोगिक बेंचमार्क म्हणून वापरला गेला आहे, काही प्रमाणात कारण एआय बेंचमार्किंगची कला कुप्रसिद्ध आहे.
संशोधक बर्याचदा एआय मॉडेलची चाचणी घेतात प्रमाणित मूल्यांकनपरंतु यापैकी बर्याच चाचण्या एआयला होम-फील्डचा फायदा देतात. ज्या प्रकारे ते प्रशिक्षित करतात त्या कारणास्तव, मॉडेल्स नैसर्गिकरित्या विशिष्ट, अरुंद प्रकारच्या समस्येचे निराकरण, विशेषत: समस्या सोडवताना प्रतिभावान आहेत ज्यासाठी रोट मेमोरायझेशन किंवा मूलभूत एक्स्ट्रोपोलेशन आवश्यक आहे.
थोडक्यात सांगायचे तर, ओपनईचा जीपीटी -4 एलएसएटीवरील th 88 व्या शतकात स्कोअर करू शकतो याचा अर्थ काय आहे हे गोळा करणे कठीण आहे, परंतु “स्ट्रॉबेरी” या शब्दात किती आरएस आहेत हे समजू शकत नाही. मानववंश क्लॉड 3.7 सॉनेट प्रमाणित सॉफ्टवेअर अभियांत्रिकी बेंचमार्कवर 62.3% अचूकता प्राप्त केली, परंतु बहुतेक पाच वर्षांच्या मुलांपेक्षा पोकेमॉन खेळणे अधिक वाईट आहे.

एमसी-बेंच तांत्रिकदृष्ट्या प्रोग्रामिंग बेंचमार्क आहे, कारण मॉडेल्सना “फ्रॉस्टी द स्नोमॅन” किंवा “प्राचीन वालुकामय किना on ्यावर एक मोहक उष्णकटिबंधीय बीच झोपडी” सारख्या प्रॉम्प्टेड बिल्ड तयार करण्यासाठी कोड लिहिण्यास सांगितले जाते.
परंतु बहुतेक एमसी-बेंच वापरकर्त्यांसाठी कोडमध्ये खोदण्यापेक्षा स्नोमॅन अधिक चांगले दिसते की नाही याचे मूल्यांकन करणे सोपे आहे, जे प्रकल्प व्यापक अपील देते-आणि अशा प्रकारे कोणत्या मॉडेल्समध्ये सातत्याने अधिक चांगले गुण मिळतात याबद्दल अधिक डेटा गोळा करण्याची क्षमता.
एआय उपयुक्ततेच्या मार्गावर त्या स्कोअर जास्त प्रमाणात आहेत की नाही हे वादविवादासाठी आहे. सिंग यांनी ठामपणे सांगितले की ते एक मजबूत सिग्नल आहेत.
सिंह म्हणाले, “सध्याचे लीडरबोर्ड या मॉडेल्सचा वापर करण्याच्या माझ्या स्वतःच्या अनुभवाशी अगदी जवळून प्रतिबिंबित करते, जे बर्याच शुद्ध मजकूर बेंचमार्कपेक्षा भिन्न आहे,” सिंह म्हणाले. “कदाचित (एमसी-बेंच) कंपन्यांना योग्य दिशेने जात आहे की नाही हे जाणून घेण्यासाठी उपयुक्त ठरेल.”
Comments are closed.