एआय एजंटांना प्रशिक्षण देण्यासाठी सिलिकॉन व्हॅली 'वातावरण' वर मोठी आहे

कित्येक वर्षांपासून, बिग टेक सीईओंनी एआय एजंट्सच्या दृष्टिकोनांचा अभ्यास केला आहे जे लोकांसाठी कार्ये पूर्ण करण्यासाठी स्वायत्तपणे सॉफ्टवेअर अनुप्रयोगांचा वापर करू शकतात. परंतु आजचा ग्राहक एआय एजंटांना फिरकीसाठी बाहेर काढा, मग तो ओपनईचा चॅटजीपीटी एजंट असो किंवा पेरक्सिटीचा धूमकेतू असो आणि तंत्रज्ञान अद्याप किती मर्यादित आहे याची आपल्याला पटकन कळेल. एआय एजंट्स अधिक मजबूत बनविण्यामुळे उद्योग अद्याप शोधत असलेल्या तंत्राचा एक नवीन सेट घेऊ शकेल.
त्यापैकी एक तंत्र म्हणजे काळजीपूर्वक कार्यक्षेत्रांचे अनुकरण करणे जेथे एजंटांना मल्टी-स्टेप कार्यांवर प्रशिक्षण दिले जाऊ शकते-रनफोर्समेंट लर्निंग (आरएल) वातावरण म्हणून ओळखले जाते. त्याचप्रमाणे लेबल केलेल्या डेटासेटने एआयच्या शेवटच्या लाटाला कसे चालविले आहे, आरएल वातावरण एजंट्सच्या विकासामध्ये एक गंभीर घटकासारखे दिसू लागले आहे.
एआय संशोधक, संस्थापक आणि गुंतवणूकदार वाचले आहेत की आघाडीच्या एआय लॅब आता अधिक आरएल वातावरणाची मागणी करीत आहेत आणि त्यांना पुरवठा करण्याच्या आशेने स्टार्टअपची कमतरता नाही.
“सर्व मोठ्या एआय लॅबमध्ये घरामध्ये आरएल वातावरण तयार होत आहेत,” असे अँड्रिसन होरोविट्झचे सामान्य भागीदार जेनिफर ली यांनी वाचलेल्या मुलाखतीत सांगितले. “परंतु आपण कल्पना करू शकता की हे डेटासेट तयार करणे खूप जटिल आहे, म्हणून एआय लॅब देखील तृतीय पक्षाच्या विक्रेत्यांकडे पहात आहेत जे उच्च प्रतीचे वातावरण आणि मूल्यांकन तयार करू शकतात. प्रत्येकजण या जागेकडे पहात आहे.”
आरएल वातावरणासाठी पुशने मेकॅनिज्ड आणि प्राइम इंटेलल्ट सारख्या सुप्रसिद्ध-वित्त पोषित स्टार्टअप्सचा एक नवीन वर्ग तयार केला आहे, ज्याचा हेतू जागेचे नेतृत्व करण्याचे उद्दीष्ट आहे. दरम्यान, मर्कर आणि सर्ज सारख्या मोठ्या डेटा-लेबलिंग कंपन्यांचे म्हणणे आहे की ते आरएल वातावरणात स्थिर डेटासेटपासून परस्परसंवादी सिम्युलेशनपर्यंतच्या बदलांमुळे अधिक गुंतवणूक करीत आहेत. प्रमुख लॅब देखील मोठ्या प्रमाणात गुंतवणूक करण्याचा विचार करीत आहेत: माहितीनुसार, मानववंशातील नेत्यांनी जास्त खर्च करण्यापेक्षा जास्त चर्चा केली आहे आरएल वातावरणावर 1 अब्ज डॉलर्स पुढच्या वर्षात.
गुंतवणूकदार आणि संस्थापकांची आशा अशी आहे की यापैकी एक स्टार्टअप “वातावरणासाठी स्केल एआय” म्हणून उदयास येतो, चॅटबॉट युगला चालविणार्या billion 29 अब्ज डॉलर्सच्या डेटा लेबलिंग पॉवरहाऊसचा संदर्भ आहे.
आरएल वातावरण खरोखरच एआयच्या प्रगतीच्या सीमेवर ढकलेल की नाही हा प्रश्न आहे.
टेकक्रंच इव्हेंट
सॅन फ्रान्सिस्को
|
ऑक्टोबर 27-29, 2025
आरएल वातावरण म्हणजे काय?
त्यांच्या मुख्य म्हणजे, आरएल वातावरण हे प्रशिक्षण देण्याचे कारण आहे जे एआय एजंट वास्तविक सॉफ्टवेअर अनुप्रयोगात काय करीत आहे त्याचे अनुकरण करते. एका संस्थापकाने त्यांना बांधण्याचे वर्णन केले अलीकडील मुलाखत “एक अतिशय कंटाळवाणा व्हिडिओ गेम तयार करण्यासारखे.”
उदाहरणार्थ, एक वातावरण Chrome ब्राउझरचे अनुकरण करू शकते आणि Amazon मेझॉनवर मोजेची जोडी खरेदी करून एआय एजंटचे कार्य करू शकते. एजंटला त्याच्या कामगिरीवर वर्गीकरण केले जाते आणि जेव्हा ते यशस्वी होते तेव्हा एक बक्षीस सिग्नल पाठविले जाते (या प्रकरणात, मोजेची एक पात्र जोडी खरेदी करणे).
असे कार्य तुलनेने सोपे वाटत असले तरी बरीच जागा आहेत जिथे एआय एजंट ट्रिप होऊ शकेल. हे कदाचित वेबपृष्ठाच्या ड्रॉप डाऊन मेनूमध्ये नेव्हिगेट करू शकेल किंवा बरेच मोजे विकत घेऊ शकेल. आणि एजंट एजंट काय चुकीचा आहे याचा अंदाज विकसक करू शकत नाही, म्हणून कोणत्याही अनपेक्षित वर्तनासाठी वातावरण स्वतःच पुरेसे मजबूत असले पाहिजे आणि तरीही उपयुक्त अभिप्राय देईल. हे स्थिर डेटासेटपेक्षा इमारत वातावरण अधिक जटिल बनवते.
काही वातावरण विस्तृत आहे, जे एआय एजंट्सना साधने वापरण्याची, इंटरनेटवर प्रवेश करण्याची किंवा दिलेल्या कार्य पूर्ण करण्यासाठी विविध सॉफ्टवेअर अनुप्रयोग वापरण्याची परवानगी देते. इतर अधिक अरुंद असतात, एजंट एजंटला एंटरप्राइझ सॉफ्टवेअर अनुप्रयोगांमध्ये विशिष्ट कार्ये शिकण्यास मदत करण्याच्या उद्देशाने.
सध्या सिलिकॉन व्हॅलीमध्ये आरएल वातावरण ही एक चर्चेची गोष्ट आहे, हे तंत्र वापरण्याचे बरेच उदाहरण आहेत. २०१ 2016 मध्ये ओपनईच्या पहिल्या प्रकल्पांपैकी एक म्हणजे “इमारत”आरएल जिम”जे वातावरणाच्या आधुनिक संकल्पनेसारखेच होते. त्याच वर्षी, Google दीपमिंड अल्फागो एआय सिस्टमने बोर्ड गेममध्ये वर्ल्ड चॅम्पियनला पराभूत केले, जा. हे नक्कल वातावरणात आरएल तंत्र देखील वापरले.
आजच्या वातावरणाबद्दल काय अद्वितीय आहे ते म्हणजे संशोधक मोठ्या ट्रान्सफॉर्मर मॉडेलसह संगणक-वापरणारे एआय एजंट तयार करण्याचा प्रयत्न करीत आहेत. अल्फागोच्या विपरीत, जी बंद वातावरणात काम करणारी एक विशेष एआय सिस्टम होती, आजच्या एआय एजंटांना अधिक सामान्य क्षमता असण्याचे प्रशिक्षण दिले जाते. एआय संशोधकांचा आज एक मजबूत प्रारंभिक बिंदू आहे, परंतु एक गुंतागुंतीचे ध्येय देखील आहे जेथे अधिक चूक होऊ शकते.
गर्दीचे शेतात
एआय डेटा लेबलिंग कंपन्या स्केल एआय, सर्ज आणि मर्कर या क्षणाची पूर्तता करण्याचा आणि आरएल वातावरण तयार करण्याचा प्रयत्न करीत आहेत. या कंपन्यांकडे जागेत बर्याच स्टार्टअप्सपेक्षा अधिक संसाधने तसेच एआय लॅबशी सखोल संबंध आहेत.
सर्जचे मुख्य कार्यकारी अधिकारी एडविन चेन यांनी एआय लॅबमध्ये आरएल वातावरणाच्या मागणीत अलीकडेच “महत्त्वपूर्ण वाढ” पाहिली आहे हे वाचले. लाट – जे कथितपणे व्युत्पन्न झाले Revenue 1.2 अब्ज महसूल गेल्या वर्षी ओपनई, गूगल, अँथ्रोपिक आणि मेटा सारख्या एआय लॅबमध्ये काम करण्यापासून – अलीकडेच एक नवीन अंतर्गत संस्था तयार केली गेली आहे जी विशेषत: आरएल वातावरण तयार करण्याचे काम सोपवते, असे ते म्हणाले.
सर्जच्या मागे मर्कोर आहे, 10 अब्ज डॉलर्सचे स्टार्टअप, ज्याने ओपनई, मेटा आणि मानववंशशास्त्र देखील काम केले आहे. रीडद्वारे पाहिलेल्या विपणन सामग्रीनुसार, कोडिंग, हेल्थकेअर आणि लॉ यासारख्या डोमेन विशिष्ट कार्यांसाठी मर्सर आपल्या व्यवसायाच्या आरएल वातावरणात गुंतवणूकदारांना पिच देत आहे.
मर्करचे मुख्य कार्यकारी अधिकारी ब्रेंडन फूडी यांनी एका मुलाखतीत रीडला सांगितले की “आरएल वातावरणाभोवती खरोखर किती मोठी संधी आहे हे काहीजणांना समजते.”
स्केल एआय डेटा लेबलिंगच्या जागेवर वर्चस्व गाजवण्यासाठी वापरला गेला, परंतु मेटाने 14 अब्ज डॉलर्सची गुंतवणूक केल्यापासून आणि त्याचे मुख्य कार्यकारी अधिकारी भाड्याने घेतल्यापासून ते गमावले आहेत. तेव्हापासून, Google आणि ओपनईने डेटा प्रदाता म्हणून स्केल एआय सोडला आणि स्टार्टअपला मेटाच्या आत डेटा लेबलिंगच्या कामासाठी स्पर्धा देखील सामोरे जावे लागते. परंतु तरीही, स्केल हा क्षण पूर्ण करण्याचा आणि वातावरण तयार करण्याचा प्रयत्न करीत आहे.
एजंट्स आणि आरएल वातावरणासाठी एआयचे उत्पादन प्रमुख चेतन राणे म्हणाले, “हे फक्त व्यवसायाचे स्वरूप आहे (स्केल एआय). “स्केलने त्वरेने परिस्थितीशी जुळवून घेण्याची क्षमता सिद्ध केली आहे. आम्ही स्वायत्त वाहनांच्या सुरुवातीच्या काळात हे केले, आमचे पहिले व्यवसाय युनिट. जेव्हा चॅटजीपीटी बाहेर आले, तेव्हा स्केल एआय त्यास अनुकूलित केले. आणि आता पुन्हा एकदा आम्ही एजंट्स आणि वातावरणासारख्या नवीन सीमेवरील जागांशी जुळवून घेत आहोत.”
काही नवीन खेळाडू सुरुवातीपासूनच वातावरणावर लक्ष केंद्रित करीत आहेत. त्यापैकी मेकॅनायझेशन आहे, सहा महिन्यांपूर्वी “सर्व नोकर्या स्वयंचलित करणे” या धाडसी उद्दीष्टाने सुमारे सहा महिन्यांपूर्वी स्थापना केली गेली. तथापि, सह-संस्थापक मॅथ्यू बार्नेट वाचले की त्याची फर्म एआय कोडिंग एजंट्ससाठी आरएल वातावरणासह प्रारंभ करीत आहे.
बार्नेट म्हणतात की मोठ्या प्रमाणात डेटा फर्मऐवजी साध्या आरएल वातावरणाची विस्तृत श्रेणी तयार करण्याऐवजी एआय लॅबला थोड्या संख्येने आरएल वातावरणासह एआय लॅबचा पुरवठा करण्याचे उद्दीष्ट आहे. या टप्प्यावर, स्टार्टअप सॉफ्टवेअर अभियंता ऑफर करीत आहे 000 500,000 पगार आरएल वातावरण तयार करण्यासाठी – एका तासाच्या कंत्राटदारापेक्षा जास्त स्केल एआय किंवा लाटेवर काम करू शकेल.
मेकॅनिज्ड आधीपासूनच आरएल वातावरणात मानववंशासह कार्य करीत आहे, या प्रकरणाशी परिचित दोन स्त्रोत रीडला सांगितले. यांत्रिकी आणि मानववंशशास्त्राने भागीदारीवर भाष्य करण्यास नकार दिला.
इतर स्टार्टअप्स पैज लावत आहेत की आरएल वातावरण एआय लॅबच्या बाहेर प्रभावी असेल. प्राइम बुद्धिमत्ता – एआय संशोधक आंद्रेज कार्पाथी, संस्थापक फंड आणि मेनलो व्हेंचर्स यांनी पाठिंबा दर्शविणारा एक स्टार्टअप – आरएल वातावरणासह लहान विकसकांना लक्ष्य करीत आहे.
गेल्या महिन्यात, प्राइम इंटेल्टने एक सुरू केली आरएल वातावरण हब, ज्याचा हेतू “आरएल वातावरणासाठी मिठी मारणारा चेहरा” आहे. ओपन-सोर्स विकसकांना मोठ्या एआय लॅबमध्ये असलेल्या समान संसाधनांमध्ये प्रवेश देणे आणि त्या विकसकांना प्रक्रियेत संगणकीय संसाधनांमध्ये प्रवेश विकण्याची कल्पना आहे.
आरएल वातावरणातील सामान्यत: सक्षम एजंट्स पूर्वीच्या एआय प्रशिक्षण तंत्रांपेक्षा संगणकीय महाग असू शकतात, असे मुख्य बुद्धिमत्ता संशोधक ब्राऊनच्या म्हणण्यानुसार. स्टार्टअप्स आरएल वातावरण तयार करण्याबरोबरच जीपीयू प्रदात्यांसाठी आणखी एक संधी आहे जी प्रक्रियेस सामर्थ्य देऊ शकते.
ब्राउनने एका मुलाखतीत सांगितले की, “कोणत्याही एका कंपनीसाठी वर्चस्व गाजवण्यासाठी आरएल वातावरण खूप मोठे होणार आहे. “आम्ही जे करीत आहोत त्याचा एक भाग म्हणजे त्याभोवती चांगली मुक्त-स्त्रोत पायाभूत सुविधा तयार करण्याचा प्रयत्न करीत आहे. आम्ही विक्री केलेली सेवा मोजणी आहे, म्हणून जीपीयू वापरणे हे एक सोयीस्कर आहे, परंतु आम्ही दीर्घकाळापर्यंत याचा अधिक विचार करीत आहोत.”
हे स्केल होईल?
आरएल वातावरणाभोवती खुला प्रश्न हा आहे की हे तंत्र मागील एआय प्रशिक्षण पद्धतींप्रमाणेच मोजेल की नाही.
ओपनईच्या ओ 1 आणि अँथ्रोपिकच्या क्लॉड ऑपस 4 सारख्या मॉडेल्ससह मागील वर्षभरात मजबुतीकरण शिक्षणाने एआयमधील काही सर्वात मोठ्या झेपांना सामोरे जावे लागले. एआय मॉडेल्स सुधारण्यासाठी पूर्वी वापरल्या जाणार्या पद्धती आता कमी होणारी परतावा दर्शवित आहेत.
वातावरण हे आरएलवरील एआय लॅबच्या मोठ्या पैजचा एक भाग आहे, जे अनेकांचा असा विश्वास आहे की प्रक्रियेत अधिक डेटा आणि संगणकीय संसाधने जोडल्यामुळे प्रगती होत राहील. ओ 1 च्या मागे काही ओपनई संशोधकांनी यापूर्वी वाचले की कंपनीने मूळतः एआय रजिस्टिंग मॉडेल्समध्ये गुंतवणूक केली-जी आरएल आणि चाचणी-वेळ-विवादास्पद गुंतवणूकीद्वारे तयार केली गेली होती-कारण त्यांना असे वाटते की ते छान होईल.
आरएलचे मोजमाप करण्याचा उत्तम मार्ग अस्पष्ट राहिला आहे, परंतु वातावरण एक आशादायक दावेदार असल्यासारखे दिसते. मजकूर प्रतिसादासाठी फक्त चॅटबॉट्सना पुरस्कृत करण्याऐवजी ते एजंट्सना त्यांच्या विल्हेवाटात साधने आणि संगणकांसह सिम्युलेशनमध्ये ऑपरेट करू देतात. हे बरेच स्त्रोत-केंद्रित आहे, परंतु संभाव्यत: अधिक फायद्याचे आहे.
काहीजण संशयी आहेत की या सर्व आरएल वातावरणात बाहेर पडतील. रॉस टेलर, मेटा सह माजी एआय रिसर्च लीड ज्याने सामान्य तर्क सह-स्थापना केली आहे, असे वाचते की आरएल वातावरणात हॅकिंगला बक्षीस मिळते. ही एक प्रक्रिया आहे ज्यामध्ये एआय मॉडेल खरोखरच कार्य न करता बक्षीस मिळविण्यासाठी फसवणूक करतात.
टेलर म्हणाले, “मला वाटते की वातावरण मोजणे किती अवघड आहे हे लोक कमी लेखत आहेत,” टेलर म्हणाले. “अगदी सर्वोत्कृष्ट सार्वजनिकपणे उपलब्ध (आरएल वातावरण) सामान्यत: गंभीर बदल केल्याशिवाय कार्य करत नाही.”
ओपनईचे एपीआय व्यवसायासाठी अभियांत्रिकीचे प्रमुख शेरविन वू यांनी ए मध्ये सांगितले अलीकडील पॉडकास्ट की तो आरएल पर्यावरण स्टार्टअप्सवर “लहान” होता. वूने नमूद केले की ही एक अतिशय स्पर्धात्मक जागा आहे, परंतु एआय संशोधन इतक्या लवकर विकसित होत आहे की एआय लॅबची चांगली सेवा करणे कठीण आहे.
आरएल वातावरणाला संभाव्य प्रगती म्हणून संबोधणा Pri ्या प्राइम बुद्धिमत्तेतील गुंतवणूकदार कार्पाथी यांनी आरएलच्या जागेसाठी अधिक व्यापकपणे सावधगिरी बाळगली आहे. मध्ये मध्ये एक्स वर पोस्ट कराआरएलमधून एआयची आणखी किती प्रगती पिळली जाऊ शकते याबद्दल त्याने चिंता व्यक्त केली.
कार्पथी म्हणाली, “मी वातावरण आणि एजंटच्या संवादांवर तेजीत आहे परंतु मी विशेषत: मजबुतीकरण शिक्षणावर मंद आहे,” कार्पथी म्हणाले.
अद्यतनः या लेखाच्या मागील आवृत्तीमध्ये मेकॅनिलाइजला मेकॅनिलाइज वर्क म्हणून संदर्भित केले गेले. कंपनीचे अधिकृत नाव प्रतिबिंबित करण्यासाठी ते अद्यतनित केले गेले आहे.
Comments are closed.