डेकार्टचे नवीन जागतिक मॉडेल फोटोरिअलिस्टिक ड्रायव्हिंगच्या तासांचे अनुकरण करू शकते — काही सावधांसह

AI स्टार्टअप Decart ने बुधवारी Oasis 3 चे अनावरण केले, त्याचे नवीनतम परस्परसंवादी जागतिक मॉडेल जे रिअल टाइममध्ये फोटोरिअलिस्टिक ड्रायव्हिंग वातावरण निर्माण करू शकते, रीडने केवळ शिकले आहे. मॉडेल सध्या API द्वारे उपलब्ध आहे.

स्टार्टअप सुरुवातीला स्वायत्त वाहन कंपन्यांना लक्ष्य करत आहे ज्यांना मोठ्या प्रमाणात ड्रायव्हिंग परिस्थितीचे अनुकरण करणे आवश्यक आहे आणि रोबोटिक्स आणि इतर भौतिक एआय अनुप्रयोगांमध्ये विस्तार करण्याची योजना आहे. पण सर्वात मोठी पैज डेव्हलपरवर आहे: पहिल्या दिवसापासून एपीआय ऍक्सेस ऑफर करून, डेकार्ट जगभरातील मॉडेल्समध्ये डेव्हलपर इकोसिस्टम तयार करण्याचा प्रयत्न करत आहे जसे की ओपनएआयने भाषा मॉडेलसह केले.

“हे पहिले वापरण्यायोग्य जागतिक मॉडेल असणार आहे जे लोक प्रत्यक्षात वर प्रोग्राम करू शकतात,” डीन लीटर्सडॉर्फ, सह-संस्थापक आणि सीईओ डेकार्ट यांनी रीडला सांगितले. “मला वाटते की एक संपूर्ण विकसक समुदाय असेल जो या शीर्षस्थानी उदयास येईल.”

स्टार्टअपमध्ये आधीपासून 100,000 पेक्षा जास्त डेव्हलपरचा समुदाय आहे, त्यापैकी बरेच लोक त्याच्या रिअल-टाइम व्हिडिओ मॉडेल लुसीच्या शीर्षस्थानी उत्पादने तयार करत आहेत, मुख्यत्वे ई-कॉमर्स आणि लाइव्ह स्ट्रीमिंगमध्ये. Oasis 3 त्या फाउंडेशन मॉडेलवर आधारित आहे आणि ते कंपनीच्या भौतिक AI मध्ये पुशचे प्रतिनिधित्व करते. प्रवेशाची किंमत प्रति सेकंद $0.02 आहे आणि एंटरप्राइझ किंमत वापराच्या प्रकरणांवर अवलंबून असते, डेकार्ट म्हणाले.

डेकार्ट जागतिक मॉडेलच्या वाढत्या पॅकमध्ये खेळत आहे. गेल्या वर्षी, Google ने संशोधन पूर्वावलोकनामध्ये Genie 3 रिलीझ केले, Fei-Fei Li's World Labs ने व्यावसायिक वापराच्या प्रकरणांसाठी मार्बल लाँच केले आणि Luma आणि Runway सारखे व्हिडिओ जनरेशन स्टार्टअप देखील त्यांच्या भौतिकशास्त्र-जागरूक व्हिडिओ मॉडेलचे जागतिक मॉडेलमध्ये भाषांतर करत आहेत.

Decart's Oasis 3 फोटोरिअलिस्टिक ड्रायव्हिंग परिस्थिती निर्माण करते ज्यांच्याशी तुम्ही रिअल टाइममध्ये संवाद साधू शकता.प्रतिमा क्रेडिट्स:डेकार्ट

Oasis 3 चे प्रकाशन दोन वर्षांच्या डेकार्टने $300 दशलक्ष जमवल्यानंतर काही आठवड्यांनंतर आले, ज्याचे Leitersdorf म्हणते की ई-कॉमर्स, लाइव्ह स्ट्रीमिंग आणि फिजिकल AI मध्ये “आम्ही तयार केलेल्या मॉडेल्ससाठी प्रचंड मागणी वाढली”. या फेरीने डेकार्टचे मूल्य जवळपास $4 अब्ज पर्यंत वाढवले ​​आणि टोयोटा, ॲडोब आणि ईबे सारख्या धोरणात्मक गुंतवणूकदारांची मालिका आणली. या सर्व कंपन्या संभाव्य ग्राहक आहेत, लीटर्सडॉर्फ म्हणतात. Nvidia या विद्यमान गुंतवणूकदारानेही या फेरीत भाग घेतला.

Oasis 3 ची किनार त्याच्या मॉडेल्सच्या फोटो-वास्तववाद आणि असीम जनरेशन क्षमतेमध्ये आहे. हे Decart च्या काही कार्यक्षमतेच्या विझार्डीमुळे आहे, कंपनीच्या इतर मुख्य उत्पादनाद्वारे समर्थित आहे: DOS (डेकार्ट ऑप्टिमायझेशन स्टॅक) सॉफ्टवेअर जे मॉडेल्सना Nvidia, Amazon आणि Google हार्डवेअरवर कार्यक्षमतेने चालवण्यास अनुमती देते, ज्यामुळे त्याचे मॉडेल स्पर्धकांपेक्षा खूपच कमी खर्चिक आहेत.

“हे आमच्या संपूर्ण रीअल-टाइम स्टॅकच्या शीर्षस्थानी तयार केले आहे, जे आम्ही हार्डवेअरपर्यंत सर्व प्रकारे ऑप्टिमाइझ करतो,” Leitersdorf म्हणाले. “इतके अनुलंब एकत्रित केल्यामुळे, आम्ही ही मॉडेल्स चालवण्यासाठी उद्योगातील इतर कोणापेक्षाही अधिक स्वस्त ऑर्डर बनण्यास सक्षम आहोत.”

स्टार्टअपचे मॉडेल इतके कार्यक्षम आहेत, प्रति लीटर्सडॉर्फ, की ते त्याच्या जीवनकाळात $100 दशलक्ष पेक्षा “अत्यंत कमी” झाले आहे.

प्रशिक्षण आणि चाचणी प्रणालींसाठी ओएसिस 3 शारीरिकदृष्ट्या अचूक, मल्टी-कॅमेरा वातावरण तयार करते — एक समोरासमोर आणि दोन-बाजूला —. आणि मर्यादित डेमो आणि संशोधन पूर्वावलोकन देण्याऐवजी, डेकार्ट विकसकांना अनंत परिस्थिती निर्माण करण्याची परवानगी देते, जे स्वायत्त वाहन विकासकांसाठी योग्य आहे जे शक्य तितक्या एज केसेसचा प्रयत्न करू पाहत आहेत.

मी प्रयत्न केलेल्या इतर मॉडेल्सच्या तुलनेत, जसे की Google चे Genie 3 किंवा World Labs चे Marble, Oasis 3 मी पाहिलेल्या एका टेक्स्ट प्रॉम्प्टमधून सर्वात जास्त फोटोरिअलिस्टिक वातावरण प्रदान करते. आणि तुम्ही त्यांच्याशी तासन्तास संवाद साधू शकता ही वस्तुस्थिती दर्शवते की डेकार्टच्या प्रतिस्पर्ध्यांमध्ये कार्यक्षमतेची कमतरता असू शकते.

परंतु आपल्याला इतके दिवस जग निर्माण करू देऊन, मॉडेल देखील लक्षणीयरीत्या खराब होते.

Oasis 3 प्रॉम्प्टवरून अचूक फोटोरिअलिस्टिक मार्ग तयार करते, परंतु अद्याप ऑब्जेक्ट जागरूकता नाही.प्रतिमा क्रेडिट्स:रेबेका बेलान / डेकार्ट

माझ्या चाचणीमध्ये, मला असे आढळले की सिस्टीम प्रॉम्प्टशी जुळणारे एक मजबूत प्रारंभिक दृश्य सेट करू शकते, परंतु मी जगभर फिरत असताना थीमॅटिक अखंडता झपाट्याने खालावली. मी त्याला सकाळी न्यूयॉर्क शहराचा रस्ता तयार करण्यास सांगितले, त्याने तसे केले, सुंदरपणे. पण मी चालत असताना, वातावरण न्यू यॉर्कसारखे कमी आणि कोणत्याही शहरी, पाश्चात्य शहराच्या मानक आवृत्तीसारखे दिसले.

जेव्हा मी मागे वळण्याचा प्रयत्न केला आणि सुरुवातीच्या छेदनबिंदूकडे परत जाण्याचा प्रयत्न केला, तेव्हा ते गेले होते, पूर्णपणे नवीन वातावरणाने बदलले होते. सर्वात वरती, नियंत्रणे फारशी प्रतिसाद देणारी नसतात, आणि कार कुठे फिरत होती यावर मी अनेकदा नियंत्रण गमावले (पुन्हा, मी चाचणी केलेल्या इतर जागतिक मॉडेल्सद्वारे सामायिक केलेली कमतरता). हा अनुभव एक सुसंगत सिम्युलेशनसारखा कमी आणि स्वप्नासारखा, चेतनेचा असंबद्ध प्रवाह जास्त वाटला जो त्वरीत निरर्थक वाढतो.

दुसरी समस्या, जी मी इतर जागतिक मॉडेल्समध्ये देखील पाहिली आहे, ती म्हणजे कार फक्त इतर कारमधून चालते, म्हणजे मॉडेल वातावरणात भौतिकशास्त्राचे योग्य अनुकरण करत नाही. लीटर्सडॉर्फ याला “आम्ही आता क्रॅक करत असलेली प्रमुख संशोधन समस्या” असे म्हणतो, “अपघातांच्या तुलनेत चांगल्या ड्रायव्हिंगवर खूप जास्त डेटा आहे.”

या भौतिकशास्त्रातील सातत्य कठीण बनविणारा एक भाग हे जागतिक मॉडेल कसे कार्य करते हे मूलभूत आहे. Oasis 3 ऑटो-रिग्रेसिव्ह आहे, याचा अर्थ ते एका वेळी एक फ्रेम व्युत्पन्न करते, आणि पुढे काय येईल हे ठरवण्यासाठी ते पूर्वी काय व्युत्पन्न केले ते परत पाहते. हे अनेक जागतिक मॉडेल्सचे प्रमुख वास्तुशिल्प वैशिष्ट्य आहे, आणि ते एक गणना-केंद्रित आहे.

उन्हाळ्यात NYC रस्त्यावरील त्याच दृश्यात नंतर सुसंगतता खंडित होऊ लागली.प्रतिमा क्रेडिट्स:रेबेका बेलान / डेकार्ट

सातत्य राखण्यासाठी, लीटर्सडॉर्फ म्हणतात की डेकार्ट टीम मॉडेलच्या मेमरीची लांबी सुधारण्यासाठी काम करत आहे.

“आम्ही व्युत्पन्न केलेली प्रत्येक फ्रेम अंदाजे 8,000 टोकन असते,” तो म्हणाला. “हे प्रति सेकंद दहापट फ्रेम्सवर व्युत्पन्न करत आहे — म्हणजे प्रति सेकंद शेकडो हजार टोकन्स. संदर्भ विंडो खूप लवकर भरते. आम्ही लाखो टोकन संचयित करण्यासाठी दीर्घ संदर्भ कसे करावे आणि कमी टोकन्समध्ये मेमरी कशी संकुचित करावी यावर संशोधन करत आहोत.”

लीटर्सडॉर्फला वाटते की मॉडेलच्या पुढील आवृत्तीमध्ये सुसंगततेची समस्या अंशतः सोडवली जाऊ शकते, जे वापरकर्त्यांना प्रतिमेऐवजी पर्यावरणाच्या व्हिडिओवर आधारित जग निर्माण करण्यास अनुमती देईल. त्यांनी कबूल केले की एक क्षेत्र म्हणून जागतिक मॉडेल अद्याप लवकर आहेत.

तरीही, संस्थापक त्याच्या तंत्रज्ञानाच्या सध्याच्या मर्यादांवर कमी लक्ष केंद्रित करतात जेव्हा विकसकांना हात मिळतील तेव्हा काय होईल.

“हे मला LLM च्या सुरुवातीच्या दिवसांकडे घेऊन जाते, जेव्हा OpenAI ने मॉडेल्ससाठी API चा शोध लावला,” तो म्हणाला, विकासक समुदायाच्या उदयाकडे लक्ष वेधून ज्याने नवीन वापर प्रकरणे शोधून आणि तयार करून क्षेत्राला प्रगत केले.

“जेव्हा आम्ही तीन महिन्यांत पुन्हा बोलू, तेव्हा आम्ही असे होऊ, 'येथे 100 विकसक आहेत ज्यांनी ओएसिससह 100 भिन्न अनुप्रयोग तयार केले ज्याने आम्हा सर्वांना आश्चर्यचकित केले,'” तो म्हणाला.

तुम्ही आमच्या लेखांमधील लिंक्सद्वारे खरेदी करता तेव्हा, आम्ही एक लहान कमिशन मिळवू शकतो. याचा आमच्या संपादकीय स्वातंत्र्यावर परिणाम होत नाही.

Comments are closed.