'छोट्या एआय मॉडेल्सवर भारताची पैज CPUsकडे दुर्लक्ष करू शकते': झिरोह लॅबचे सीईओ हृषिकेश दिवाण

AI विकासासाठी भारताच्या धोरणात्मक रोडमॅपवर अधिक लक्ष केंद्रित केले जात आहे, धोरणकर्ते आणि सरकारी अधिकारी लहान, क्षेत्र-विशिष्ट AI मॉडेल्स, सामायिक पायाभूत सुविधा आणि गणनेसाठी वितरित प्रवेशास प्राधान्य देणाऱ्या तळापर्यंतच्या दृष्टिकोनाचे समर्थन करत आहेत.

हे संभाव्यतः जागतिक AI विकास ट्रेंडमधून बाहेर पडण्याची चिन्हे असताना, भारत GPUs (ग्राफिक्स प्रोसेसिंग युनिट्स) मध्ये गुंतवणूक करून कमी किमतीच्या कम्प्युटमध्ये प्रवेश प्रदान करण्याचा विचार करीत आहे. इंडियाएआय मिशन अंतर्गत, ज्याचा पाच वर्षांत 10,372 कोटी रुपयांचा आर्थिक परिव्यय आहे, भारत सरकारची योजना आहे त्याच्या स्थापित GPU क्षमतेच्या तिप्पट (38,000 ते 1,00,000 GPU) 2026 च्या अखेरीस.

तथापि, झिरोह लॅब्सचे सह-संस्थापक आणि सीईओ हृषिकेश दिवाण यांच्या मते, लहान भाषेच्या मॉडेल्सना मोठ्या सीमावर्ती मॉडेल्सपेक्षा कमी संगणकीय शक्तीची आवश्यकता असते, जे आधीच्या सीपीयू (सेंट्रल प्रोसेसिंग युनिट्स) वर तैनात आणि कार्यान्वित करण्याची परवानगी देतात. बेंगळुरू-आधारित AI स्टार्ट-अपने Kompact AI, एक व्यासपीठ विकसित केले आहे जे विकसकांना क्लाउड, ऑन-प्रिमाइसेस आणि ऑन-डिव्हाइस वातावरणात महागड्या GPU ऐवजी किफायतशीर CPUs वर चालणारे AI मॉडेल तैनात करण्यास सक्षम करते.

यांच्याशी झालेल्या संभाषणात इंडियन एक्सप्रेसदिवाण CPUs वर AI वर्कलोड्स चालवतात, त्यामधील ट्रेड-ऑफ आणि ही आव्हाने सोडवण्यासाठी Kompact AI कसे दिसते यावर चर्चा करतात.

मुलाखतीचे संपादित अंशः

प्रश्न: AI बूममुळे, बॅक-एंड हार्डवेअर अधिकाधिक GPU-केंद्रित झाले आहे. जीपीयूच्या युगात सीपीयू अजूनही प्रासंगिक आहेत असे तुम्हाला का वाटते? ते अधिक ऊर्जा कार्यक्षम आहेत? ऑपरेशनल फायदे काय आहेत?

हृषीकेश दिवाण: GPUs सुरुवातीला CPU मध्ये अनेक वर्षांपूर्वी ॲड-ऑन होते. त्या वेळी, जर एखाद्याला गेम खेळायचा असेल तर त्यांना अधिक प्रक्रिया शक्तीची आवश्यकता होती कारण गेम खूप ग्राफिक्स-केंद्रित असतात. पूर्वी, लोकांनी स्वतंत्र कार्ड म्हणून आलेले GPU खरेदी केले. ते अजूनही PCI कार्ड म्हणून येतात, जे मदरबोर्डवरील स्लॉटमध्ये घातले जातात. गेम चालू असताना, सिस्टम CPU ऐवजी GPU वापरते.

हा ट्रेंड, जो गेल्या 10 ते 15 वर्षांमध्ये व्यापक झाला आहे, एक गोष्ट दर्शवते: जर तुमच्याकडे संगणकीय-केंद्रित काम असेल, तर GPU हा जाण्याचा मार्ग आहे. हे तुम्हाला GPU वर संगणकीय-केंद्रित कार्ये प्रभावीपणे करण्यास मदत करेल.

उदाहरणार्थ, तुमच्याकडे एक व्हिडिओ आहे ज्यावर प्रक्रिया करणे आवश्यक आहे अशा सामान्य कार्यप्रवाहाचा विचार करा. त्यामुळे, तुम्ही GPU वापरून व्हिडिओवर प्रक्रिया करता, परंतु जेव्हा तुम्हाला तो वेगवेगळ्या लोकांना दाखवायचा असेल, तेव्हा तुम्ही CPU-आधारित सर्व्हर वापरता कारण पुढील प्रक्रियेची आवश्यकता नसते; तुम्हाला फक्त ते सर्व्ह करावे लागेल. परिणामी, GPU मोठ्या प्रमाणात संगणकीय काम हाताळण्यास सक्षम मशीन म्हणून आघाडीवर आले.

2017 पासून, AI ने पुढची जागा घेतली आणि अनेक मॉडेल्स विकसित केली गेली, या मॉडेल्सना परिणाम देण्यासाठी लक्षणीय अधिक संगणकीय शक्ती आवश्यक आहे. मोठ्या मॉडेलमध्ये उच्च संगणकीय आवश्यकता असतात कारण त्यात अनेक समीकरणे किंवा चल असतात. म्हणून, मोठ्या मॉडेल्ससाठी जे अनेक वापर प्रकरणे सोडवण्याचा हेतू आहे, त्यासाठी निश्चितपणे GPU आवश्यक आहे.

पण तुम्हाला खरोखरच असे मोठे मॉडेल्स हवे आहेत का? उदाहरणार्थ, तोंडाचा कर्करोग किंवा स्तनाचा कर्करोग यासारख्या विशिष्ट प्रकारच्या कर्करोगावरील प्रश्नांची उत्तरे देण्यासाठी एखादे मॉडेल तयार केले असल्यास, त्याला तत्त्वज्ञानावरील प्रश्नांची उत्तरे देण्याची आवश्यकता आहे का? ते होत नाही. त्या बाबतीत, तुम्ही एक मॉडेल विकसित करत आहात जे विशिष्ट समस्येचे निराकरण करते.

लहान मॉडेल्सना कमी गणनेची आवश्यकता असते, ज्यामुळे ते CPU वर तैनात आणि कार्यान्वित केले जाऊ शकतात. तथापि, जर तुम्ही तोंडाच्या कर्करोगाविषयी प्रश्नांची उत्तरे देण्यासाठी एखादे मॉडेल तैनात केले आणि नंतर ते देशभरात ठेवले आणि प्रत्येकाने त्या मॉडेलला प्रश्न विचारण्यास सांगितले, तर तुमच्या संगणकीय आवश्यकता जास्त असतील कारण हजारो लोक एकाच वेळी प्रश्न विचारतील.

परंतु नंतर तुम्हाला भार वितरित करावा लागेल. या प्रकरणांमध्ये, CPUs देखील वापरले जाऊ शकतात. तुम्हाला GPU वापरण्याची गरज नाही. लहान मॉडेल्समध्ये संगणकीय आवश्यकता कमी असतात आणि ते GPU ऐवजी CPU वर अतिशय कार्यक्षमतेने कार्यान्वित केले जाऊ शकतात.

या जाहिरातीच्या खाली कथा सुरू आहे

प्रश्न: मोठ्या, सीमावर्ती मॉडेल्सच्या विरूद्ध लहान भाषा, डोमेन-विशिष्ट मॉडेल्स तैनात करण्यासाठी CPUs अधिक योग्य आहेत. पण एआय एजंट्सचे काय? CPU सुद्धा तो वर्कलोड हाताळू शकतील का?

दिवाण: एक मॉडेल आहे जे बुद्धिमत्ता वितरीत करते आणि एजंटिक एआय हे एक ऍप्लिकेशन आहे जे त्या बुद्धिमत्तेचा वापर करते. आता, ती बुद्धिमत्ता लहान मॉडेल किंवा मोठ्या मॉडेलद्वारे वितरित केली जाऊ शकते.

साधारणपणे, एजंट्सच्या बाबतीत, ते लहान मॉडेल्स वापरतात कारण ते सरळ आहे. समजा तुम्हाला दिल्ली ते बंगळुरूचे तिकीट बुक करायचे आहे आणि तुम्ही एआय एजंट वापरत आहात. एआय एजंटला सार्वजनिक माहितीची आवश्यकता असेल जसे की दिल्ली ते बंगळुरूसाठी कोणती उड्डाणे उपलब्ध आहेत. यासाठी काही वैयक्तिक माहिती देखील आवश्यक आहे, जसे की तुम्हाला कोणती फ्लाइट घ्यायची आहे.

म्हणून, हे काम मॉडेल वापरून केले जाऊ शकते जे केवळ दोन गोष्टी करतात: वैयक्तिक प्राधान्ये अचूकपणे प्रदान करणे आणि सार्वजनिक माहिती अचूकपणे प्रदान करणे. Agentic AI खरोखर वितरित AI बद्दल आहे. याचा अर्थ बुद्धिमत्ता अनेक स्त्रोतांकडून येते आणि आपण त्यांना कार्य करण्यासाठी एकत्र करता. म्हणून, या प्रकारच्या वितरित गणनेसाठी CPUs अतिशय योग्य आहेत.

प्रश्न: जेव्हा Google ने मिथुन 3 रिलीझ केले, तेव्हा त्याकडे बरेच लक्ष वेधले गेले कारण अनुमान त्याच्या स्वतःच्या सानुकूल TPU वर केले गेले होते. जसजशी एआय रेस विकसित होत आहे, तसतसे अनेक स्टार्टअप्स आणि प्रयोगशाळा अनुमान स्तर अनुकूल करण्याचा विचार करत आहेत. CPUs अनुमान हाताळण्यासाठी अधिक सुसज्ज आहेत का?

दिवाण: हे मॉडेलच्या आकारावर अवलंबून असते. मॉडेलमध्ये दोन टप्पे असतात: मॉडेल डेव्हलपमेंट, ज्याला प्रशिक्षण म्हणूनही ओळखले जाते आणि अनुमानासाठी उपयोजन. अनुमान काढणे हे मूलत: प्रशिक्षित मॉडेलचा वापर आहे.

Google ने विकसित केलेले TPUs, विशेष आहेत, म्हणजे ते मॉडेलच्या विशिष्ट वर्गासाठी ऑप्टिमाइझ केलेले आहेत. GPUs, दुसरीकडे, प्रशिक्षण आणि अनुमान दोन्हीसाठी वापरलेले अधिक सामान्य हार्डवेअर आहेत.

हे चांगले आहे की अशा भिन्नता उदयास येत आहेत, कारण ते लोकांना त्यांच्या कामासाठी योग्य हार्डवेअर निवडण्यासाठी अधिक पर्याय देतात. CPUs प्रचंड मॉडेल सोडवू शकत नाहीत; ते शक्य नाही, परंतु ते लहान हाताळू शकतात. लहान मॉडेल्ससाठी, आणि जेव्हा तुम्हाला तैनातीचे प्रमाण समजते आणि तुम्ही कोणाला सेवा देत आहात, तेव्हा CPU ही उपयोजन आणि स्केलिंगसाठी एक व्यावहारिक आणि प्रभावी हार्डवेअर निवड आहे.

प्रश्न: AI CPU चा व्यापक अवलंब करण्यात कोणते अडथळे आहेत?

दिवाण: मुख्य आव्हान म्हणजे थ्रुपुट-म्हणजे, प्रति सेकंद किती टोकन वितरित केले जाऊ शकतात. जर थ्रूपुट कमी असेल तर, मॉडेल वापरण्यासाठी निराशाजनक होते. उदाहरणार्थ, जर मी प्रश्न विचारला आणि उत्तर मिळण्यास 1 मिनिट लागला, तर लोक कालांतराने ते वापरणे थांबवतील.

दुसरा मुद्दा गुणवत्तेचा. मॉडेलने अचूक आणि अचूक उत्तरे प्रदान करणे आवश्यक आहे. उदाहरणार्थ, जर मी दहावीचा विद्यार्थी आहे आणि मी बायोलॉजी मॉडेलला प्रकाशसंश्लेषणाचे स्पष्टीकरण देण्यासाठी विचारले आणि मॉडेल चुकीचे उत्तर देत असेल, तर ही एक गंभीर समस्या आहे. म्हणून, दोन मुख्य आव्हाने आहेत: 1) वितरणाचा वेग वाढवणे आणि 2) उत्तरांची गुणवत्ता सुनिश्चित करणे.

या समस्यांचे निराकरण करण्यासाठी अनेक उपाय विकसित केले गेले आहेत. CPUs वापरून तैनात केलेल्या बहुतेक मॉडेल्ससाठी, थ्रूपुट अनेकदा अपुरा असतो आणि आवश्यक SLA पूर्ण करत नाही. कॉम्पॅक्ट एआय अस्तित्वात आहे कारण आम्ही ही समस्या सोडवतो.

जेव्हा तुम्ही Kompact AI सह मॉडेल उपयोजित करता, तेव्हा थ्रूपुट तुम्हाला आज मिळत असलेल्या जवळपास 2X आहे. म्हणजे एखाद्या गोष्टीला सध्या एक मिनिट लागत असल्यास, मॉडेलद्वारे प्रदान केलेल्या परिणामांच्या गुणवत्तेशी कोणतीही तडजोड न करता, Kompact AI वर वितरित करण्यासाठी फक्त 30 सेकंद लागतील.

प्रश्न: Kompact AI विशेषतः हे कसे साध्य करते? Kompact AI च्या विकास चक्रातून तुम्ही आम्हाला मार्ग दाखवू शकाल का?

दिवाण: 2021 मध्ये, जेव्हा हे फ्रंटियर मॉडेल विकसित केले जात होते, आणि मॉडेलचे आकार प्रत्येक तिमाहीत वाढत होते, तेव्हा आम्हाला हे जाणवले की जर आपण विद्यमान दृष्टीकोन चालू ठेवला-एआय मॉडेल वितरीत करण्यात गुंतलेले गणित दिले तर-ते मोजणे कठीण होईल.

म्हणून, आम्ही प्रामुख्याने विज्ञान भागावर लक्ष केंद्रित करून 2021 मध्ये यावर काम करण्यास सुरुवात केली. त्यावर आम्ही अनेक वर्षे घालवली. 2024 पर्यंत, आम्हाला आमच्या वैज्ञानिक कार्याचे परिणाम दिसू लागले आणि तेव्हाच आम्ही अभियांत्रिकी टप्प्यात गेलो. शेवटी, आम्ही कॉम्पॅक्ट एआय रनटाइम नावाचा रनटाइम विकसित केला आहे जो गुणवत्तेचा त्याग न करता खूप उच्च थ्रूपुट प्रदान करतो.

कॉम्पॅक्ट एआय सरळ आहे. हगिंग फेसवर अनेक मॉडेल्स उपलब्ध आहेत आणि बहुतेक लोक त्यांची मॉडेल्स तिथे प्रकाशित करतात. तुम्ही ही मॉडेल्स डाउनलोड करू शकता आणि त्यांना Kompact AI वर चालवू शकता.

मॉडेलचे मूल्यमापन करण्यासाठी आम्ही मॉडेल डिझायनरने निर्दिष्ट केलेल्या गुणवत्ता मेट्रिक्सचा वापर करतो. आम्ही बेंचमार्क डाउनलोड करतो, ते चालवतो आणि मॉडेल डिझायनरच्या मेट्रिक्सची पूर्तता करतो की नाही हे पडताळतो.

Kompact AI Nvidia चे CUDA टेक स्टॅक GPU साठी जे काही करते त्याप्रमाणेच काही तरी करते, पण ते पुढेही जाते. तुम्ही GPU वर चालणारी समान समीकरणे घेतल्यास आणि बदल न करता CPU वर चालवल्यास, GPU नैसर्गिकरित्या चांगले कार्य करेल. समीकरणे स्वतःच बदलणे आवश्यक आहे. म्हणूनच कॉम्पॅक्ट एआय ही केवळ अभियांत्रिकी समस्येपेक्षा वैज्ञानिक समस्या आहे.

प्रश्न: Kompact AI वापरण्यास-तयार AI मॉडेल्स प्रदान करते जे आधीच चांगले-ट्यून केलेले आहेत आणि विकासकांना त्याच्या वर ऍप्लिकेशन तयार करण्यासाठी ऑप्टिमाइझ केलेले आहेत?

दिवाण: होय. आम्ही ही डेरिव्हेटिव्ह किंवा फाइन-ट्यून मॉडेल्स विकसित केली आहेत. विकसकासाठी, काळजी करण्यासारखे फार थोडे आहे. ते Google Cloud मधील बटणावर क्लिक करू शकतात आणि मॉडेल स्वयंचलितपणे तैनात केले जाते. त्यांना कोडची एक ओळ लिहायची गरज नाही आणि प्रक्रिया सरळ आहे.

या जाहिरातीच्या खाली कथा सुरू आहे

आज, Kompact AI तुम्हाला ही मॉडेल्स CPU वर चालवण्यास सक्षम करते, परंतु भविष्यात, आम्ही GPU ला देखील सपोर्ट करू, त्यामुळे तुम्ही त्यांच्यावर Kompact AI रनटाइम चालवू शकाल. आणि त्यानंतर, आम्ही TPU ला सपोर्ट करण्यासाठी खूप खुले आहोत.

शेवटी, आम्ही विज्ञानाच्या बाजूने बरेच काही केले आहे. यामुळे, आम्ही ते वेगवेगळ्या हार्डवेअरवर प्रकट करू शकतो. जर आम्ही एखादे मॉडेल सध्याच्या उपलब्धतेच्या तुलनेत प्रति सेकंद 2X टोकन तयार करू शकलो, तर आम्ही CUDA पेक्षा किमान 1.5X अधिक टोकन तयार करू शकतो.

प्रश्न: Kompact AI द्वारे कोणते CPU वापरले जातात आणि ते कुठे आहेत?

दिवाण: हे जागतिक आहे. आम्ही भारतीय डेटा केंद्रांमधील CPUs, Intel आणि AMD सारखे OEM आणि Google Cloud, AWS आणि Azure वर उपलब्ध CPUs वापरतो. ते जगभरात स्थित आहेत – काही ओहायोमध्ये, काही इतर प्रदेशांमध्ये. ज्या विकासकांना आणि उद्योगांना Kompact AI वापरायचे आहे ते ते कुठे तैनात करायचे ते ठरवू शकतात.

प्रश्न: जर मी भारत-आधारित विकासक आहे आणि मला माझा डेटा भारतातच राहायचा असेल, तर ते स्पष्टपणे भारतात असलेले CPU निवडू शकतात का?

दिवाण: होय, अगदी. आम्ही हार्डवेअर प्रदान करत नाही; आम्ही सॉफ्टवेअर प्रदान करतो. कोणतीही संस्था किंवा एंटरप्राइझ त्यांच्या नियामक आवश्यकता किंवा इतर गरजांवर अवलंबून, त्यांना पाहिजे तेथे ते तैनात करू शकते.

उदाहरणार्थ, हेल्थकेअर डेटावर काम करणारी संस्था हे सुनिश्चित करू शकते की सर्वकाही फक्त भारतातच तैनात केले जाईल. ते पूर्णपणे ठीक आहे. ते हार्डवेअर निवडू शकतात, मग ते क्लाउड प्रदात्याकडून किंवा त्यांच्या स्वत: च्या डेटा सेंटरमधून. आम्ही त्यांना सॉफ्टवेअर देतो आणि ते त्या हार्डवेअरवर तैनात करण्यात मदत करतो.

प्रश्न: भारताला AI शर्यतीत पुढे जाण्यासाठी किंवा AI मध्ये पाय ठेवण्यासाठी काय आवश्यक आहे?

दिवाण: तंत्रज्ञानात तुम्हाला जागतिक स्तरावर स्पर्धा करावी लागेल. आम्ही बंगलोरमध्ये आहोत, पण याचा अर्थ असा नाही की आम्ही फक्त भारतस्थित कंपनी आहोत आणि फक्त भारतीय कंपन्यांशी स्पर्धा करतो. ते कसे कार्य करते असे नाही. आम्हाला सर्वत्र कंपन्यांशी स्पर्धा करावी लागेल: बे एरिया, तेल अवीव, न्यूयॉर्क आणि बोस्टन.
म्हणून, जेव्हा आपण म्हणतो की आम्हाला AI मध्ये पाय रोवायचे आहेत, तेव्हा प्रश्न असा आहे: कोणत्या क्षेत्रात? जर तुम्हाला फ्रंटियर मॉडेल किंवा मोठे मॉडेल विकसित करायचे असेल, तर तुम्हाला डीपसीक, जेमिनी, ओपनएआय आणि इतरांशी स्पर्धा करावी लागेल. जर तुम्ही त्यांना त्या जागेत तांत्रिकदृष्ट्या पराभूत करू शकत नसाल तर ते कठीण होते.

आज प्रत्येक संस्थेकडे संसाधनांच्या विस्तृत श्रेणीत प्रवेश आहे. उदाहरणार्थ, भारताकडे असलेला भाषिक डेटा—तुम्हाला वाटते की Google ला त्यात प्रवेश नाही? ते करतात. संसाधनांमध्ये प्रवेश करण्यातील अडथळे कोणत्याही एका देशासाठी वेगळे नाहीत.

प्रश्न: जर मी CPU-आधारित कॉम्प्युट सोल्यूशन्सचा अवलंब करण्याचा विचार करत आहे, तर स्विचओव्हरची किंमत काय आहे?

दिवाण: शून्य खर्च. खरं तर, ते प्रत्यक्षात खर्च कमी करते. तुम्ही GPU वापरता तेव्हा, ते चालू ठेवण्यासाठी तुम्ही खूप पैसे देत आहात. तुम्ही Kompact AI सह CPU वर वर्कलोड हलवल्यास, त्याची किंमत खूपच कमी होईल. स्थलांतराचा खर्च काहीच नाही. तुम्ही रनटाइम डाउनलोड करा, हगिंग फेस सारख्या प्लॅटफॉर्मवरून मॉडेल मिळवा आणि ते चालवा. क्वचितच दोन मिनिटे लागतात.

प्रश्न: अंतराळातील GPU-आधारित डेटा केंद्रांच्या या उदयोन्मुख कल्पनेबद्दल तुमचा दृष्टीकोन काय आहे?

दिवाण: हा एक रोमांचक आणि सकारात्मक उपक्रम आहे. ते यशस्वी झाल्यास, एकूण वीज आवश्यकता लक्षणीयरीत्या कमी होऊ शकते. मोठी GPU-आधारित डेटा केंद्रे जी उर्जा वापरतील ती इतर उपयोगांसाठी पुनर्निर्देशित केली जाऊ शकते, जसे की सिंचन, ग्रामीण विद्युतीकरण आणि तत्सम गरजा. आणि CPU स्पेसमध्ये देखील जाऊ शकतात, संभाव्यत: अगदी कमी किमतीत, कारण त्यांच्या उर्जेची आवश्यकता खूपच कमी आहे.

Comments are closed.