'सर्वाधिक उत्साही वापरकर्त्यांमध्ये भारतीय': बहुभाषिक AI प्रतिमा निर्मितीवर ChatGPT प्रतिमा 2.0 च्या मागे टीम

ओपनएआयच्या चॅटजीपीटी इमेजेस २.० सह एआय इमेज जनरेशन मॉडेल्स कसे विकसित केले जातात याला आकार देण्यात भारत वाढत्या भूमिका बजावत आहे, आता हिंदीमध्ये मांगा-शैलीतील पॅनेलपासून ते गर्दीच्या आणि गोंधळलेल्या भारतीय रस्त्यांचे अधिक वास्तववादी चित्रण करण्यासाठी सर्व काही निर्माण करण्यास सक्षम आहे.

या आठवड्याच्या सुरुवातीला, OpenAI CEO सॅम ऑल्टमन म्हणाले की, एप्रिल 2026 मध्ये रिलीझ झाल्यापासून भारतीय वापरकर्त्यांनी Images 2.0 चा वापर करून एक अब्जाहून अधिक व्हिज्युअल व्युत्पन्न केले आहेत. OpenAI ने 'इमेज फॉर ChatGPT' वैशिष्ट्य सादर केल्यानंतर एक वर्षानंतर हा मैलाचा दगड आहे ज्याने व्हायरल स्टुडिओ घिबली-शैलीतील AI प्रतिमांचा ट्रेंड सुरू केला.

तथापि, OpenAI देखील एंटरप्राइझ उत्पादनांकडे प्रतिभा आणि संगणकीय संसाधने पुनर्निर्देशित करताना, प्रायोगिक बाजूच्या प्रकल्पांवर प्लग खेचून, व्यापक धोरणात्मक रीसेट करत आहे. एका आश्चर्यकारक हालचालीमध्ये, कंपनीने सोरा, त्याचे लोकप्रिय AI व्हिडिओ-जनरेशन साधन, ते लोकांसाठी रिलीज केल्यानंतर अवघ्या सहा महिन्यांत बंद केले.

या संदर्भात, इंडियन एक्सप्रेस सॅन फ्रान्सिस्को-आधारित टीमच्या सदस्यांसोबत बसलो ज्याने Images 2.0 तयार केले हे समजून घेण्यासाठी की नवीनतम मॉडेल हे मागील आवृत्त्यांपेक्षा एक पाऊल कसे बदलते आणि महत्त्वाचे म्हणजे, भारतासारख्या बहुभाषिक, सांस्कृतिकदृष्ट्या वैविध्यपूर्ण बाजारपेठांसाठी ते कसे पुनरावृत्ती होते – एक दृष्टीकोन जो दत्तक आणि वापरकर्त्यांच्या सहभागाच्या दृष्टीने फायदेशीर आहे असे दिसते.

“पूर्वी, मॉडेल मूल्यमापनासह आमची बहुतांश कामे इंग्रजीत केली जात होती. आमच्या मॉडेल्सनाही बऱ्याच तपशिलांचा सामना करावा लागला होता, विशेषत: आशियाई भाषांमध्ये. चीनी, जपानी, कोरियन, हिंदी आणि इतर भाषांमध्ये, इंग्रजीमध्ये फक्त 26 अक्षरांच्या तुलनेत हजारो वर्ण आहेत,” ⁠OpenAI चे संशोधन शास्त्रज्ञ बोयुआन चेन म्हणाले.

“तथापि, यावेळी, आमच्या अंतर्गत पुनरावृत्ती प्रक्रियेत जगभरातील संस्कृतींचा समावेश करण्यात आला आहे याची खात्री करण्यासाठी आम्ही बराच वेळ घालवला. जेव्हा जेव्हा आम्ही पाहिले की एखादी भाषा चांगली कामगिरी करत नाही, तेव्हा आम्ही व्यापक सांस्कृतिक आणि भाषिक कव्हरेज सुनिश्चित करण्यासाठी अधिक डेटा जोडला,” चेन यांनी स्पष्ट केले.

ChatGPT Images 2.0 सह, OpenAI ने म्हटले आहे की त्यांनी नॉन-लॅटिन मजकूर रेंडरींगमध्ये विशेषत: जपानी, कोरियन, चीनी, हिंदी आणि बंगालीमध्ये लक्षणीय फायदा मिळवला आहे. मॉडेलची बहुभाषिक समज ही साध्या भाषांतराच्या पलीकडे जाते, जिथे भाषा पोस्टर्स, कॉमिक्स, आकृत्या इ. सारख्या व्हिज्युअल आउटपुटमध्ये एम्बेड केलेली असते.

या जाहिरातीच्या खाली कथा सुरू आहे

OpenAI मधील उत्पादन व्यवस्थापक अभि मुच्छाल यांनी मॉडेलच्या भारत-विशिष्ट वास्तववादाचे आणखी एक उदाहरण दिले. “मागील मॉडेलमध्ये, जर तुम्ही भारतातील शहराचा देखावा बनवण्यास सांगितले, तर तिथे अजिबात गर्दी होणार नाही. हे मॉडेल परिपूर्ण नसले तरी, आता तुम्ही एक वास्तववादी प्रतिनिधित्व पाहू शकता जिथे रिक्षा डावीकडे आणि उजवीकडे फिरत आहेत आणि तेथे खूप लोक आहेत, गर्दी आहे,” तो म्हणाला.

बहुभाषिक क्षमतेच्या पलीकडे, इमेज 2.0 मध्ये 2K पर्यंतच्या रिझोल्यूशनसाठी समर्थनासह, खूप उच्च गुणवत्तेमध्ये विस्तृत प्रमाणात गुणोत्तर तयार करण्याची क्षमता आहे, आणि व्हिज्युअल शैलींच्या विस्तृत श्रेणीमध्ये सुधारित निष्ठा प्रदर्शित करते असे म्हटले जाते.

बहुभाषिक प्रतिमा निर्मितीचे आव्हान

अगदी अलीकडे 2024 मध्ये, DALL-E 3 सारख्या मजकूर-टू-इमेज जनरेटरने प्रतिमांमध्ये अचूक शब्दलेखन करण्यासाठी संघर्ष केला. डिफ्यूजन मॉडेल आवाजापासून पिक्सेलची पुनर्रचना करून प्रतिमा निर्माण करत असल्याने, प्रशिक्षणादरम्यान लहान मजकूर घटकांकडे कमी लक्ष दिले गेले. वेगवेगळ्या भाषांमधील आउटपुटच्या संदर्भात हा मुद्दा अधिक गुंतागुंतीचा झाला.

पण ती मर्यादा आता मोठ्या प्रमाणावर बदनामीच्या मार्गावर गेली आहे 'अतिरिक्त बोटांची' समस्या ज्याने पूर्वीच्या प्रतिमा जनरेटरला त्रास दिला.

ओपनएआयने हे कसे साध्य केले याचे तपशील शेअर करण्यास नकार देताना, चेन म्हणाले की वापरकर्त्यांच्या सूचनांचे अधिक चांगल्या प्रकारे पालन करण्यासाठी मॉडेलला प्रशिक्षण देणे ही मुख्य गोष्ट आहे. “या प्रतिमा-जनरेशन मॉडेलसह, आम्हाला ते वापरकर्त्याच्या हेतूचे अनुसरण करायचे होते. म्हणून आम्ही त्यास दोन्ही प्रकारच्या डेटा, सार्वजनिकपणे उपलब्ध प्रासंगिक डेटा आणि स्टुडिओ-शैलीतील प्रतिमा यावर प्रशिक्षण दिले,” तो म्हणाला.

“आम्ही हे सुनिश्चित केले की मॉडेल लोकांना प्रत्यक्षात काय हवे आहे ते फॉलो करते, फक्त सुंदर प्रतिमा आउटपुट करण्याऐवजी,” तो पुढे म्हणाला.

ओपनएआय त्याच्या मजकूर-आधारित चॅटबॉट्समध्ये सुधारणा करण्यासाठी वापरल्या जाणाऱ्या समान प्रगतीचा वापर करून अचूकपणे मजकूर रेंडर करण्याची मॉडेलची क्षमता सुधारण्यात सक्षम होते. “हे ChatGPT मधील मजकूर बुद्धिमत्तेसारखेच आहे. प्रॉम्प्टवर अवलंबून, ते रोबोटिक किंवा अधिक नैसर्गिक आणि संभाषणात प्रतिसाद देऊ शकते. तीच कल्पना येथे लागू होते,” चेन म्हणाले.

इमेज 2.0 हे ओपनएआयचे पहिले इमेज जनरेशन मॉडेल आहे जे त्याच्या तर्कसंगत मॉडेल्सच्या शीर्षस्थानी तयार केले गेले आहे आणि संबंधित माहिती शोधण्यासाठी वेब वापरण्याची क्षमता आहे. त्यात जगाचे अद्ययावत ज्ञान देखील आहे, आणि मुछालच्या मते, इमेज 1.5 पेक्षा तो संदर्भ समजण्याची शक्यता जास्त आहे.

चेनच्या मते, एआय-व्युत्पन्न प्रतिमांमध्ये चुकीचा मजकूर प्लेसमेंट देखील भूतकाळातील समस्या आहे.

अनपेक्षित मार्गांनी भारतीय प्रतिमा २.० वापरतात

भारतीय हे सातत्याने प्रतिमा निर्मितीच्या सर्वात उत्सुक वापरकर्त्यांपैकी एक आहेत असे सांगून मुछाल म्हणाले, “भारतातील दत्तक घेण्याची पातळी पाहून आम्हाला खूप आनंद झाला, परंतु संख्येपेक्षा मला सर्वात जास्त आश्चर्य वाटले ते म्हणजे वापराच्या प्रकरणांची विविधता.”

त्यांनी असेही सांगितले की सर्व वापर ट्रेंड फोटोरिअलिस्टिक आउटपुट व्युत्पन्न करण्याशी संबंधित नाहीत, चॅटजीपीटीला दशकांपूर्वी मायक्रोसॉफ्ट पेंटवर केलेल्या चित्रांप्रमाणे छान फोटोंना स्क्रिबल ड्रॉइंगमध्ये बदलण्यास सांगण्याच्या नवीनतम ट्रेंडकडे लक्ष वेधले.

व्हायरल एआय इमेज ट्रेंड हे OpenAI द्वारे हेतुपुरस्सर आकारले जातात किंवा वापरकर्त्याच्या वर्तनाद्वारे सेंद्रियपणे चालवले जातात का असे विचारले असता, मुछाल म्हणाले की हे दोन्हीचे संयोजन आहे: “आम्ही वापर प्रकरणांचा एक प्रातिनिधिक संच निवडण्याचा प्रयत्न करतो जिथे आम्हाला माहित आहे की एकतर मॉडेलने भूतकाळात त्याच्याशी संघर्ष केला आहे किंवा ज्या क्षेत्रांमध्ये आम्हाला सुधारणा करायची आहे, आणि आम्ही त्यामध्ये सुधारणा करण्याचा प्रयत्न करतो. पण प्रामाणिकपणे सांगायचे तर, आम्हाला बरेच काही समजले आहे.

या जाहिरातीच्या खाली कथा सुरू आहे

OpenAI एक्झिक्युटिव्ह्सने असेही सांगितले की भारतातील काही अनपेक्षित ट्रेंडमध्ये AI-व्युत्पन्न केस-रंग पूर्वावलोकन, 'यंगर मी' पोर्ट्रेट आणि Y2K-शैलीतील रोमँटिक पोर्ट्रेट यांचा समावेश आहे.

एआय इमेज जनरेटरचा एंटरप्राइझ अवलंब करण्याबद्दल, मुछाल म्हणाले, “भूतकाळात, मॉडेलने अचूकपणे सूचनांचे पालन केले होते ज्यामुळे वापरकर्त्यांना व्यावसायिक वापरासाठी हे वापरण्यास सक्षम बनवणे खूप कठीण होते.”

“परंतु आम्ही इमेज 2.0 सह आता जे पाहिले आहे ते केवळ वैयक्तिक वापर प्रकरणेच नाही तर एंटरप्राइझची जबरदस्त मागणी आहे कारण आता तुम्ही क्रिएटिव्ह वर्कफ्लो खूप जलद करण्यास सक्षम आहात,” तो पुढे म्हणाला.

सुरक्षितता, वॉटरमार्क आणि डीपफेकचे धोके

प्रतिमा 2.0 देखील सूक्ष्म घटक निर्माण करण्यास सक्षम आहे, ज्यात त्याच्या दृश्यांमध्ये वास्तववाद जोडणाऱ्या लहान दोषांचा समावेश आहे.

चुकीची माहिती पसरवण्यामध्ये फोटोरिअलिस्टिक आउटपुटच्या धोक्यांबद्दल विचारले असता, मुछाल म्हणाले की OpenAI वापरकर्त्यांचे सर्जनशील स्वातंत्र्य आणि वापरकर्त्यांची सुरक्षा आणि पारदर्शकता यांच्यात सतत संतुलन राखू पाहते. “कॉपीराइट उल्लंघनाबाबत आमच्याकडे खूप उच्च मानके आहेत, आणि आम्ही त्या क्षेत्रांमध्ये कोणताही गैरवापर होणार नाही याची खात्री करतो. एक गोष्ट ज्याची आम्ही सखोल काळजी घेतो ती म्हणजे आउटपुटमध्ये काहीही फसवे किंवा तोतयागिरी नसल्याची खात्री करणे,” तो म्हणाला.

ChatGPT-व्युत्पन्न केलेल्या प्रतिमा खुल्या C2PA मानकांना समर्थन देतात जे मेटाडेटामध्ये स्पष्ट सिग्नल जोडते की प्रतिमा AI द्वारे तयार केली गेली होती.

या आठवड्याच्या सुरुवातीला, त्याने सिंथआयडी नावाचा अदृश्य वॉटरमार्क समाविष्ट करण्यासाठी Google सह भागीदारीची घोषणा केली. परंतु AI-व्युत्पन्न केलेल्या प्रतिमा दृश्यमान वॉटरमार्क ठेवत नाहीत जेणेकरून आउटपुट खराब होऊ नये, मुछालनुसार.

भारत सरकारच्या टिप्पणीबद्दल विचारले असता नुकतेच अधिसूचित AI लेबलिंग नियम, AI-व्युत्पन्न सामग्रीवर एक प्रमुख लेबल संलग्न करण्यासाठी सोशल मीडिया प्लॅटफॉर्मची आवश्यकता असते, मुच्छल म्हणाले, “आम्हाला विश्वास आहे की सिस्टम भागधारकांच्या सहकार्याने तयार करणे आवश्यक आहे. […] आम्ही सरकारी भागधारकांसोबत जे काही करत आहोत ते आम्ही बरेच काही शेअर केले आहे, त्यांचे इनपुट समाविष्ट करणे सुरू ठेवले आहे आणि वापरकर्त्यांना नियंत्रण देणे आणि सरकारद्वारे सेट केलेल्या विश्वास आणि सुरक्षा अपेक्षांची पूर्तता करण्यासाठी योग्य संतुलन शोधण्याचे काम करत आहोत.”

 

Comments are closed.