ChatGPT च्या नवीन प्रतिमा मॉडेल प्रतिमांमध्ये मजकूर तयार करण्यात उत्कृष्ट आहे

काही काळापूर्वी, AI-व्युत्पन्न केलेल्या प्रतिमा शोधणे सोपे होते — चुकीच्या शब्दलेखनाच्या नावांसारख्या त्रुटींमुळे ते स्पष्ट होते, “एन्चुइटा” किंवा “मार्गर्टास” सारख्या विचित्र निर्मितीमुळे दोष उघड झाले.

तथापि, ChatGPT Images 2.0 सारख्या नवीन प्रणाली आता इतके पॉलिश आउटपुट तयार करतात की रेस्टॉरंट मेनूसारखे काहीतरी पूर्णपणे वापरण्यायोग्य दिसू शकते, फक्त सूक्ष्म तपशील शंका निर्माण करतात.

ChatGPT 2.0 आवृत्ती सुधारित प्रतिमा निर्मिती वैशिष्ट्यासह लाँच झाली

DALL-E 3 सारख्या पूर्वीच्या मॉडेल्सना मजकुरासाठी खूप संघर्ष करावा लागला कारण ते प्रसार प्रक्रियेवर अवलंबून होते, जे आवाजातून दृश्य पुन्हा तयार करतात आणि शब्दांसारख्या लहान घटकांकडे दुर्लक्ष करतात.

Asmelash Teka Hadgu यांनी स्पष्ट केल्याप्रमाणे, मजकूर पिक्सेलचा एक छोटासा भाग व्यापतो, म्हणून मॉडेल अचूक अक्षरांऐवजी विस्तृत व्हिज्युअल पॅटर्नला प्राधान्य देतात.

दरम्यान, संशोधकांनी ऑटोरिग्रेसिव्ह सिस्टीम सारख्या पर्यायांचा शोध सुरू केला, जे प्रतिमा घटकांचा टप्प्याटप्प्याने अंदाज लावतात, भाषा मॉडेल्सप्रमाणे कार्य करतात.

असे असले तरी, OpenAI ने Images 2.0 ची नेमकी रचना उघड केलेली नाही.

कंपनी नवीन “विचार क्षमता” हायलाइट करते, जे मॉडेलला आउटपुट सत्यापित करण्यास, माहिती ब्राउझ करण्यास आणि एकाच प्रॉम्प्टमधून अनेक भिन्नता निर्माण करण्यास अनुमती देते.

यामुळे, ते आता विपणन साहित्य किंवा सुसंगत डिझाइनसह मल्टी-पॅनल कॉमिक स्ट्रिप्ससारखे संरचित आउटपुट तयार करू शकते.

याव्यतिरिक्त, ते हिंदी, बंगाली, जपानी आणि कोरियनसह गैर-लॅटिन स्क्रिप्ट अधिक प्रभावीपणे हाताळते, बहुभाषिक रेंडरिंगमध्ये लक्षणीय सुधारणा दर्शवते.

त्याचे ज्ञान बेस फक्त डिसेंबर 2025 पर्यंत विस्तारित आहे, जे अलीकडील घटनांसाठी अचूकता मर्यादित करू शकते.

ओपनएआय उच्च-परिशुद्धता, 2K-तयार प्रतिमा निर्मिती क्षमता हायलाइट करते

ओपनएआयचा दावा आहे की, लहान मजकूर, चिन्हे आणि दाट मांडणी यांसारख्या पूर्वी समस्या निर्माण करणाऱ्या घटकांना हाताळताना सूचनांचे अचूक पालन करून, प्रणाली उच्च अचूकता आणि तपशील मिळवते.

हे आउटपुट 2K पर्यंत रिझोल्यूशनपर्यंत पोहोचू शकतात, त्यांना व्यावसायिक वापरासाठी योग्य बनवतात.

ते म्हणाले, जटिल व्हिज्युअल तयार करण्यासाठी मजकूर प्रतिसादांपेक्षा जास्त वेळ लागतो, तरीही कॉमिक स्ट्रिप्ससारखे परिणाम काही मिनिटांत पूर्ण केले जाऊ शकतात.

हे मॉडेल ChatGPT आणि Codex वापरकर्त्यांसाठी उपलब्ध झाले, ज्यामध्ये gpt-image-2 API च्या रिलीझसह, सशुल्क स्तरांसाठी आरक्षित प्रगत वैशिष्ट्ये आहेत.

एक मोठी प्रगती दीर्घकाळापासून असलेली “मजकूर समस्या” सोडवणे, स्पष्ट, अचूक टायपोग्राफीसह विकृत किंवा न वाचता येणारे शब्द बदलण्यात आहे.

ते आता तपशीलवार UI मॉकअप्स, बहुभाषिक डिझाइन्स आणि कथा सांगण्याच्या उद्देशाने आठ कनेक्ट केलेल्या प्रतिमा तयार करू शकते.

विशेष म्हणजे, त्याचा तर्क मोड प्रॉम्प्ट्सचे विश्लेषण करतो आणि वास्तविक-जगातील अचूकतेची तपासणी करतो, आकृती किंवा मांडणीमध्ये लेबलांचे अचूक स्थान सक्षम करतो.

परिणामी, निर्माते आधीच ते पोस्टर, इन्फोग्राफिक्स आणि इतर उच्च-गुणवत्तेच्या मालमत्तेसाठी वापरत आहेत ज्यांना पूर्वी मॅन्युअल संपादनाची आवश्यकता होती.

जरी किरकोळ दृश्य दोष अजूनही अत्यंत गुंतागुंतीच्या दृश्यांमध्ये दिसू शकतात, एकूणच अभिप्राय सूचित करते की मॉडेलने AI-व्युत्पन्न प्रतिमेमध्ये प्रभावीपणे “मजकूर अडथळा दूर केला” आहे.

स्त्रोत


Comments are closed.