शक्तिशाली रीअल-टाइम स्टाईल ट्रान्सफर आणि स्मार्ट कंपोजिशनद्वारे सर्जनशीलता उन्नत करते

हायलाइट्स
- ऑन-डिव्हाइस एआय सह रीअल-टाइम स्टाईल ट्रान्सफर आता शक्य झाले आहे, जे क्लाउड सेवांच्या आवश्यकतेशिवाय मोबाइल छायाचित्रे सुधारते.
- मॉडेल 5 सारखी लाइटवेट मॉडेल मोबाइल डिव्हाइसवर तैनात करण्यासाठी अभिव्यक्ती, कार्यक्षमता आणि गोपनीयता दरम्यान एक चांगले संतुलन प्रदान करतात.
- भविष्यातील संशोधन कमी-अंत उपकरणे, व्हिडिओ शैली हस्तांतरण आणि भिन्न प्लॅटफॉर्मवर ऑप्टिमायझेशनकडे निर्देशित केले जाते.
चे एकत्रीकरण फोटोग्राफीमध्ये एआय एक आहे महत्त्वपूर्ण शिफ्ट तसेच एक विवादास्पद. प्रतिमा कशा प्रकारे हस्तगत केली जातात आणि त्यावर प्रक्रिया केली जाते, विशेषत: रीअल-टाइम स्टाईल ट्रान्सफर आणि फ्लाय-फोटो संपादनास सुलभ करणारे अंतर्निहित कॅमेरा तंत्रज्ञानाद्वारे. या प्रगतीच्या या प्रकारांमुळे मोबाइल डिव्हाइसला छायाचित्रांच्या सौंदर्याचा परिवर्तन करण्याची परवानगी मिळाली आहे कारण मोबाइल फोटोग्राफीमध्ये नवीन शक्यता ऑफर केली जात आहे आणि रीअल-टाइम वाढीद्वारे प्लॅटफॉर्मचे प्रमाण वाढविले आहे.
रीअल-टाइम स्टाईल ट्रान्सफरसाठी ऑन-डिव्हाइस एआय
पारंपारिकपणे, न्यूरल स्टाईल ट्रान्सफर (एनएसटी) मॉडेल्स मोजणीसाठी क्लाऊड सर्व्हरवर अवलंबून होते, जे ऑपरेट करणे आणि तडजोड केलेल्या वापरकर्त्याच्या गोपनीयतेसाठी महाग होते. अलीकडेच, रिअल-टाइम स्टाईल ट्रान्सफरसह ऑन-डिव्हाइस एआय सुलभ करण्यासाठी मोबाइल हार्डवेअरमध्ये एआय मॉडेल्सच्या समावेशाकडे एक हालचाल झाली आहे. ही पद्धत बाह्य सर्व्हरवर अवलंबून राहण्याची आवश्यकता टाळते, अशा प्रकारे खर्च कमी करणे तसेच वापरकर्त्याच्या गोपनीयतेमध्ये मोठ्या प्रमाणात सुधारणा करते.
स्मार्टफोन, टॅब्लेट संगणक आणि एम्बेडेड सिस्टम सारख्या मोबाइल कंप्यूटिंग प्लॅटफॉर्मवर अत्याधुनिक शैली हस्तांतरण मॉडेलचे रिअल-टाइम ऑपरेशन करणे हे उद्दीष्ट आहे, जे दुर्मिळ संगणकीय संसाधने आणि मेमरीद्वारे टाइप केले जातात.

मोबाइल उपयोजनातील आव्हाने आणि निराकरणे
मोबाइल वापरासाठी सखोल शिक्षण मॉडेल डिझाइन केल्याने गणना कार्यक्षमता आणि व्हिज्युअल गुणवत्ते दरम्यान मूलभूत व्यापार आहे. मॉडेल आकार आणि पॅरामीटर्सची संख्या कमी करणे कमी डेटा प्रक्रिया आणि संगणकीय क्षमतांद्वारे कार्यक्षमतेचे कमी करते. एक उपाय म्हणून, संशोधकांनी मोबाईलनेट आणि रेसनेट सारख्या आर्किटेक्चरवर आधारित विविध ऑप्टिमायझेशन पद्धतींसह हलके एनएसटी मॉडेल सादर केले आहेत.
की आर्किटेक्चरल ऑप्टिमायझेशन
सखोल निहाय विभक्त करण्यायोग्य कॉन्व्होल्यूशन्स: मोबिलेनेटद्वारे सादर केलेले, हे तंत्र मानक कॉन्व्होल्यूशन ऑपरेशन्सचे सखोल आणि पॉइंटवाइज कॉन्व्होल्यूशन्समध्ये विघटित करून सीएनएन मॉडेल्सची संगणकीय किंमत लक्षणीयरीत्या कमी करते. हे विघटन कार्यक्षमता राखण्याचे लक्ष्य ठेवून पॅरामीटर्स आणि फ्लोटिंग-पॉईंट ऑपरेशन्स कमी करते.
इनपुट/आउटपुट चॅनेल आणि फिल्टर आकाराच्या चौरसासह मानक कन्व्होल्यूशनची संगणकीय किंमत वाढते. खोलीच्या दिशेने विभक्त करण्यायोग्य कन्व्होल्यूशन प्रत्येक इनपुट चॅनेल (खोलीच्या दिशेने) स्वतंत्रपणे एकेएक्सके कर्नल लागू करते आणि नंतर चॅनेल (पॉईंटवाइज) ओलांडून परस्परसंवादाची गणना करण्यासाठी 1 x 1 कर्नल, ज्यामुळे संगणकीय किंमतीत लक्षणीय घट होते.
अवशिष्ट अडथळा रचना: रेसनेटद्वारे प्रेरित, ही रचना खोल नेटवर्कमधील गायब ग्रेडियंट समस्येस संबोधित करते आणि नेटवर्कची खोली राखताना पॅरामीटर्सची संख्या कमी करून संगणकीय जटिलता कमी करते. मोबिलेनेटव्ही 2 ने इन्व्हर्टेड बॉटलनेक आणि रेखीय अडचणी संकल्पनांचा परिचय करून यामध्ये आणखी सुधारणा केली.
रेखीय बाटली माहिती कमी होण्यापासून रोखण्यासाठी कमी-आयामी जागांमध्ये नॉन-रेखीय सक्रियकरण कार्य वगळते, तर इनव्हर्टेड बाटलीने सुरुवातीला खोलीच्या दिशेने शोध घेण्यापूर्वी चॅनेलची संख्या वाढविली आणि नंतर परिमाण कमी केले, जटिलता कमी करताना वैशिष्ट्य प्रतिनिधित्व वाढविले.


ऑप्टिमाइज्ड अप्सॅम्पलिंग तंत्र: संगणकीयदृष्ट्या महागड्या ट्रान्सपोज्ड कॉन्व्होल्यूशन्सऐवजी, डीकोडरमध्ये चेकरबोर्ड कलाकृती कमी करण्यासाठी आणि व्हिज्युअल गुणवत्ता आणि कार्यक्षमता सुधारण्यासाठी डीकोडरमध्ये जवळच्या शेजारी इंटरपोलेशनसारख्या पद्धती वापरल्या जातात. मॉडेल 5 ने यूपीएसएमपीएलंगसाठी पायटॉर्चच्या कन्व्ह्रान्सपोज 2 डीचा वापर करून हे परिष्कृत केले, सुधारित संगणकीय किंमत आणि मेमरी वापराचे प्रदर्शन केले.
या संदर्भात विकसित केलेली सर्व मॉडेल्स एन्कोडर, अवशिष्ट ब्लॉक्स आणि डीकोडर असलेल्या ऑटोएन्कोडर आर्किटेक्चरवर आधारित आहेत. एन्कोडर वैशिष्ट्य काढण्यासाठी इनपुट प्रतिमा संकुचित करते आणि डीकोडर परिवर्तित प्रतिमेची पुनर्रचना करते.
प्रतिबिंब पॅडिंगचा वापर एज विकृती कमी करण्यासाठी केला जातो आणि कार्यक्षमता सुधारण्यासाठी पूलिंग ऑपरेशन्सऐवजी डाऊनसॅम्पलिंगसाठी स्ट्राइड ments डजस्टमेंट्स वापरल्या जातात. कार्यक्षमता आणि स्थिरता संतुलित करण्यासाठी, बॅच सामान्यीकरण एन्कोडर आणि डिकोडरवर लागू केले जाते, तर उदाहरणार्थ सामान्यीकरण निवडकपणे शैली हस्तांतरण कार्यक्षमता वाढविण्यासाठी अवशिष्ट ब्लॉक्समध्ये वापरली जाते.
मॉडेल भिन्नता आणि कार्यप्रदर्शन
पॅरामीटर्स, फ्लोटिंग-पॉइंट ऑपरेशन्स (जीएफएलओपीएस), मेमरी वापर आणि प्रतिमा परिवर्तन गुणवत्तेवर आधारित पाच मॉडेल भिन्नता (मॉडेल 1-5) डिझाइन आणि मूल्यांकन केले गेले.


• मॉडेल 1, मॉडेल 2 आणि मॉडेल 3 ने समान एन्कोडर आणि डीकोडर सामायिक केले, जे त्यांच्या अवशिष्ट ब्लॉक स्ट्रक्चर्समध्ये भिन्न आहेत (अनुक्रमे मानक, खोलीच्या दिशेने विभक्त आणि रेसनेट-शैलीतील अडथळे).
• मॉडेल 4 हे फक्त इनपुट फिल्टर आकार आणि आउटपुट कमी करून प्राप्त केलेले हलके मॉडेल होते
चॅनेल, परिणामी केवळ 9331 पॅरामीटर्ससह मॉडेल होते. हलके असताना, मॉडेल 2 आणि मॉडेल 3 च्या तुलनेत अभिव्यक्तीत काही मर्यादा दर्शविल्या.
• मॉडेल 5 ने मोबिलेनेटव्ही 2 कडून इन्व्हर्टेड बाटली आणि रेखीय बाटली संकल्पना स्वीकारल्या, वर्धित अभिव्यक्तीसाठी अवशिष्ट ब्लॉक्समध्ये चॅनेलच्या विस्तारास प्राधान्य दिले. मॉडेल 4 च्या दुप्पट पॅरामीटर्स असूनही, मॉडेल 5 ने मेमरी वापर आणि संगणकीय खर्चामध्ये उत्कृष्ट कार्यक्षमता तसेच उत्कृष्ट व्हिज्युअल गुणवत्ता दर्शविली. हे मोबाइल सीपीयू वर 512 × 512 रिझोल्यूशनवर आणि Android GPU प्रवेग (एनएनएपीआय) सह 1024 × 1024 रेझोल्यूशनवर रीअल-टाइम अनुमान करण्यास सक्षम होते.
प्रशिक्षणासाठी, कोको २०१7 डेटासेटमधील अंदाजे 4,800 प्रतिमा सामग्री प्रतिमा म्हणून वापरल्या गेल्या आणि ओपनईच्या डल-ई मॉडेलने विविध कलात्मक-शैलीतील प्रतिमा व्युत्पन्न केल्या. व्हीजीजी 16 नेटवर्क, इमेजनेटवर प्री-प्रशिक्षित, वैशिष्ट्य एक्सट्रॅक्टर म्हणून काम करते, प्रशिक्षण दरम्यान त्याचे वजन निश्चित केले जाते. एकूण तोटा फंक्शन सामग्रीच्या नुकसानीची भारित बेरीज (व्हीजीजी 16 मधील रील्यू 2_2 वैशिष्ट्यांच्या एमएसईद्वारे मोजली गेली) आणि स्टाईल लॉस (रील्यू 1_2, रील्यू 2_2, रील्यू 3_3 आणि व्हीजीजी 16 च्या रील्यू 4_3 लेयर्सपासून ग्रॅम मॅट्रिक्सचा वापर करून मोजली गेली). तुलनात्मक प्रयोगांसाठी स्टाईलचे वजन प्रमाण सामग्री तोटा 2.5 x 10^4 वर सेट केले गेले.


कॅमेरा तंत्रज्ञान आणि मोबाइल डिव्हाइस एकत्रीकरण
मोबाइल डिव्हाइसवर रिअल-टाइम स्टाईल ट्रान्सफर सक्षम करण्यासाठी, पायटॉरच-प्रशिक्षित मॉडेल्स क्रॉस-प्लॅटफॉर्म उपयोजनासाठी ओएनएनएक्स (ओपन न्यूरल नेटवर्क एक्सचेंज) सारख्या ऑप्टिमाइझ्ड फॉरमॅटमध्ये रूपांतरित केले जातात, ओएनएनएक्स रनटाइम अँड्रॉइड डिव्हाइसवर अंमलबजावणीसाठी वापरल्या जातात. Apple पल डिव्हाइससाठी, Coreml वापरला जातो, Apple पल हार्डवेअरसाठी ऑप्टिमाइझ केला जातो आणि जीपीयू आणि न्यूरल इंजिनचा फायदा घेत आहे.
सॅमसंग गॅलेक्सी एस 21 वर थेट अनुमान काढत, लाइटवेट अँड्रॉइड अनुप्रयोगाने ओएनएनएक्स-रूपांतरित शैली हस्तांतरण मॉडेलचे एकत्रीकरण दर्शविले. अनुप्रयोगाने स्टाईल ट्रान्सफर करण्यापूर्वी फोटो (उदा. 1152 × 1536) चे आकार बदलले आणि व्हिज्युअल आउटपुट गुणवत्ता सुधारण्यासाठी ओपनसीव्ही लायब्ररीसह कलर वर्धित यासारख्या पोस्ट-प्रोसेसिंग तंत्राचा वापर केला. वारंवार अनुमान प्रक्रियेदरम्यान मेमरी गळती आणि मेमरी-ऑफ-मेमरी त्रुटी टाळण्यासाठी Android मध्ये योग्य मेमरी व्यवस्थापन गंभीर आहे.
मॉडेल 5 ने उदाहरणार्थ, सॅमसंग गॅलेक्सी एस 21, गूगल पिक्सेल 6 आणि पिक्सेल 7 व्हर्च्युअल डिव्हाइस सारख्या डिव्हाइसच्या मोबाइल सीपीयूवरील 512 × 512 रिझोल्यूशनवर रीअल-टाइम अनुमान प्राप्त केले. न्यूरल नेटवर्क एपीआय (एनएनएपीआय) मार्गे Android GPU प्रवेगसह, रीअल-टाइम अनुमान 1024 × 1024 रिझोल्यूशनवर प्राप्त झाले. एनएनएपीआय Android 8.1 (एपीआय लेव्हल 27) किंवा उच्च वर उपलब्ध आहे, मशीन लर्निंग मॉडेल्सच्या कार्यक्षम अंमलबजावणीस समर्थन देते.
प्रभाव आणि भविष्यातील दिशानिर्देश
अभ्यासामध्ये मागील क्लाउड-आधारित किंवा जीपीयू-सुविधा पध्दतींच्या पलीकडे मोबाइल फोनवरील रिअल-टाइम स्टाईल ट्रान्सफरच्या व्यावहारिकतेची पडताळणी होते. कार्यक्षमतेसाठी हे डिझाइन वास्तविक-जगातील अनुप्रयोगांसाठी एक महत्त्वाचा फायदा प्रदान करते, जे मोबाइल फोटोग्राफी, वर्धित वास्तविकता आणि बाह्य प्रक्रियेच्या संसाधनांच्या आवश्यकतेशिवाय सर्जनशील सॉफ्टवेअरमध्ये सहज कलात्मक रूपांतरणास अनुमती देते.


या क्षेत्रातील भविष्यातील संशोधनात अतिरिक्त मॉडेल रोपांची छाटणी आणि संगणकीय आवश्यकता कमीतकमी तपासणी करून जुन्या, निम्न-अंत हार्डवेअरवर कार्यक्षमता वाढविणे समाविष्ट आहे, कदाचित उच्च-रिझोल्यूशन प्रतिमांना अनुक्रमे प्रक्रिया केली जाऊ शकते अशा लहान ब्लॉक्समध्ये तोडून.
आयओएस प्लॅटफॉर्मवर संशोधनाचा विस्तार करणे आणि Apple पलच्या सीओआरईएमएल फ्रेमवर्कसाठी अनुकूलित करणे क्रॉस-प्लॅटफॉर्म कामगिरीबद्दल अंतर्दृष्टी प्रदान करेल. याव्यतिरिक्त, येथे सादर केलेल्या प्रगतीमुळे स्मार्टफोन कॅमेरे वापरुन रिअल-टाइम व्हिडिओ शैली हस्तांतरण लागू करण्याची संधी उघडली जाते, ज्यामुळे फ्रेम प्रक्रिया वेळ कमी करणार्या व्हिडिओ प्रक्रिया पद्धतींचा अतिरिक्त तपासणी आवश्यक असेल.
प्रदान केलेले स्त्रोत रिअल-टाइम स्टाईल ट्रान्सफरचे विस्तृतपणे कव्हर करतात, कॅमेरा संपादनाच्या संदर्भात एक वेगळे वैशिष्ट्य किंवा तंत्रज्ञान म्हणून “स्मार्ट रचना” चा कोणताही स्पष्ट उल्लेख नाही. प्रामुख्याने प्रतिमा आणि व्हिडिओंवर कलात्मक शैली लागू करण्यावर लक्ष केंद्रित केले आहे.
Comments are closed.