जेमिनी ओम्नी फ्लॅश Google इकोसिस्टममध्ये मल्टीमोडल AI व्हिडिओ निर्मिती जोडते

By Marathi On May 21, 2026

Google ने जेमिनी ओम्नी, मजकूर, प्रतिमा, ऑडिओ आणि व्हिडिओ प्रॉम्प्टच्या संयोजनाचा वापर करून व्हिडिओ व्युत्पन्न आणि संपादित करण्यासाठी डिझाइन केलेले नवीन मल्टीमॉडल AI मॉडेलचे अनावरण केले आहे. Google I/O 2026 दरम्यान ही घोषणा करण्यात आली होती, जिथे कंपनीने ओम्नीला जेमिनीला पूर्णपणे सर्जनशील AI सिस्टीममध्ये रूपांतरित करण्याच्या दिशेने एक मोठे पाऊल म्हणून वर्णन केले आहे जे मीडियाचे अनेक प्रकार समजण्यास आणि तयार करण्यास सक्षम आहे.

जेमिनी ओम्नी फ्लॅश नावाच्या मॉडेलची पहिली आवृत्ती आता जेमिनी ॲप, गुगल फ्लो आणि यूट्यूब शॉर्ट्स द्वारे आणली जात आहे. Google चे म्हणणे आहे की मॉडेल जेमिनीच्या तर्क क्षमतांना AI-सक्षम सामग्री निर्मितीसह एकत्रित करते, ज्यामुळे वापरकर्त्यांना नैसर्गिक भाषेतील प्रॉम्प्ट वापरून सिनेमॅटिक-गुणवत्तेचे व्हिडिओ तयार करता येतात.

संभाषणाद्वारे AI व्हिडिओ संपादन

जेमिनी ओम्नीच्या सर्वात मोठ्या वैशिष्ट्यांपैकी एक म्हणजे संवादात्मक व्हिडिओ संपादन. पारंपारिक संपादन साधने किंवा टाइमलाइन वापरण्याऐवजी, वापरकर्ते त्यांना काय करायचे आहे ते सोप्या शब्दांत स्पष्ट करतात.

Google ने उदाहरणे दाखवली जेथे वापरकर्त्यांनी शिल्पे बुडबुड्यांमध्ये बदलली, आरशांना द्रवपदार्थात रूपांतरित केले, ॲनिमेशन लागू केले किंवा व्हिडिओ क्लिपमध्ये वर्ण किंवा वास्तववादी भौतिकशास्त्र न बदलता वातावरण बदलले. कंपनी म्हणते की प्रत्येक सूचना मागील संपादनांवर आधारित आहे, ज्यामुळे वापरकर्त्यांना सातत्य न गमावता एकाधिक प्रॉम्प्टवर व्हिडिओ परिष्कृत करण्याची परवानगी मिळते.

Google च्या मते, मॉडेलमध्ये हालचाल, प्रकाश, गुरुत्वाकर्षण, द्रव गतिमानता आणि वस्तूंच्या परस्परसंवादाची मजबूत समज आहे, ज्यामुळे दृश्ये निर्माण करण्यात मदत होते जी अधिक वास्तववादी आणि शारीरिकदृष्ट्या अचूक दिसतात.

जेमिनी ओम्नी मजकूर, प्रतिमा, व्हिडिओ आणि ऑडिओ एकत्र करते

Google म्हणते की जेमिनी ओम्नी एकाच वेळी अनेक प्रकारच्या इनपुटसह कार्य करू शकते. वापरकर्ते एकल एकसंध आउटपुट तयार करण्यासाठी फोटो, विद्यमान व्हिडिओ, रेखाचित्रे, आवाज संदर्भ आणि मजकूर प्रॉम्प्ट अपलोड करू शकतात.

उदाहरणार्थ, वापरकर्ते व्हिडिओवर एका प्रतिमेची व्हिज्युअल शैली लागू करू शकतात, संगीताशी व्हिज्युअल सिंक्रोनाइझ करू शकतात किंवा रफ स्केचेस आणि लिखित सूचनांवर आधारित सिनेमॅटिक क्लिप तयार करू शकतात. प्रणाली लहान प्रॉम्प्ट्समधून शैक्षणिक स्पष्टीकरण आणि ॲनिमेटेड अनुक्रम देखील तयार करू शकते.

कंपनीचे म्हणणे आहे की ओम्नी ची रचना AI-व्युत्पन्न व्हिज्युअल आणि अर्थपूर्ण कथाकथनामधील अंतर भरून काढण्यासाठी जेमिनीच्या विज्ञान, इतिहास आणि संस्कृतीच्या व्यापक ज्ञानासह सर्जनशील पिढीला जोडून केली आहे.

AI अवतार आणि वैयक्तिकृत सामग्री निर्मिती

गुगल जेमिनी ओम्नीचा भाग म्हणून AI अवतार देखील सादर करत आहे. वैयक्तिकृत व्हिडिओ व्युत्पन्न करण्यासाठी वापरकर्ते स्वतःचे स्वरूप आणि आवाज वापरून स्वतःची डिजिटल आवृत्ती तयार करू शकतात.

कंपनीचे म्हणणे आहे की डीपफेक आणि गैरवापराच्या चिंतेमुळे ती या वैशिष्ट्यांशी सावधपणे संपर्क साधत आहे. आत्तासाठी, व्हॉइस-आधारित अवतार निर्मिती प्रथम लॉन्च होईल, तर भाषण आणि ऑडिओ मॅनिप्युलेशन समाविष्ट असलेल्या अतिरिक्त संपादन वैशिष्ट्यांची अद्याप चाचणी केली जात आहे.

जेमिनी ओम्नी द्वारे व्युत्पन्न केलेल्या सर्व व्हिडिओंमध्ये Google च्या अदृश्य सिंथआयडी वॉटरमार्किंग तंत्रज्ञानाचा समावेश असेल, ज्यामुळे दर्शकांना सामग्री AI-व्युत्पन्न असल्याची पडताळणी करता येईल.

मिथुन आणि YouTube वर रोल आउट करत आहे

Gemini Omni Flash हे Gemini app आणि Google Flow द्वारे Google AI Plus, Pro आणि अल्ट्रा सदस्यांसाठी जागतिक स्तरावर लॉन्च होत आहे. Google हे तंत्रज्ञान YouTube Shorts आणि YouTube Create ॲपवर देखील आणत आहे, निर्मात्यांसाठी कोणताही अतिरिक्त खर्च न करता.

कंपनी म्हणते की विकसक आणि एंटरप्राइझ API ऍक्सेस येत्या आठवड्यात येईल, ज्यामुळे व्यवसाय आणि निर्मात्यांना त्यांच्या स्वतःच्या टूल्स आणि वर्कफ्लोमध्ये जेमिनी ओम्नी समाकलित करण्याची परवानगी मिळेल.