ओलामाचे Qwen3-VL सर्वात शक्तिशाली व्हिजन लँग्वेज मॉडेल सादर करते





कल्पना करा की तुमच्या फोनचा कॅमेरा जगाकडे दाखवा, त्याला गडद हिरव्या वनस्पतीची पाने ओळखण्यास सांगा आणि कुत्र्यांसाठी ते विषारी आहे का ते विचारा. त्याचप्रमाणे, तुम्ही संगणकावर काम करत आहात, AI वर खेचून घ्या आणि टॅब्युलर डेटा ग्राफमध्ये रूपांतरित करण्यास सांगा — आणि AI सर्व उत्तरे देते. हे सर्व एआय मॉडेलच्या “व्हिजन” क्षमतेच्या सौजन्याने शक्य आहे. आणि असे दिसते आहे की आमच्याकडे ब्लॉकवर एक नवीन मूल आहे जे Google च्या जेमिनी, OpenAI चे GPT-5 आणि Anthropic's Claude सारख्या मोठ्या मुलांशी तुलना करता दृश्यमान समजूतदारपणाने चांगले काम करेल.

आता, ते काय चांगले करते, ते कसे कार्य करते आणि ते कोठे मागे पडते याच्या चकचकीतपणे जाण्यापूर्वी, येथे खरोखर काहीतरी मनोरंजक आहे. अलीबाबा आपले फ्लॅगशिप मॉडेल, Qwen3-VL-235B-A22B, ओपन सोर्स डोमेनमध्ये आणत आहे आणि ते आता याद्वारे उपलब्ध आहे असणे. याचा अर्थ विकासक त्यांच्या सॉफ्टवेअरमध्ये ते मुक्तपणे उपयोजित करू शकतात, तसेच बदलांसाठी खोली उघडी ठेवू शकतात. आता, क्षमतांवर लक्ष केंद्रित करूया, त्यापैकी काही खरोखर प्रभावी आहेत.

क्वेनचा दावा आहे की उपरोक्त मॉडेल प्रतिमा किंवा व्हिडिओंना HTML, CSS किंवा JavaScript सारख्या कोड फॉरमॅटमध्ये बदलू शकते. थोडक्यात, ते जे पाहते ते त्वरित प्रोग्राम करण्यायोग्य कोडमध्ये बदलले जाऊ शकते. ते 1 दशलक्ष टोकन इनपुटचे समर्थन देखील करते, त्यातील सर्वोत्कृष्ट, दोन-तास व्हिडिओ किंवा शेकडो पृष्ठांच्या दस्तऐवजांवर इनपुट म्हणून प्रक्रिया करू देते.

मॉडेल ऑब्जेक्ट पोझिशन्स, दृष्टिकोनातील बदल आणि 3D अवकाशीय डेटाची चांगली समज देखील देते. त्यानंतर ऑप्टिकल कॅरेक्टर रिकग्निशन (ओसीआर) क्षमता आहेत, ज्या AI मॉडेलला प्रतिमा आणि व्हिडिओंमध्ये दिसत असलेल्या मजकूरावर प्रक्रिया करण्याची परवानगी देतात. Qwen3-VL चे OCR चॉप्स 32 भाषांना समर्थन देतात आणि खराब प्रकाश, निळा आणि कोन कॅप्चरसह खराब इनपुट हाताळण्यास सक्षम असल्याचे देखील म्हटले जाते.

वास्तविक-जगातील वापरासाठी कार्यरत सिद्धांत

Qwen3-VL बद्दलचा सर्वात प्रभावी भाग म्हणजे संगणक आणि मोबाईल उपकरणे नियंत्रित करण्याची क्षमता. सोप्या भाषेत सांगायचे तर, जर तुम्ही तिकीटमास्टरवर चार लोकांसाठी तिकिटे बुक करण्याची सूचना दिली, तर AI मॉडेल वर्कफ्लोची प्रत्येक पायरी स्वायत्तपणे हाताळेल. याचा अर्थ ते वेब ब्राउझर उघडेल, साइट लॉन्च करेल, सूचना (लोकांची संख्या, सीट प्राधान्य इ.) भरेल, बुकिंग करेल आणि एंड-टू-एंड दृष्टिकोनाने कार्य पूर्ण करेल. पूर्णपणे कादंबरी नसली तरी ते काहीतरी प्रभावी आहे.

ओपनएआय ऑपरेटर नावाचे एजंटिक साधन ऑफर करते जे स्वायत्तपणे कार्ये हाताळू शकते. मायक्रोसॉफ्ट कॉपायलट स्टुडिओमध्ये एजंटिक क्षमता देखील ऑफर करत आहे, तर अँथ्रोपिकचा “क्लॉड कॉम्प्युटर वापर” देखील स्वायत्त कार्यप्रवाह बंद करण्याची आशा करतो. स्पर्धा स्पष्टपणे गरम आहे, परंतु येथे मुख्य फरक आहे. Qwen आपले AI मॉडेल ओपन-सोर्स डोमेनमध्ये पुढे आणत आहे, तर त्याचे प्रतिस्पर्धी वापरकर्त्यांसाठी शुल्क आकारतात. त्याच्या वर, कंपनी दावे की Qwen3-VL ने “OS World सारख्या बेंचमार्कवर सर्वोच्च जागतिक कार्यप्रदर्शन प्राप्त केले आहे, आणि साधने वापरून त्याचे सूक्ष्म आकलन कार्यांमध्ये लक्षणीयरीत्या सुधारणा होते.”

एका YouTube व्हिडिओमध्ये, AI सल्लागार बिजन बोवेन यांनी एकाधिक संगणक वापराच्या परिस्थितींमध्ये क्वेन व्हिजन मॉडेलला धक्का दिला, आणि ते खूप चांगले झाले. त्याने Qwen3-VL ला एका विशिष्ट Reddit समुदायामध्ये टिप्पणी पोस्ट करण्याचे काम सोपवले, त्याला काही सामग्री लिहायला लावली आणि कार ऑर्डरही केली. जरी ते खूप चांगले चालले असले तरी, मॉडेलला अजूनही काही सांसारिक तपशीलांसह संघर्ष करावा लागला, जसे की वाहन खरेदी करताना योग्य पिन कोड भरणे. क्वेन ब्लॉगवर सामायिक केलेली काही डेमो परिस्थिती देखील खूपच प्रभावी आहेत. वेग, तथापि, स्टँडआउट पैलू आहे. मी किराणा सामान ऑर्डर करण्यासाठी इतर एआय मॉडेल वापरून एजंटिक कार्ये करून पाहिली आहेत. जरी त्यांनी काम पूर्ण केले असले तरी ते Qwen3-VL च्या कार्य अंमलबजावणीच्या वेगाइतके वेगवान नव्हते.



Comments are closed.