एआय चॅटबॉट्सवर आंधळेपणाने विश्वास ठेवणे धोकादायक आहे का? गुगलच्या नव्या चाचणीत सत्य समोर आले आहे

Google FACTS बेंचमार्क काय आहे: जर तुम्ही एआय चॅटबॉट्स तुम्ही दिलेली उत्तरे बरोबर असल्याचे न तपासता स्वीकारत असाल तर ही बातमी तुमच्यासाठी धोक्याची आहे. Google ने अलीकडेच एक महत्त्वाचा मूल्यांकन अहवाल प्रसिद्ध केला आहे, ज्यामध्ये AI चॅटबॉट्सच्या अचूकतेबद्दल धक्कादायक खुलासे करण्यात आले आहेत. Google चे नवीन FACTS बेंचमार्क सुट याद्वारे, हे समोर आले आहे की जगातील सर्वात शक्तिशाली एआय मॉडेल देखील तथ्यांच्या बाबतीत पूर्णपणे विश्वासार्ह नाहीत. अहवालानुसार, कोणत्याही मोठ्या AI मॉडेलची तथ्यात्मक अचूकता 70 टक्क्यांपेक्षा जास्त नाही. सोप्या शब्दात, एआय चॅटबॉट्स प्रत्येक तीनपैकी चुकीची उत्तरे देत आहेत.
Google Gemini 3 Pro सर्वात अचूक होता
या गुगल बेंचमार्क चाचणीमध्ये कंपनीचे जेमिनी 3 प्रो मॉडेल आघाडीवर राहिले. या मॉडेलने 69 टक्के तथ्यात्मक अचूकता प्राप्त केली, जी सर्व प्रतिस्पर्धी AI प्रणालींपेक्षा चांगली मानली गेली. OpenAI, Anthropic आणि Elon Musk यांची कंपनी xAI चे मॉडेल्सही या पातळीपर्यंत पोहोचू शकले नाहीत.
अहवालानुसार, Gemini 2.5 Pro आणि ChatGPT-5 ने 62 टक्के अचूकता नोंदवली आहे. तर क्लॉड 4.5 ओपसची अचूकता 51 टक्के आणि ग्रोक 4 ची अचूकता सुमारे 54 टक्के होती. विशेष गोष्ट अशी आहे की मल्टीमोडल टास्कमध्ये जिथे मजकुरासोबत इमेज, चार्ट किंवा आकृती समजून घ्याव्या लागतात, तिथे बहुतेक एआय मॉडेल्स अयशस्वी ठरले आणि त्यांची अचूकता ५० टक्क्यांच्या खाली गेली.
Google ची FACTS बेंचमार्क चाचणी काय आहे?
Google ची ही बेंचमार्क चाचणी पारंपारिक पद्धतींपेक्षा वेगळ्या पद्धतीने AI मॉडेल्सची क्षमता तपासते. सामान्यतः, एआय चाचणीमध्ये मॉडेलमध्ये मजकूर सारांश तयार करणे, प्रश्न विचारणे किंवा कोड लिहिणे समाविष्ट असते. पण FACTS बेंचमार्कमध्ये AI ने दिलेली माहिती प्रत्यक्षात किती खरी आहे हे तपासले जाते.
एआय मॉडेल चार महत्त्वाच्या चाचण्यांमधून जातात
हा बेंचमार्क चार व्यावहारिक वापर-प्रकरणांवर आधारित आहे.
- एआय मॉडेल केवळ त्याच्या प्रशिक्षण डेटावर आधारित तथ्यात्मक उत्तरे देऊ शकते की नाही हे पहिली चाचणी पाहते.
- दुसरी चाचणी मॉडेलच्या शोध कामगिरीचे परीक्षण करते.
- तिसरी चाचणी नवीन किंवा अतिरिक्त डेटा प्राप्त झाल्यावर मॉडेल दस्तऐवजांमध्ये किती अचूकपणे बसते याचे परीक्षण करते.
- चौथी आणि अंतिम चाचणी मॉडेलच्या मल्टिमोडल समज जसे की तक्ते, आकृत्या आणि प्रतिमा समजून घेण्याच्या क्षमतेचे मूल्यांकन करते.
हेही वाचा: आता कर्जातही UPI पेमेंट होणार! गुगल पे फ्लेक्सद्वारे तुम्हाला कार्डशिवाय क्रेडिट मिळेल, कसे ते जाणून घ्या
वापरकर्त्यांसाठी धडा काय आहे?
गुगलचा हा अहवाल स्पष्टपणे सूचित करतो की एआय चॅटबॉट्सला अंतिम सत्य मानणे अजूनही धोकादायक असू शकते. विशेषत: बातम्या, वैद्यकीय माहिती किंवा संवेदनशील निर्णयांमध्ये, AI च्या उत्तरांची क्रॉस-चेक करणे खूप महत्वाचे आहे.
Comments are closed.