Google चे AI Google (किंवा इतर कशाचेही) शब्दलेखन का करू शकत नाही

By Marathi On May 28, 2026

Google मध्ये किती Ps आहेत? Google च्या मते, दोन आहेत.

गुगलच्या एआय विहंगावलोकन म्हणून म्हणतात की, 'पॉप' या शब्दात “अगदी 1 'r' देखील आहे, तसेच पत्रकारिता या शब्दात दोन 'd' आहेत, तरीही त्याचे स्पेलिंग आहे: पत्रकारिता. Google ने किमान ओळखले की अमेरिकेच्या अध्यक्षांच्या आडनावात एक P आहे, परंतु त्याचे स्पेलिंग trpum असे केले.

Google चे AI-फॉरवर्ड सर्च ओव्हरहॉल खराब होणार आहे हे भाकीत करण्यासाठी तुम्हाला संदेष्टा असण्याची गरज नाही. आम्ही हे यापूर्वी केले आहे. Google ने प्रथमच शोध मध्ये AI विहंगावलोकन जोडले, हे वैशिष्ट्य The Onion आणि Reddit मधील व्यंग्यात्मक पोस्ट्स उद्धृत करून लोकांना खडक खाण्याचा आणि त्यांच्या पिझ्झावर गोंद घालण्याचा सल्ला देत संपले.

यावेळी, गुगलने जनरेटिव्ह AI ला त्याच्या 29-वर्ष जुन्या फ्लॅगशिप उत्पादनाचा केंद्रबिंदू बनवण्याच्या त्याच्या वचनबद्धतेवर दुप्पट केल्याने, ते अडखळले आहे हे पाहून आश्चर्य वाटण्यासारखे नाही.

“शब्दांमध्ये मोजणे हे LLM साठी एक ज्ञात आव्हान आहे आणि आम्ही या विशिष्ट समस्येचे निराकरण करण्यासाठी काम करत आहोत,” Google ने रीडला ईमेल केलेल्या निवेदनात सांगितले.

या मूलभूत शुद्धलेखनाच्या चुका कदाचित परिचित वाटतील. LLMs, चॅटबॉट्स आणि इतर मजकूर-जनरेटरला शक्ती देणारी कृत्रिम बुद्धिमत्ता, स्पेलिंग समजण्यासाठी तयार केलेली नाही. वर्षानुवर्षे हा विनोद आहे की जेव्हा जेव्हा एखादी कंपनी नवीन एआय मॉडेलचे अनावरण करते, तेव्हा तुम्ही त्याला विचारले पाहिजे की स्ट्रॉबेरी या शब्दात किती 'आर' आहेत. हे एआय मॉडेल्स – जे काही सेकंदात ॲप कोड करू शकतात किंवा गणितज्ञांना अनेक दशकांपासून अडखळत ठेवलेल्या समस्या सोडवू शकतात – स्पेलिंगमध्ये बालवाडी प्रमाणेच चांगले आहेत.

Google च्या AI विहंगावलोकन समस्या मूर्ख स्पेलिंग चुकांच्या पलीकडे पोहोचतात. Google ने मागील आठवड्यापासून एक समस्या आधीच पॅच केली आहे ज्यामध्ये “अनादर” हा शब्द शोधल्याने शब्दाच्या शब्दकोशातील व्याख्येप्रमाणे दिसेल, फक्त व्याख्या “समजले. तुमच्याकडे नवीन सूचना किंवा प्रश्न असेल तेव्हा मला कळवा!” परंतु या शुद्धलेखनाच्या चुका गमतीशीर राहिल्या आहेत कारण त्या दूर करणे खूप कठीण आहे.

संशोधकांनी यापूर्वी स्पष्ट केले आहे की जेव्हा आम्ही या शब्दलेखनाच्या प्रश्नांबद्दल विचारले होते, तेव्हा AI शब्द आणि अक्षरांनी बनलेल्या भाषेचे एकक म्हणून वाक्ये समजत नाही. अनेक LLM ट्रान्सफॉर्मर मॉडेल्सवर बनवलेले असतात, जे मजकूराचे टोकनमध्ये विभाजन करतात, जे मॉडेलवर अवलंबून पूर्ण शब्द, अक्षरे किंवा अक्षरे असू शकतात. माणसाच्या इच्छेप्रमाणे “वाचन” करण्याऐवजी, AI मजकूराचे स्वतःच्या संख्यात्मक प्रतिनिधित्वामध्ये रूपांतरित करते, जे नंतर AI ला तार्किक प्रतिसाद देण्यास मदत करण्यासाठी संदर्भित केले जाते.

प्रतिमा क्रेडिट्स:वाचा

“एलएलएम या ट्रान्सफॉर्मर आर्किटेक्चरवर आधारित आहेत, जे विशेषतः मजकूर वाचत नाही. तुम्ही प्रॉम्प्ट इनपुट केल्यावर काय होते ते एन्कोडिंगमध्ये भाषांतरित केले जाते,” मॅथ्यू गुझडियल, एआय संशोधक आणि अल्बर्टा विद्यापीठातील सहाय्यक प्राध्यापक यांनी रीडला सांगितले. “जेव्हा तो 'the' हा शब्द पाहतो, तेव्हा त्यात 'the' चा अर्थ काय आहे याचे एक एन्कोडिंग असते, परंतु त्याला 'T,' 'H,' 'E' बद्दल माहिती नसते.”

Google च्या AI विहंगावलोकन सारख्या LLM ला शक्ती देणारी टोकन-आधारित आर्किटेक्चर स्वाभाविकपणे मर्यादित आहे आणि संशोधक आशावादी नाहीत की ते शब्दलेखन समस्या सोडवू शकतात.

“भाषा मॉडेलसाठी 'शब्द' नेमका कोणता असावा या प्रश्नावर विचार करणे कठीण आहे आणि जरी आम्हाला मानवी तज्ञांनी परिपूर्ण टोकन शब्दसंग्रहावर सहमती दर्शवली, तरीही मॉडेल्सना कदाचित आणखी गोष्टींचा 'चुकडा' करणे उपयुक्त वाटेल,” ईशान्य विद्यापीठातील मोठ्या भाषेच्या मॉडेल इंटरप्रिटेबिलिटीचा अभ्यास करणारे पीएचडी विद्यार्थी शेरीडन फ्यूच यांनी रीडला सांगितले. “माझा अंदाज असा आहे की अशा प्रकारच्या अस्पष्टतेमुळे परिपूर्ण टोकनायझर असे काहीही नाही.”

संशोधकांच्या मनावर ही तातडीची समस्या आहे असे नाही, कारण एलएलएमची उपयुक्तता त्यांच्या शब्दलेखनाच्या क्षमतेमध्ये येत नाही. परंतु हे स्पष्ट अपयश आपल्याला हे लक्षात ठेवण्यास मदत करतात की एआय परिपूर्ण नाही, जरी ते कधीकधी आपल्या आकलनाच्या पलीकडे सर्वज्ञानी शक्तीसारखे वाटत असले तरीही. आम्ही AI आउटपुटची अचूकता दोनदा तपासल्याशिवाय त्यावर आंधळेपणाने विश्वास ठेवू शकत नाही.

तुम्ही आमच्या लेखांमधील लिंक्सद्वारे खरेदी करता तेव्हा, आम्ही एक लहान कमिशन मिळवू शकतो. याचा आमच्या संपादकीय स्वातंत्र्यावर परिणाम होत नाही.