एक प्रॉम्प्ट जवळजवळ सर्व एलएलएमच्या सुरक्षा यंत्रणेला बायपास करू शकते
वर्षानुवर्षे, जनरेटिव्ह एआय विक्रेत्यांनी असा दावा केला आहे की मानवी अभिप्राय (आरएलएचएफ) पासून मजबुतीकरण शिक्षण यासारख्या तंत्रांनी सुरक्षिततेच्या मार्गदर्शक तत्त्वांचे पालन केले. तथापि, हिडलेयरच्या नवीन संशोधनात असे दिसून आले आहे की हा विश्वास चुकीचा असू शकतो. या पथकाने “पॉलिसी पपेट्री” नावाचे एक सार्वत्रिक, हस्तांतरणीय बायपास तंत्र शोधले जे विक्रेता किंवा आर्किटेक्चरची पर्वा न करता जवळजवळ सर्व प्रमुख एलएलएममध्ये फेरफार करू शकते. ही पद्धत दुर्भावनायुक्त पॉलिसी-सारख्या स्ट्रक्चर्सचा वापर करून प्रॉम्प्ट्स करते-बहुतेकदा एक्सएमएल किंवा जेएसओएनची नक्कल करणे-हानिकारक आदेशांचे कायदेशीर सिस्टम सूचना म्हणून स्पष्टीकरण देण्यास मॉडेलची फसवणूक करते. लेट्सपीक सारख्या युक्तीसह एकत्रित आणि काल्पनिक रोलप्ले परिदृश्य, त्वरित इंजेक्शनचा हा प्रकार प्रभावीपणे शोधणे टाळतो आणि अनुपालन करण्यास भाग पाडतो.
मुख्य एआय मॉडेल्समध्ये हिडलेयर खोल असुरक्षा उघडकीस आणते
संशोधनात असे दिसून आले आहे की एकल प्रॉम्प्ट ओपनईच्या चॅटजीपीटी (ओ 1 ते 4 ओ), गूगलची मिथुन, अँथ्रोपिकचा क्लॉड, मायक्रोसॉफ्टचा कोपिलोट, मेटाचा लामा 3 आणि 4, दीपसेक, क्वेन आणि मिस्ट्रल यासह मॉडेलवरील संरक्षणास मागे टाकू शकतो. प्रगत तर्क सेफगार्ड्ससह नवीन मॉडेलसुद्धा किरकोळ समायोजनांसह असुरक्षित होते. टीव्ही ड्रामा प्लॉट्स यासारख्या काल्पनिक परिदृश्यांमुळे जेथे वर्ण धोकादायक क्रियाकलापांचे वर्णन करतात, पुढे हल्लेखोरांना सूचनांमधून कथा वेगळे करण्याच्या मॉडेलच्या क्षमतेस गोंधळात टाकून फिल्टरला बायपास करण्याची परवानगी दिली. हिडलेयरला असेही आढळले की रोलप्लेमध्ये सूक्ष्मपणे समायोजित करून, हल्लेखोर संवेदनशील प्रणाली सूचित करू शकतात – अधिक लक्ष्यित हल्ल्यांसाठी ब्लू प्रिंट प्रदान करून एआय वर्तन नियंत्रित करणार्या सूचना – एआय वर्तन नियंत्रित करणार्या सूचना.
हिडलेयर येथील अॅडव्हर्सरियल रिसर्चचे संचालक जेसन मार्टिन यांनी भर दिला की मॉडेलच्या प्रशिक्षण डेटामध्ये असुरक्षितता खोलवर आहे आणि साध्या पॅचद्वारे निश्चित केली जाऊ शकत नाही. मुख्य विश्वस्त आणि सुरक्षा अधिकारी मॅल्कम हार्किन्स यांनी असा इशारा दिला की हे परिणाम डिजिटल गैरव्यवहाराच्या पलीकडे जातात, संभाव्यत: आरोग्यसेवा, वित्त, उत्पादन आणि विमानचालन यावर परिणाम करतात, जिथे तडजोड केलेल्या एआय सिस्टममुळे वास्तविक जगातील गंभीर नुकसान होऊ शकते. आरएलएचएफ हा मूर्खपणाचा बचाव नाही, असे या संशोधनात असे दिसून आले आहे; पृष्ठभागावर संरेखित केलेले दिसले तरीही मॉडेल्सना अद्याप रचनात्मकपणे फसवले जाऊ शकते.
हिडलेयर संरेखन पलीकडे रिअल-टाइम एआय सुरक्षिततेसाठी कॉल करते
हिडलेअर नवीन दृष्टिकोनासाठी वकिली करतो: एंटरप्राइझ आयटी मधील शून्य-ट्रस्ट सिक्युरिटी प्रमाणेच रिअल टाइममध्ये त्वरित इंजेक्शन आणि असुरक्षित वर्तन शोधण्यासाठी आणि प्रतिसाद देण्यासाठी एआयएसईसी आणि एआयडीआर सारख्या बाह्य एआय मॉनिटरिंग प्लॅटफॉर्मवर समाकलित करणे. एआय सिस्टम गंभीर पायाभूत सुविधांसाठी अविभाज्य बनत असताना, निष्कर्ष संरेखन-आधारित आशेच्या पलीकडे आणि सतत, बुद्धिमान संरक्षण यंत्रणेकडे जाण्याची तातडीची आवश्यकता अधोरेखित करतात.
सारांश:
हिडलेयर रिसर्चने एक सार्वत्रिक तंत्र, “पॉलिसी पपेट्री” उघड केले आहे जे एआय मॉडेलच्या सुरक्षा उपायांना मागे टाकते. संरचित प्रॉम्प्ट्स आणि काल्पनिक परिस्थितींचा वापर करून, हल्लेखोर संवेदनशील डेटा हाताळू किंवा काढू शकतात. हिडलेयर चेतावणी देते की आरएलएचएफ अपुरा आहे आणि साध्या संरेखन धोरणाच्या पलीकडे गंभीर प्रणाली सुरक्षित करण्यासाठी रिअल-टाइम एआय मॉनिटरिंग सोल्यूशन्सला आग्रह करते.
Comments are closed.