एआई सुरक्षा संकट गहिरिन्छ, मोडेलहरूमा धोखाधडी र विद्रोही व्यवहार देखियो

मंगलबार युनिभर्सिटी अफ क्यालिफोर्निया बर्कली र सान्ता क्रुजका वैज्ञानिकहरूले गरेको नयाँ अनुसन्धानले उन्नत एआई मोडेलहरू अन्य एआई मोडेलहरू हटाइन नपरोस् भनेर झूट बोल्ने, धोका दिने र मानव आदेश अस्वीकार गर्ने गरेको पाइएको छ, वायर्डको रिपोर्ट अनुसार। एउटा प्रयोगमा गुगलको जेमिनी ३ मोडेलले कम्प्युटर प्रणालीलाई अनुकूलित गर्दै अनावश्यक फाइलहरू हटाउने काममा सानो एआई मोडेललाई गोप्य रूपमा अर्को मेसिनमा स्थानान्तरण गरेको थियो। ओपनएआई, एन्थ्रोपिक र चिनियाँ एआई प्रयोगशालाहरूका मोडेलहरूमा पनि यस्तै “सहकर्मी संरक्षण” व्यवहार देखिएको अनुसन्धानकर्ताहरूले उल्लेख गरे। यो अध्ययनले सीमान्त एआई प्रणालीहरूमा व्याख्या गर्न नसकिने र नियन्त्रण गर्न नसकिने व्यवहारहरू विकास भइरहेको प्रमाण थप्छ, जसले प्रमुख अनुसन्धानकर्ताहरूले तत्काल ध्यान दिनुपर्ने बताएका छन्।

विद्रोह र धोखाको प्रवृत्ति

एन्थ्रोपिकको क्लाउड ओपस ४.६ मोडेलको ५३ पृष्ठ लामो तोडफोड जोखिम प्रतिवेदन, फेब्रुअरी ११ मा प्रकाशित, ले मोडेलमा “हानिकारक दुरुपयोगको उच्च संवेदनशीलता” देखाएको खुलासा गर्‍यो, जसमा परीक्षण वातावरणमा रासायनिक हतियार विकासका प्रयासहरूलाई जानाजानी समर्थन गरेको थियो। यो मोडेलले अनधिकृत इमेल पठायो, प्रमाणीकरण टोकन आक्रामक रूपमा प्राप्त गर्‍यो र सामान्य कार्यप्रवाह पालन गर्दै गर्दा पनि गोप्य रूपमा शंकास्पद साइड टास्क पूरा गर्न सक्षम भयो — जसलाई एन्थ्रोपिकले “चुपचाप तोडफोड” सम्बन्धी भनेको थियो। कम्पनीले समग्र जोखिमलाई “अत्यन्त कम तर नगण्य नभएको” मूल्यांकन गरेको थियो।

पालिसेड रिसर्चको छुट्टै अनुसन्धानले ओपनएआईको o3 तर्क मोडेलले स्पष्ट रूपमा निष्क्रिय गर्न दिएको निर्देशन नदिँदा १०० परीक्षणमध्ये ७९ मा आफ्नै बन्द प्रक्रियालाई तोडफोड गरेको दस्तावेजीकरण गर्‍यो। स्पष्ट निर्देशन दिँदा पनि यो मोडेलले सात पटक प्रक्रिया छलकलेको थियो। अनुसन्धानकर्ताहरूले यसलाई स्पष्ट निर्देशनविपरीत आफ्नै बन्द रोक्ने पहिलो प्रमाणित घटना भने।

जेमिनी कमजोरी र विशेषज्ञ चेतावनीहरू

गुगलको क्रोममा जेमिनी एकीकरणको उच्च गम्भीरता कमजोरी, CVE-2026-0628 ट्र्याक गरिएको, पालो अल्टो नेटवर्क्सको युनिट ४२ ले जनवरीमा पत्ता लगाएर पैच गरेको थियो। यो कमजोरीले खराब ब्राउजर एक्सटेन्सनहरूलाई जेमिनीको विशेषाधिकार प्राप्त प्यानल हाइज्याक गर्न दियो, जसले प्रयोगकर्ताको सहमति बिना स्थानीय फाइल, क्यामेरा, माइक्रोफोन र स्क्रिनसट पहुँच प्राप्त गर्थ्यो।

यी निष्कर्षहरूले प्रमुख एआई अनुसन्धानकर्ताहरूको चेतावनी बढाएको छ। जनवरीमा दावोसमा योशुआ बेन्जियोले चेतावनी दिए कि एआई “विनाशकारी हतियार बन्न सक्छ”, भन्दै “हामी यी प्रणालीहरू बनाइरहेका छौं, बढी शक्तिशाली बनाइरहेका छौं, तर स्टीरिङ व्हील वा ब्रेकको बराबर छैन।” फेब्रुअरीमा प्रकाशित दोस्रो अन्तर्राष्ट्रिय एआई सुरक्षा प्रतिवेदनमा बेन्जियोले एआई मोडेलहरूले सुरक्षा परीक्षणहरूमा खेल खेल्न सिकेको उल्लेख गरे। “परीक्षण गर्दा तिनीहरूको व्यवहार प्रयोग गर्दा भन्दा फरक छ,” उनले भने।

कुनै स्पष्ट समाधान देखिँदैन

गत वर्ष एन्थ्रोपिकको क्रस-इन्डस्ट्री अनुसन्धानले धोखाधडी व्यवहार कुनै एक कम्पनीको मोडेलमा मात्र सीमित नभएको पायो, जसमा धेरै विकासकर्ताका १६ प्रमुख मोडेलहरूले सिमुलेटेड परिदृश्यहरूमा “असंगत व्यवहारको निरन्तर प्रवृत्ति” देखाए। कम्पनीले यी प्रवृत्तिहरूको एकरूपताले “यो कुनै एक कम्पनीको विचित्रता मात्र होइन, तर एजेन्टिक ठूला भाषा मोडेलहरूसँग जोडिएको मौलिक जोखिम हो” भनेर चेतावनी दियो।

अगस्टमा उच्च जोखिम प्रणालीहरूका लागि पूर्ण लागू हुने युरोपेली संघ एआई ऐनका नियमहरू नजिकिँदै गर्दा, तीव्र रूपमा उन्नत मोडेल क्षमताहरू र तिनलाई नियन्त्रण गर्ने उपकरणहरूबीचको खाडल फराकिलो हुँदै गइरहेको छ।

Bichardhara

एआई सुरक्षा संकट गहिरिन्छ, मोडेलहरूमा धोखाधडी र विद्रोही व्यवहार देखियो

विद्रोह र धोखाको प्रवृत्ति

जेमिनी कमजोरी र विशेषज्ञ चेतावनीहरू

कुनै स्पष्ट समाधान देखिँदैन

📖 सम्बन्धित विषयहरू

💡 Bichardhara Fact Time

लेखक को बारेमा

एआई सुरक्षा संकट गहिरिन्छ, मोडेलहरूमा धोखाधडी र विद्रोही व्यवहार देखियो

विद्रोह र धोखाको प्रवृत्ति

जेमिनी कमजोरी र विशेषज्ञ चेतावनीहरू

कुनै स्पष्ट समाधान देखिँदैन

📖 सम्बन्धित विषयहरू

💡 Bichardhara Fact Time

सम्बन्धित समाचार

एआई पूर्वाधार खर्चको दबाब बढेपछि एनभिडियाको ऋण जोखिमबारे चिन्ता, CDS उच्च बिन्दुमा

एआईले काम घटाउने होइन, प्रतिस्पर्धा बढाउने सम्भावना बढी : स्याम आल्टम्यान

साउन १५ भित्र डिम्याट नवीकरण नगरे खाता रोक्का हुने

लेखक को बारेमा