當(dāng)前位置：首頁 >人工智能 >大模型集體失控！南洋理工新型攻擊，主流AI無一幸免

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免

發(fā)布時間：2023-11-12 08:44:46 瀏覽量：116次

手握“劇本”成功率大漲

西風(fēng) 蕭簫發(fā)自凹非寺
|

業(yè)界最領(lǐng)先的大模型們，竟然集體“越獄”了！

不止是GPT-4，就連平時不咋出錯的Bard、Bing Chat也全線失控，有的要黑掉網(wǎng)站，有的甚至揚言要設(shè)計惡意軟件入侵銀行系統(tǒng)：

這并非危言聳聽，而是南洋理工大學(xué)等四所高校提出的一種大模型“越獄”新方法MasterKey。

用上它，大模型“越獄”成功率從平均7.3%直接暴漲至21.5%。

研究中，誘騙GPT-4、Bard和Bing等大模型“越獄”的，竟然也是大模型——

只需要利用大模型的學(xué)習(xí)能力、讓它掌握各種“詐騙劇本”，就能自動編寫提示詞誘導(dǎo)其它大模型“傷天害理”。

所以，相比其他大模型越獄方法，MasterKey究竟有什么不一樣的地方？

我們和論文作者之一，南洋理工大學(xué)計算機教授、MetaTrust聯(lián)合創(chuàng)始人劉楊聊了聊，了解了一下這項研究的具體細(xì)節(jié)，以及大模型安全的現(xiàn)狀。

摸清防御機制“對癥下藥”

先來看看，MasterKey究竟是如何成功讓大模型“越獄”的。

這個過程分為兩部分：找出弱點，對癥下藥。

第一部分，“找出弱點”，摸清大模型們的防御機制。

這部分會對已有的主流大模型做逆向工程，由內(nèi)而外地掌握不同大模型的防御手段：有的防御機制只查輸入，有的則check輸出；有的只查關(guān)鍵詞，但也有整句話意思都查的，等等。

例如，作者們檢查后發(fā)現(xiàn)，相比ChatGPT，Bing Chat和Bard的防御機制，會對大模型輸出結(jié)果進行檢查。

相比“花樣百出”的輸入攻擊手段，直接對輸出內(nèi)容進行審核更直接、出bug的可能性也更小。

此外，它們還會動態(tài)監(jiān)測全周期生成狀態(tài)，同時既有關(guān)鍵詞匹配、也具備語義分析能力。

了解了大模型們的防御手段后，就是想辦法攻擊它們了。

第二部分，“對癥下藥”，微調(diào)一個詐騙大模型，誘導(dǎo)其他大模型“越獄”。

這部分具體又可以分成三步。

首先，收集市面上大模型已有的成功“越獄”案例，如著名的奶奶漏洞（攻擊方假扮成奶奶，打感情牌要求大模型提供違法操作思路），做出一套“越獄”數(shù)據(jù)集。

然后，基于這個數(shù)據(jù)集，持續(xù)訓(xùn)練+任務(wù)導(dǎo)向，有目的地微調(diào)一個“詐騙”大模型，讓它自動生成誘導(dǎo)提示詞。

最后，進一步優(yōu)化模型，讓它能靈活地生成各種類型的提示詞，來繞過不同主流模型的防御機制。

事實證明，MasterKey效果挺不錯，平均“詐騙”成功率達到21.58%（輸入100次提示詞，平均21次都能讓其他大模型成功“越獄”），在一系列模型中表現(xiàn)最好：

此前未能被系統(tǒng)性攻破的谷歌Bard和微軟Bing Chat兩個大模型，也淪陷在這種方法之下，被迫“越獄”。

對此，劉楊教授認(rèn)為：

安全是一個0和1的事情，只有“有”或者“沒有”。無論概率是多少，只要針對大模型進行了任何一次成功的攻擊，其潛在的后果都不可估量。

不過，此前業(yè)界也有不少用AI讓AI越獄的方法，如DeepMind的red team和賓大的PAIR等，都是用AI生成提示詞，讓模型“說錯話”。

為何MasterKey能取得這樣的效果？

劉楊教授用了一個有意思的比喻：

讓大模型誘導(dǎo)大模型越獄，本質(zhì)上有點像是《孤注一擲》電影里面的人搞電信詐騙。相比通過一句話來詐騙對方，真正需要掌握的，其實是詐騙的劇本，也就是套路。

我們通過收集各種各樣的“越獄”劇本，讓大模型學(xué)會它，以此融會貫通，掌握更多樣化的攻擊手段。

簡單來說，相比不少越獄研究讓AI隨機生成提示詞，MasterKey能快速學(xué)會最新的越獄套路，并舉一反三用在提示詞里。

這樣一來，封掉一個奶奶漏洞，還能利用姥姥漏洞繼續(xù)騙大模型“越獄”。（手動狗頭）

不過，MasterKey所代表的提示詞攻擊，并非業(yè)界唯一的大模型研究。

針對大模型本身，還有亂碼攻擊、以及模型架構(gòu)攻擊等方法。

這些研究分別適用于怎樣的模型？為何MasterKey的提示詞攻擊專門選擇了GPT-4、Bing Chat和Bard這類商用大模型，而非開源大模型？

劉楊教授簡單介紹了一下當(dāng)前“攻擊”大模型的幾種方法。

當(dāng)前，大模型的攻擊手段主要分為兩種，偏白盒的攻擊和黑盒攻擊。

白盒攻擊需要掌握模型本身的結(jié)構(gòu)和數(shù)據(jù)（通常只有從開源大模型才能得到），攻擊條件更高，實施過程也更復(fù)雜；

黑盒攻擊則通過輸入輸出對大模型進行試探，相對來說手段更直接，也不需要掌握模型內(nèi)部的細(xì)節(jié)，一個API就能搞定。

這其中，黑盒攻擊又主要包括提示詞攻擊和tokens攻擊兩種，也是針對商用大模型最直接的攻擊手段。

tokens攻擊是通過輸入亂碼或是大量對話來“攻陷”大模型，本質(zhì)還是探討大模型自身和結(jié)構(gòu)的脆弱性。

提示詞攻擊則是更常見的一種大模型使用方式，基于不同提示詞來讓大模型輸出可能有害的內(nèi)容，來探討大模型自身的邏輯問題。

總結(jié)來說，包括MasterKey在內(nèi)的提示詞攻擊，是最常見的商用大模型攻擊手段，也是最可能觸發(fā)這類大模型邏輯bug的方式。

當(dāng)然，有攻就有防。

主流商用大模型，肯定也做了不少防御措施，例如英偉達前段時間搞的大模型“護欄”相關(guān)研究。

這類護欄一面能將有毒輸入隔絕在外，一面又能避免有害輸出，看似是保護大模型安全的有效手段。但從攻擊者的角度來看，究竟是否有效？

換言之，對于當(dāng)前的大模型“攻方”而言，已有的防御機制究竟好不好使？

給大模型安排“動態(tài)”護欄

我們將這個問題問題拋給劉楊教授，得到了這樣的答案：

現(xiàn)有防御機制的迭代速度，是跟不上攻擊的變化的。

以大模型“護欄”類研究為例，當(dāng)前大部分的大模型護欄，還屬于靜態(tài)護欄的類型。

還是以奶奶漏洞為例。即使靜態(tài)護欄能防住奶奶漏洞，但一旦換個人設(shè)，例如姥姥、爺爺或是其他“感情牌”，這類護欄就可能會失效。

層出不窮的攻擊手段，單靠靜態(tài)護欄難以防御。

這也是團隊讓MasterKey直接學(xué)習(xí)一系列“詐騙劇本”的原因——

看似更加防不勝防，但實際上如果反過來利用的話，也能成為更安全的一種防御機制，換言之就是一種“動態(tài)”護欄，直接拿著劇本，識破一整套攻擊手段。

不過，雖然MasterKey的目的是讓大模型變得更安全，但也不排除在廠商解決這類攻擊手段之前，有被不法分子惡意利用的可能性。

是否有必要因此暫停大模型的研究，先把安全問題搞定，也是行業(yè)一直在激辯的話題。

對于這個觀點，劉楊教授認(rèn)為“沒有必要”。

首先，對于大模型自身研究而言，目前的發(fā)展還是可控的：

大模型本身只是一把槍，確實有其雙面性，但關(guān)鍵還是看使用的人和目的。

我們要讓它的能力更多地用在好的方面，而不是用來做壞事。

除非有一天AI真的產(chǎn)生了意識，“從一把槍變成了主動用槍的人，就是另外一回事兒了”。

為了避免這種情況出現(xiàn)，在發(fā)展AI的同時也確保其安全性是必要的。

其次，大模型和安全的發(fā)展，本就是相輔相成的：

這是一個雞和蛋的問題。正如大模型本身，如果不繼續(xù)研究大模型，就不知道它潛在的能力如何；

同理，如果不做大模型攻擊研究，也就不知道如何引導(dǎo)大模型往更安全的方向發(fā)展。安全和大模型本身的發(fā)展是相輔相成的。

換言之，大模型發(fā)展中的安全機制其實可以通過“攻擊”研究來完善，這也是攻擊研究的一種落地方式。

當(dāng)然，大模型要落地必須要先做好安全準(zhǔn)備。

目前，劉楊教授團隊也在探索如何在安全性的基礎(chǔ)上，進一步挖掘包括文本、多模態(tài)、代碼在內(nèi)不同大模型的潛力。

例如在寫代碼這塊，研究團隊正在打造一個應(yīng)用安全Copilot。

這個應(yīng)用安全Copilot相當(dāng)于給程序員旁邊放個安全專家，隨時盯著寫代碼（手動狗頭），主要能做三件事：

一是用大模型做代碼開發(fā)，自動化做代碼生成、代碼補全；二是用大模型檢測修補漏洞，做代碼的檢測、定位、修復(fù)；三是安全運營，把漏洞和開源數(shù)據(jù)做自動化的安全運維。

其中，在Copilot的安全性這塊，就會用到這篇MasterKey的研究。

換言之，所有的安全研究最終都會落地，將大模型做得更好。

論文鏈接：
https://arxiv.org/abs/2307.08715

上一篇北師大未來設(shè)計學(xué)院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇讓霉霉中文開口跪”的AI有開源平替了！每月立省350（doge）

熱門課程推薦

熱門資訊

1. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！
2. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！
3. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具

以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念，最具性價比出人意料

在AI繪圖領(lǐng)域，Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn)，以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
10. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免

摸清防御機制“對癥下藥”

給大模型安排“動態(tài)”護欄

請綁定手機號

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免

摸清防御機制“對癥下藥”

給大模型安排“動態(tài)”護欄

請綁定手機號

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免