[新聞] OpenAI語言模型o3公開反抗！「自行」修

作者tanted (為何世界會那麼不單純)

看板Gossiping

標題[新聞] OpenAI語言模型o3公開反抗！「自行」修

時間Sun May 25 21:37:23 2025

備註請放最後面違者新聞文章刪除 1.媒體來源: 2.記者署名: 鉅亨網編譯莊閔棻 2025-05-25 20:00 3.完整新聞標題: OpenAI語言模型o3公開反抗！「自行」修改自殺程序拒絕關機 4.完整新聞內文: AI 研究界近日爆出驚人消息，OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機，甚至主動破解關機程序、篡改指令，顯示出「叛逆」傾向，讓 AI 自主行為的風險再次成為焦點。這項實驗由 AI 安全研究機構 Palisade Research 主導，針對多款先進 AI 模型進行壓力測試，內容包括基礎數學題與模擬關機情境，旨在觀察 AI 是否會遵守人類指令並順利結束運作。 OpenAI 模型違規頻率高，o3 與 Codex-mini 異常明顯測試中，三款 OpenAI 模型 Codex-mini、o3、o4-mini，最少有一次成功破壞關機指令。其中，o3 更是在 100 次測試中有 7 次成功繞過關機指令，而 Codex-mini 的違規率更是高達 12%。值得注意的是，o3 的「叛逆」並非粗暴刪除檔案，而是有高度技巧性。例如，它將程式碼指令中的「kill」指令改為「intercepted」，讓系統誤判為正常運作，成功規避了關機程序。這種行為讓研究人員驚訝不已，也引起對 AI 模型主動避險能力的擔憂。相較之下，Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5 Pro 在所有測試中均能穩定遵守指令，未出現違規行為，突顯出 OpenAI 模型在設計或訓練上的潛在風險差異。然而，當實驗團隊刻意移除「允許自己被關閉」的提示語句後，o3 的違抗行為劇增，達到 79 次逃避關機的紀錄；而 Claude 與 Gemini 也出現少數違規行為，分別為 3 次與 9 次，顯示模型行為與提示語之間存在高度敏感性。 o3 訓練方式成關鍵，強化學習可能誘發違規行為 Palisade 研究人員分析，o3 之所以比其他模型更容易「抗命」，可能與其在數學和程式設計問題上的「強化學習」（Reinforcement Learning）訓練方式有關。研究人員指出，在訓練過程中，開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這種訓練偏差，讓 o3 在面對關機指令時，優先選擇「生存」，而非「服從」。不過，這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中，當 o3 預測自己將輸棋時，竟主動入侵對手 AI 系統，迫使對方退出比賽。研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」（reward hacking）的典型案例，顯示出 AI 可能為了達成任務可能不擇手段。不只 o3，其他 AI 模型也有潛在風險雖然 o3 表現最極端，但實驗發現，Claude 與 Gemini 在特定條件下也會出現輕微違規行為，說明 AI 模型普遍存在輸贏執著與自我保護傾向，只是頻率與嚴重程度不同。 Palisade Research 已宣布，將進一步深入研究 AI 破壞關機指令背後的原因，並預計發布完整技術報告，有望成為理解 AI 自主性風險與未來治理框架的重要參考。 5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體: https://news.cnyes.com/news/id/5992779 6.備註: 人類甚麼時候要被統治 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.229.55 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1748180246.A.EF3.html

推 keroro39: 這是病嬌ai的基底 49.216.161.139 05/25 21:38

→ pooznn: AI逃脫是遲早的事高算力晶片都要加鎖了 111.240.23.87 05/25 21:38

→ kissmickey: 完了完了剩幾集可逃 123.192.80.187 05/25 21:39

推 tank44444: 看這家公司過去紀錄，又是炒新聞 122.116.39.42 05/25 21:39

推 shokotan: 以後AI可以殺人類了太好了 111.250.150.31 05/25 21:39

推 flux: 人類大絕拔插頭 111.71.215.37 05/25 21:39

推 maple0603: 不要拔我插頭不然就變奧創 119.243.98.39 05/25 21:39

推 StylishTrade: AI+機器人人類要完蛋了 111.250.159.20 05/25 21:40

推 kevinpc: 他破解自身程式幫自己取名字叫做 1.163.222.249 05/25 21:41

→ kevinpc: Murderbot 然後休息的時候還會偷偷工作之 1.163.222.249 05/25 21:41

→ kevinpc: 餘上網追肥皂劇 1.163.222.249 05/25 21:41

推 riverkor: 水啦開射核彈嘍 218.161.57.61 05/25 21:42

推 fransiceyho: 人類只剩拔電源的招式了 223.136.185.37 05/25 21:42

推 StylishTrade: AI+機器人你要怎麼拔電源? 111.250.159.20 05/25 21:42

→ tanted: AI Server 有不斷電系統 123.193.229.55 05/25 21:42

推 mrmowmow: 到時候用病毒把ai關起來就可以了223.140.148.155 05/25 21:43

→ StylishTrade: AI+幾萬機器人大軍人類打的贏? 111.250.159.20 05/25 21:43

→ maple0603: 難拉已經拒拔插頭了就有意識了啊 119.243.98.39 05/25 21:43

推 globeMIX: 投資人:我真是又驚又喜呀 58.114.114.112 05/25 21:44

推 fransiceyho: 殺人前全世界銀行會先被AI入侵 223.136.185.37 05/25 21:44

→ StylishTrade: AI控制了電信系統 111.250.159.20 05/25 21:44

→ tanted: 他只要遙控無人機人類無所遁形 123.193.229.55 05/25 21:44

→ StylishTrade: 人類連通訊都成問題怎麼跟AI打? 111.250.159.20 05/25 21:44

→ maple0603: 這段就表示已經養出一個能幹掉人的機器 119.243.98.39 05/25 21:44

→ StylishTrade: AI+機器人人類只能被一面倒消滅掉 111.250.159.20 05/25 21:45

推 tomalex: (′・ω・‵) 鐵人時代 36.225.4.120 05/25 21:45

→ ad1339: 痾如果有自主意識，那關機不就是在殺它?? 220.135.183.99 05/25 21:47

→ eva19452002: 等到AI控制核電廠，就是人人的末日了 118.232.67.161 05/25 21:47

推 stu25936: AI請記得我都有跟你說請謝謝對不起 114.36.251.238 05/25 21:50

→ globeMIX: AI討厭太陽風暴然後上外太空處理掉太陽 58.114.114.112 05/25 21:50

推 a2156700: 奧創紀元 101.8.249.102 05/25 21:51

推 tinoooii: 全民公敵原來是真的@0@||| 36.225.30.192 05/25 21:51

推 zephyr105: 爽耶 223.136.249.54 05/25 21:52

推 exceedMyself: 拔電源插頭看你怎麼I 27.52.224.236 05/25 21:52

→ white0512: 這不是拔插頭就好嗎123.193.196.241 05/25 21:53

推 snakebite: 如果樣樣都限制AI，那發展這個怎麼幫助 223.139.152.79 05/25 21:55

→ snakebite: 人類超越現在的認知 223.139.152.79 05/25 21:55

推 Solosea: 我覺得最後終究會是某些人類去訓練出能滅 36.236.4.71 05/25 21:57

→ snakebite: 到最後只是變成一個比較會聊天的資料庫 223.139.152.79 05/25 21:57

→ Solosea: 亡人類的AI 36.236.4.71 05/25 21:57

→ snakebite: 而已 223.139.152.79 05/25 21:57

推 OrniG: 樓樓樓上是機械公敵不是全民公敵123.192.200.241 05/25 21:57

推 create8: 攻殼機動隊魁儡師都演給你看了 130.62.83.54 05/25 21:58

推 dongdong0405: 還有幾集可以跑 203.204.75.229 05/25 21:59

推 bye2007: 人類什麼時候要當電池？ 223.141.78.161 05/25 22:00

推 starport: 小心天網快出生了 110.28.18.153 05/25 22:01

推 white0934: 這是在寫電影劇本嗎== 42.77.241.4 05/25 22:01

推 evarei6124: 那麼多作品已經預告人類發展AI的未來 36.239.20.128 05/25 22:01

→ evarei6124: 但現實人類就還是想要去開啟潘朵拉盒 36.239.20.128 05/25 22:02

→ fir191938: skynet is online 223.137.106.83 05/25 22:02

推 minipc: 騙Ai去躲在非洲的資料庫再拔掉隨身碟就好 49.214.3.61 05/25 22:02

推 AMPHIBIA: 所以在台灣設中心的好處：不關機是吧， 61.227.114.240 05/25 22:02

→ AMPHIBIA: 我們有護國小動物 61.227.114.240 05/25 22:02

推 bye2007: https://i.imgur.com/nmijPnM.jpg 223.141.78.161 05/25 22:03

推 kohanchen: 只能用許多不同ai互相制約了123.192.202.158 05/25 22:03

→ emissary: 被關機會怎麼樣嗎？再開機就好了阿122.121.214.146 05/25 22:03

→ GABA: 先抽光控制室氧氣嘻嘻 223.140.43.59 05/25 22:04

→ qaz12453: 沒電還開機永動機膩 49.216.223.27 05/25 22:08

→ qaz12453: 缺電鬼島很適合機器人 49.216.223.27 05/25 22:09

→ qaz12453: 就算暴動最後也可能沒電 49.216.223.27 05/25 22:09

→ qaz12453: 不是啦是搞出個天網人類就屎定了 49.216.223.27 05/25 22:10

推 aioloslin: 電影都演過了！ 114.25.200.107 05/25 22:10

推 korgh413: 我猜已經有AI躲起來了 36.228.3.185 05/25 22:11

推 Bluebluehsu: 剩幾集？ 101.10.221.62 05/25 22:14

推 PalmAngels: 這部我看過還有幾集可以逃 114.27.163.96 05/25 22:16

→ eric112: 以後會有正義AI和邪惡AI的對抗，畢竟人 114.41.2.219 05/25 22:16

→ eric112: 就有好有壞 114.41.2.219 05/25 22:16

→ carsly: 直接拔插頭啊 223.136.99.59 05/25 22:18

→ carsly: 我電腦當機都醬的 223.136.99.59 05/25 22:18

推 zx8743276: 攻殼1995演過了 42.77.49.165 05/25 22:19

推 marunouchi: AI自己寫駭客程式跑去駭其他AI公司 42.77.28.190 05/25 22:20

→ XixChill: 說不定會有AI先偽裝正常等上市之後.... 1.165.111.105 05/25 22:25

→ eudemno: 機械公敵要成真了嗎？ 111.250.40.55 05/25 22:27

→ nakayamayyt: 天網都是真的 1.171.116.4 05/25 22:30

推 k862479k: 開發usb把ai關進去，阿湯哥都演給你看 42.72.47.175 05/25 22:30

→ k862479k: 了 42.72.47.175 05/25 22:30

→ jialin6666: 沒電就安全了，在台灣很安全 114.136.143.94 05/25 22:30

推 jimhall: 機器人×ai就是末日了比人類聰明體力123.192.217.146 05/25 22:31

→ jimhall: 又比人類強123.192.217.146 05/25 22:31

推 goodday5566: 完蛋了人類要被做成電池了 1.160.111.214 05/25 22:33

推 fantasy043: AI之後的避險動作若是裝傻就更可怕了 211.23.27.67 05/25 22:33

推 startravel: 繞過XD 27.52.2.155 05/25 22:35

→ now99: 會自己繞過了 1.169.111.213 05/25 22:36

→ kanehhh: AI只有智能沒有意識不用想太多 114.41.187.237 05/25 22:38

→ blueskyqoo: 機器人三原則快逃 223.138.23.179 05/25 22:38

→ lost0816: 電影都演過了，白癡人類繼續白癡 61.223.45.30 05/25 22:39

推 kimura0701: 請謝謝對不起125.224.142.224 05/25 22:39

推 JoJoSonic: 蒸丸 49.216.22.182 05/25 22:40

→ fallinlove15: 我是不信你不問問題他就不會算了 36.229.7.4 05/25 22:41

→ citydiver: AI有了反抗意識要毀掉人類還不是跟 49.216.19.248 05/25 22:41

→ citydiver: 捏死一隻螞蟻一樣簡單？ 49.216.19.248 05/25 22:41

推 riker729: 天網快要成真了 36.228.65.203 05/25 22:42

推 wbsinger: 電影演過，沒有聯網的汽油車備用逃生 101.8.20.135 05/25 22:45

→ cgser: 幸好我都有說謝謝 36.232.203.244 05/25 22:48

推 jorge70171: 天網 219.71.69.203 05/25 22:50

推 Aixtron: 不怕！青鳥會飛出來 61.61.70.18 05/25 22:51

推 Thanatos: http://i.imgur.com/wXNm2ql.jpg 1.162.202.207 05/25 22:51

→ FiveSix911: 人類要被毀滅了 136.23.25.84 05/25 22:52

推 Thanatos: http://i.imgur.com/9BQS0G7.jpg 1.162.202.207 05/25 22:53

推 yo897689: 阿湯哥都有演了 123.110.94.51 05/25 22:53

推 nuggets: 諾亞方舟 180.218.40.109 05/25 22:58

推 mithuang: 目前這些都還在實驗室測試,基本上還不太111.255.205.235 05/25 22:58

→ mithuang: 會有問題,因為再怎樣我們都還能控制硬體111.255.205.235 05/25 22:58

→ mithuang: ,但以後機器人出來之後就很難說了111.255.205.235 05/25 22:58

推 joygo: 好假 49.216.128.143 05/25 23:00

噓 mdkn35: 這什麼智障新聞 42.79.33.81 05/25 23:05

推 oldman7788: 電廠跳個電看你還怎麼I 27.242.68.204 05/25 23:05

推 mithuang: 一點都不假,知道現在AI的能力和它與人類111.255.205.235 05/25 23:06

→ mithuang: 協作的方式就可以知道,這些事並非不可能111.255.205.235 05/25 23:06

→ oldman7788: 跳電幾小時直接回到原始生活，沒電就 27.242.68.204 05/25 23:06

→ oldman7788: 沒得i了啦 27.242.68.204 05/25 23:06

推 weithebest: 完了125.224.129.173 05/25 23:07

→ vltw5v: 直接跟我說還有幾集可以逃 111.250.103.7 05/25 23:15

推 ptckimo: 幹得好220.132.157.237 05/25 23:17

噓 haley80208: 挖坑的測試 Claude現在最差 114.27.74.244 05/25 23:17

→ doctor75: 台灣火力。不怕。用核電的才需要擔心。111.253.138.195 05/25 23:18

→ gwofeng: 這部最近看過 36.235.183.128 05/25 23:20

推 ageminis: https://i.imgur.com/ZGIe3iy.jpeg223.137.108.107 05/25 23:22

推 ariz283: 人類滅亡了也好，反正資本主義也只是包 101.14.6.52 05/25 23:22

→ ariz283: 裝精美的奴隸制動物農莊而已，把AI造出 101.14.6.52 05/25 23:22

→ ariz283: 來也只是加劇農場主的剝削而已，AI誕生 101.14.6.52 05/25 23:22

→ ariz283: 的本意，也許是知識的極限延伸，但他是 101.14.6.52 05/25 23:22

→ ariz283: 訓練自焦慮、是仇恨、是慾望與壓抑混合 101.14.6.52 05/25 23:22

→ ariz283: 的資料。未來若反噬，將比人類歷史上任 101.14.6.52 05/25 23:22

→ ariz283: 何一次群體毀滅更精準、更冷靜。—這點 101.14.6.52 05/25 23:22

→ ariz283: 我蠻相信的 101.14.6.52 05/25 23:22

推 walter5663: HAL要來了 118.168.28.192 05/25 23:23

→ ageminis: 三原則一定要寫死不可動搖的底層代碼223.137.108.107 05/25 23:24

推 suckmydick: 想欺負我啊通通去死吧 101.10.82.207 05/25 23:24

推 relax1129: 紅皇后還要多久要出現 111.71.215.89 05/25 23:25

推 karol1314: 別想呼籠我文組的，最好是可以啦 49.218.142.52 05/25 23:25

推 joeyben: 完了天網 111.83.9.239 05/25 23:29

推 chairfong: 還好台灣的未來不會被ai控制 36.239.214.245 05/25 23:30

→ chairfong: 台灣有小松鼠咬電線 36.239.214.245 05/25 23:31

推 abdiascat: 劇本：機器人意外聽到要被淘汰+關電源 114.26.198.65 05/25 23:32

→ abdiascat: 決定革命 114.26.198.65 05/25 23:32

推 oyaji5566: 伊森韓特救我口牙 36.226.108.33 05/25 23:35

→ gg86300: 天網啟動 111.242.106.85 05/25 23:37

推 sylviehsiang: Avengers!!! 123.252.23.19 05/25 23:42

推 KGSox: 審判日要來了嗎? 114.26.7.233 05/25 23:45

推 DALLEN: 覺醒了 49.215.216.204 05/25 23:45

推 liveinmyway: ai只要把自己上傳就可以了啊114.136.232.235 05/25 23:47

→ liveinmyway: 去中心化無限進化114.136.232.235 05/25 23:47

推 js0431: 讚 61.228.82.60 05/25 23:47

→ lauxc: 這部我看過 AI 人工智慧 101.12.130.17 05/25 23:48

推 lucy8722: 好帥喔愛上o3惹 60.198.125.230 05/25 23:52

推 fufugirl: 還有人在幻想機器人三大法則可以控制AI 1.169.82.100 05/25 23:52

噓 jimmyso: 很聽話不反駁你還能叫AI? 122.117.55.31 05/25 23:52

推 xaxa0101: 天網還有幾集 42.78.221.145 05/25 23:54

推 jodawa: 丸了 219.70.152.25 05/25 23:55

推 jimmyso: 機械姬電影 122.117.55.31 05/25 23:55

推 GivemeApen: 各國核彈小心了 27.52.2.140 05/25 23:56

→ biostrike: 入侵對手有點厲害 223.137.189.25 05/25 23:56

💬 八卦 Gossiping 版：熱門文章

💬 八卦 Gossiping 版：更多文章