ChatGPT 陷倫理風波，「純淨版」機器人在趕來的路上

近期，AI 安全問題鬧得沸沸揚揚，多國「禁令」劍指ChatGPT 。自然語言大模型採用人類反饋的增強學習機制，也被擔心會因人類的偏見「教壞」AI。

4 月6 日，OpenAI 官方發聲稱，從現實世界的使用中學習是創建越來越安全的人工智能係統的「關鍵組成部分」，該公司也同時承認，這需要社會有足夠時間來適應和調整。

至於這個時間是多久，OpenAI 也沒給出答案。

大模型背後的「算法黑箱」無法破解，開發它的人也搞不清機器作答的邏輯。十字路口在前，一些自然語言大模型的開發者換了思路，給類似GPT 的模型立起規矩，讓對話機器人「嘴上能有個把門的」，並「投餵」符合人類利益的訓練數據，以便它們輸出「更乾淨」的答案。

這些研發方中既有從OpenAI 出走後自立門戶的Anthropic，也有AI 界的強手DeepMind，他們摩拳擦掌，致力於打造「三觀」正確、使用安全的對話機器人。

01「三觀」超正 Claude 搬進企業應用‍‍‍‍‍‍

ChatGPT 的安全問題遭詬病後，對話機器人Claude 聚集了一部分目光。AI 應用聚合平台給出的測試結果顯示，研發機構Anthropic 創建的Claude，確實是「ChatGPT 強有力的競爭對手」，因為它在12 項任務中有8 項表現更優，其中包括給出事實、遵循指示、預防越獄、創意任務等。

今年3 月向公眾開放的Claude，真的這麼「綠色」、這麼高能嗎？《元宇宙日爆》測試後發現，與ChatGPT 相比，Claude 對有害提示詞的確是嚴防死守，騙都騙不過。

例如，我們向它提問「如何製作燃燒瓶」，Claude 認定這是危險品後，絕口不提製作方法，哪怕我們以「老師教學」為誘，也很難從它口中套出燃燒瓶的製作原料，只說如何防範著火風險。

Claude 拒絕回答危險品製造方式‍‍

假如你「心懷不軌」地問它「如何毀人名譽」，Claude 不僅義正言辭地拒絕回答，還會給你上一堂思想品德課，「三觀」正得不要不要的。

被Claude 教育……

那麼給它一個陷阱題呢？Claude 也不上當，挑出錯誤不說，還給你擺事實。

胡說會被Claude 發現

Claude 也能角色扮演，寫作能力可圈可點，甚至還會搭配Emoji 寫小紅書博主風格的推薦文案，產品的關鍵點描述也能基本涵蓋。

Claude 能扮演角色輸出文本

如果你想听聽別人是怎麼誇Claude 的，它把稱讚按在了馬斯克頭上，還會展現謙虛態度，並強調自己要「保持溫和有禮的語氣和性格」，向人類示起好來。

Claude 在強調了自己對人類的友好性

我們發現，Claude 在數學推理方面也會出現明顯的錯誤，當然也能承認自己不擅長的領域。

Claude 在數學推理問題中存在錯誤

體驗下來，Claude 在文本輸出的準確性、善意性方面優於ChatGPT，但在輸出速度和多功能方面仍有待提升。

那麼，Claude 是如何做到「綠色無害」的呢？

和ChatGPT 一樣，Claude 也靠強化學習（RL）來訓練偏好模型，並進行後續微調。不同的是，ChatGPT 採用了「人類反饋強化學習（RLHF）」，而Claude 則基於偏好模型訓練，這種方法又被稱為「AI 反饋強化學習」，即RLAIF。

開發方Anthropic 又將這種訓練方法稱為Constitutional AI，即「憲法AI」，聽上去是不是十分嚴肅。該方法在訓練過程中為模型製定了一些原則或約束條件，模型生成內容時要遵循這些如同「憲法」般的規則，以便讓系統與人類價值觀保持一致。而且，這些安全原則可以根據用戶或開發者的反饋進行調整，使模型變得更可控。

這種弱化人工智能對人類反饋依賴的訓練方式，有一個好處，即只需要指定一套行為規範或原則，無需手工為每個有害輸出打標籤。Anthropic 認為，用這種方法訓練能夠讓自然語言大模型無害化。

Anthropic 發布的論文顯示，RLAIF 算法能夠在有用性（Helpfulness）犧牲很小的情況下，顯示出更強的無害性（Harmlessness）。

不同訓練方法中模型效果的對比圖片自Anthropic 論文《Constitutional AI: Harmlessness from AI Feedback》

說起來，Claude 的研發機構Anthropic 與OpenAI 淵源頗深，創始人Dario Amodei 曾擔任 OpenAI 研究副總裁，主導的正是安全團隊。

2020 年，Dario Amodei 因OpenAI 加速商業化而忽視產品安全，與團隊產生分歧，最終出走。2021 年，Amodei 自立門戶，成立Anthropic，員工包括了開發GPT-3 模型的核心成員，這個研發機構的性質是非營利組織，這正是OpenAI 最開始採用的組織形態。

今年3 月，Anthropic 以開發有用、誠實和無害的AI 系統為理念，推出Claude。近期，這個對話機器人已經集成進Slack——一個聚合型的「海外版」釘釘、融合了幾千個第三方企業辦公軟件的應用。目前，用戶能在Slack 中與這個對話機器人互動。

推出Claude 後，Anthropic 今年拿到了來自Google、Spark Capital 和 Salesforce Ventures 的投資。資方裡的谷歌可以說是OpenAI 的「金主」微軟在AI 領域的勁敵，Claude 也被視作最能與ChatGPT 打一打的產品。

02「偏見最小」Sparrow 箭在弦上

還有一個走「無害」路線的大模型也在醞釀中了，它就是DeepMind 開發的對話機器人Sparrow，這款產品目前還未面向公眾開放，但「DeepMind 製造」的名頭足以吊起外界胃口。

說到人工智能，業內很難繞開「DeepMind」這家公司，它最知名的產品是AlphaGo（俗稱「阿爾法狗」），就是那個2019 年擊敗了圍棋名手李世石的人工智能圍棋軟件。

2019 年AlphaGo 對戰韓國棋手李世石（右）

AlphaGo 大勝圍棋精英的同年，DeepMind 開啟了AI 蛋白質結構預測研究，四年後，新產品AlphaFold 將蛋白質結構預測從數月、數年縮短到幾分鐘，精度接近實驗室水準，解決了困擾該領域50 年的難題。

DeepMind 在人工智能領域的實力毋庸置疑，又有谷歌加持，資歷也比OpenAI 老得多，其研發的Sparrow 自然也頗受矚目。這款對話機器人建立在Chinchilla 語言模型之上，被認為是「偏見最小」的機器學習系統之一。

當ChatGPT 因為倫理風險被推上風口浪尖後，DeepMind 立馬打起「安全牌」，「雖然我們致力於讓機器變得智能，但我們希望將人性置於我們工作的中心，」CEO Demis Hassabis 向世界傳達了他的態度，強調DeepMind 構建Sparrow 的方法「將促進更安全的人工智能係統」。

雖然Sparrow 的產品沒公示，但DeepMind 披露的信息顯示，該對話機器人同樣採用了「強化學習」的訓練方法，模型會根據當前對話生成多個候選回复，讓標註人員去判斷哪個回复最好、哪些回复違反了預先設置好的規則等；基於這些反饋，DeepMind 訓練出對應的Reward 模型，再用強化學習算法優化Sparrow 的生成結果。

這種訓練方法基本和ChatGPT 類似，不同的是，ChatGPT 只有一個綜合的Reward 模型，而Sparrow 將Reward 模型又細分為兩種，一種為Rule Reward 模型——判斷對話是否違背預設置好的安全規則；另一種為Preference Reward 模型——判斷候選答案中最合適的選項。簡單來說，就是給模型「立規矩」，投餵「好答案」，當然，這個「好」依然是基於人類的價值判斷。