產品「擺拍」展示，文心一言露怯

3 月16 日，「文心一言」沒有在問答環節「翻車」，因為，百度創始人李彥宏在開發會現場展示的這個自然語言大模型產品，測試的過程和結果是提前錄製好的。

「擺拍」的測試Demo 裡，文心一言能用中文回答問題，能續寫《三體》，能理解「洛陽紙貴」，能計算「雞兔同籠」的數學問題並給出推算過程，還能生成圖片、語音甚至視頻。看上去挺強大，但也僅限於看上去，遠沒有更早一天OpenAI 直接演示GPT-4 模型時帶來的全網驚艷。

展示看似穩妥，但沒保住股價。李彥宏登台後，港股百度集團股價從130 港元開跌，22 分鐘後跌幅超9% 至120 港元，發布會結束後，百度股價也沒能回到130 港元。

整場發布會，文心一言沒有真實互動、沒有技術數據細節、沒有與其他大模型的對比，李彥宏與百度CEO 王海峰一人一套PPT，公眾一個多月的期待落空。當下，王海峰宣布，「邀測開啟」，需要邀請碼。

這意味著，普羅大眾還無法體驗文心一言。而那邊廂，GPT-4 已經被嵌入到ChatGPT 和搜索引擎Bing，讓AI 技術直抵普通人。

相較而言，百度對文心一言更有信心的領域似乎在產業，李彥宏和王海峰都強調了自然語言大模型對「千行萬業」的影響，這也是它與ChatGPT 的區別之一，後者的「現象級」、「殺手級」評價純來源於用戶「自來水」。

問答演示系提前錄製股價應聲大跌

李彥宏一上台就給「文心一言」定了一個調——這個基於文心大模型底層的產品在公眾的期待中，對標的是ChatGPT 甚至GPT-4，「門檻很高。」

他話鋒一轉，巧妙地避開了百度與OpenAI 的比較，而是把對比放在了全球大廠的範疇裡，「百度是第一個發布的，大家知道微軟是直接調用OpenAI，谷歌、Meta、英偉達都沒有真正發布同類型的、同級別的產品。」這句話沒說完，李彥宏清了下嗓子，一如他在過往發布會上一樣，略顯緊張。

後來的15 分鐘裡，李彥宏用Demo 展示了文心一言的五大能力：文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。對應每個能力，他以文字的形式輸入了不同的、有上下文聯繫的需求。

比如，展現文學創作能力時，他讓文心一言總結《三體》核心內容後，提出從哲學的角度續寫《三體》的要求；展現商業文案創作時，他讓文心一言按企業業務給公司起名、生成Slogan、寫公司成立的新聞稿；在展示梳理邏輯推算時，李彥宏用小學生們躲不開的「雞兔同籠」數學題為例，甚至故意輸錯了題幹，文心一言指出有錯後，在修改的題乾後給出了正確答案和解題過程。

此時，發布會直播剛好進入到第21 分鐘，面向全網，李彥宏突然解釋了一句：演示不是現場進行的，而是提前錄下來的，「因為需要輸入很多詞，為了節省時間。」

此話一出，全網嘩然，「原來是擺拍的。」2 分鐘後，港股百度集團股價直接下挫至120 港元，較發布會14 點開始時的130 港元跌超9%。

百度港股股價在發布會期間大跌

「擺拍」的測試Demo 繼續演示了文心一言的「強大」：解答「洛陽紙貴」在當時到底有多貴，能拿這個成語作一首藏頭詩，根植於中國的百度能拿出比其他自然語言大模型競品更好的中文理解能力；它也能在輸入文字需求後生成海報（圖片）、語音（可以是方言）甚至視頻，即多模態生成能力。

然而，「提前錄製」這個轉折讓文心一言後續的展示效果變弱了。

一天前，OpenAI 的聯合創始人Greg Brockman 直播演示GPT-4 的多模態能力時，沒有PPT，沒有酷炫的開場廣告，將一張手繪的「玩笑網站」模版草圖拍照上傳至新模型後，10 秒生成了網站。這場展示不到半小時，但Brockman 全程與社群平台Discord 上的用戶保持互動，還隨機選擇了用戶的需求測試GPT-4。

誰對自己的產品更自信，一目了然。

中文能力顯本土優勢跨語言「還在學習」

如果拋卻信心不談，那麼，文心一言對標ChatGPT 或GPT-4 到底能否勝出？

在數據或技術細節上，無論是李彥宏還是後來上台解釋文心一言技術背景的CTO 王海峰，都沒有在發布會現場給出具體的對比，僅提到了「5500 億」這個事實量指標，而GPT-4 並沒有對外披露知識數。

普通人或許無法在數據對比中得出結論。但作為中文用戶，我們將李彥宏給文心一言輸入的中文需求甩給了植入GPT-4 模型的ChatGPT，這個「外國AI」也可以理解，但很容易給出錯誤答案。

比如，做雞兔同籠數學題了錯不說，題幹錯誤也未能指出；將成語「洛陽紙貴」解釋成「高分考卷在洛陽被大量複製、傳閱」，「表示名貴、珍重、有價值」，屬於沒讀過《晉書·左思傳》裡的《三都賦》典故，不知這個成語原意是比喻「著作風行」之意了。

ChatGPT 似乎在從字面上理解中國成語

有趣的是，ChatGPT 又回答出「洛陽紙貴」在現代經濟學原理中代表「供求關係」的引申義。當它用這個成語作藏頭詩時，前面三個字都藏頭入詩了，但「貴」寫成了「綺」，沒能對這個中文字正確識別。

正如李彥宏所說，文心一言根植於中國，一定比其他國家的自然語言大模型更理解中文和中國文化。而對於跨語言，文心一言還在學習，「英文也能用，但肯定沒有中文好。」

GPT-4 適應的「母語」顯然是英語，但為了初步測試該模型在其他語言上的能力，OpenAI 的研究團隊曾使用Azure Translate 將MMLU 基準（一套涵蓋57 個主題的14000 個多項選擇題）翻譯成多種語言時，GPT-4 的英語精度(85.5%) 較GPT-3.5 的精度(70.1%) 更高，而跨語言精度放在普通話（Mandarin）上，GPT-4 能達到80.1%，高於日語和韓語等亞洲國家的語言。

作為中國本土化的ChatGPT，中文能力好當然是應盡之責。對用戶和客戶來說，這也是最明顯的利好，語言門檻低了，申請、使用相應地都會帶來便捷。但放在全球競爭中，這個優勢最多能體現在使用中文的國家和地區中，而OpenAI 將輻射英文使用區。

在多模態生成上，文心一言的Demo 展示了輸出圖片、語音、視頻的能力;GPT-4 也披露將具備圖片、視頻的輸出能力，但目前無法在ChatGPT 上向更廣泛的公眾展現，而它對網絡「梗圖」的理解力曾讓網友驚嘆，當然，最驚訝的還是它用草圖框架生成代碼的能力。

寫代碼這一涉及多模態的能力，文心一言並沒有在發布會中展示。但已經拿到測試資格的媒體《量子位》成員在晚間的直播中測試了文心一言寫代碼能力，給出的評價是「一般般」，「Python 語言還可以，其他語言就不太行了。」他還測試了文心一言是否具有GPT-4 的角色扮演能力，結論是「沒辦法」。