2022 年8 月,在美國科羅拉多州博覽會藝術比賽上,一幅名為《太空歌劇院》的作品奪得了數字藝術類別冠軍。這幅作品由遊戲設計師Jason Allen 使用AI 繪圖工具Midjourney 完成,古典與科幻的巧妙融合讓人很難相信這是由AI 自動生成的圖像,此前一直處於不溫不火狀態的Midjourney 就這樣迅速走進了大眾視野。
隨後,在以ChatGPT 為代表的聊天機器人攪得科技圈滿城風雨之時,Midjourney 作為AIGC 的重要分支,也完全沒閒著,它最新迭代的V5 版本,就是一次堪稱「碾壓人類畫師」的更新。
今年3 月,由Midjourney 生成的一對中國情侶的照片再次火爆全球。照片裡的情侶穿著夾克和牛仔褲,身後是上個世紀的中國建築,整張照片瀰漫著屬於90 年代的複古氛圍,其以假亂真的程度讓人大吃一驚,生成式AI 圖像工具竟然已經進化到這種程度了嗎?

還有更多神圖在網上引起軒然大波:特朗普被捕、國足奪冠、馬斯克進工廠……只要你敢想,AI 就敢畫。對比幾年前的AI 繪圖效果,Midjourney 的生成效果依然達到商業化水平,當Midjourney 日趨代替人工製作的時候,它的商業價值就愈發不容小覷。
生成式AI 圖像龍頭
過去幾年裡,機器學習系統從文本提示生成圖像的能力,在質量、準確性和表達能力方面都得到了顯著提高。這些畫作在互聯網上流傳,給人們帶來了一種新奇感,越來越多具有前衛品味的藝術家和設計師也正在把這些軟件集成到工作流程中。
可以說文生圖賽道是AIGC 概念下商業模式較成熟的領域,這些AI 生成工具可以在幾分鐘內使用用戶提供的文本描述創建圖像,並且人工智能可以生成不同藝術形式的圖像,從超寫實到立體主義,AI 都熟稔於心。
而Midjourney 是其中最具競爭力的選手,是將AIGC 技術成功產品化的代表。創始人David Holz 在描述Midjourney 時說:「我們只是希望它易於使用,我們希望圖片足夠好看。」與Dall-E 2 或其他競爭對手不同,Midjourney 使用簡單的命令,不需要編碼經驗就可以生成更具夢幻藝術風格的圖像。

Midjourney 沒有任何巨頭的重金支持,是一個自籌資金的獨立研究實驗室,它的發起人為曾兩次拒絕蘋果收購的Leap Motion 公司的創始人David Holz,目前全職員工僅有11 人。就是這麼一個超小型團隊,卻是當前AI 繪圖領域最炙手可熱的明星,甚至將OpenAI 的DALL-E、Stable Diffusion 等同類工具都甩在了身後。
Midjourney 在AI 公司Value Chain 上佔據了多個位置,擁有數據層、模型層、應用層整個技術棧。它參考CLIP 及Diffusion 構建了自己的閉源模型,抓取公開數據進行訓練,並構建了Discord 中的Midjourney bot 應用,用戶通過與Midjourney bot 進行對話式交互,提交文本提示詞來快速獲得想要的圖片。
2022 年7 月,Midjourney 開放Openbeta 版本;2022 年8 月,使用Midjourney 創作的畫作Théâtre D’opéra Spatial(太空歌劇院)獲得了美術競賽數字藝術類別的一等獎,人們對於Midjourney 的關注達到高峰。
雖然文生圖領域應用層出不窮,但Midjourney 保持住了在人們心目中的地位,目前仍是使用最廣泛、最受用戶喜愛的文生圖應用。Midjourney 用戶數量飛速增長,並具有很強的盈利能力。截止2023 年3 月,Midjourney Discord 頻道擁有了超1300 萬社區成員,是目前用戶最多的服務器,年營收約為1 億美元。
Midjourney 創始人堅持AI 不是現實世界的複刻,而是人類想像力的延伸,塑造了充滿科幻色彩的產品定位。然而並不是所有人都能輕易認可AI 生成藝術,自Midjourney 面世以來,這款AI 繪畫工具幾度因為藝術深度偽造問題被推上輿論的風口浪尖,更有甚者認為其生成的圖片紕漏百出。
Midjourney 並沒有否認以上觀點,它一直相信AI 工具是想像力的發動機,「人類和計算機之間存在的某些障礙阻止了我們進行最基本的交換。」Midjourney 想要加強人類與計算機的連接,將「探索思想的新載體,擴展人類想像力」作為目標,為未來藝術創作開拓史無前例的康莊大道。

為了實現這個目標,該公司一直致力於改進算法,每隔幾個月就會發布新版本的模型。Midjourney 的迭代速度相較於OpenAI 可以說是有過之而無不及。去年3 月份第一版本首次上線,4 月份便火速更新第二版本,接著7 月份上線Open Beta V3 版本首次向公眾開放,Midjourney V4 版本去年年底幾乎跟ChatGPT 同期上線,而就在GPT-4 推出的時候,Midjourney 也在3 月18 日飛速推出了V5 版本,而這一次的更新堪稱「炸裂」。
逼真到顫抖的飛速迭代
V5 版本的誕生昭示著由Midjourney 創造的平行世界正在慢慢拉開序幕,一些由人類構思、AI 主導的作品也逐漸對數字營銷市場描繪著全新的商業輪廓。那最新升級的V5 和之前的版本相比,到底強在哪裡呢?以下幾個方面的對比或許可以讓我們窺得Midjourney 的升級為何會如此讓人驚艷。
更多的風格,更高的質量
Midjourney V5 可以選擇不同的風格化參數,用戶可以在Prompt 裡添加風格化參數(–Stylize),數值範圍為0-1000,0 更偏向藝術化,1000 更真實,從而得到完全不同風格的圖像。

圖源Discord 官網、華泰研究
同時,V5 生成的圖像具有更高的分辨率,且圖像更真實細膩。默認情況下,Midjourney V5 初始圖像的分辨率為1024×1024,V4 版本為512×512,V5 生成的圖片無論時從光影效果還是人物動作表情,都更加自然,擁有更多豐富的細節,更加接近真實的照片。
密鋪功能實現無縫紋理製作
Midjourney V5 重新引入了曾在V4 中停止使用的無縫平鋪功能。在Promt 中添加參數(–tile),對元素進行重複、旋轉等處理後,可以輕鬆實現織物、壁紙等無縫紋理圖案的製作。

長寬比限制取消
V5 版本解除了V4 版本中的不高於1:2 或不寬於2:1 的自定義縱橫比,可以實現任意「寬度: 長度」比,這意味著你可以利用其生成電影2.39:1 的縱橫比,Midjourney 的應用空間進一步打開。

圖像與文字指令權重可自定義
V5 可以實現自定義Prompt 中的圖像參照權重(–iw),參數範圍為0.5-2.0,數值越高,意味著上傳的圖片越多地影響最終生成的圖像,滿足用戶墊圖更加個性化、多元化的需求,而在前一版本中則是默認圖像權重。

除以上四點,V5 版本可以讓人們通過更精準、細緻的Prompt 輸出更符合要求的圖像。在此前版本,Midjourney 根據文本提示即可輸出具有創造性的圖片,且多為卡通或超現實風格,但V5 版本可以容納真實、抽像等更廣泛風格的選擇,圖像解像度比上個版本提高2 倍。

而讓人意想不到的是它終於解決了此前AI 繪畫行業內無法很好完成的「畫手」問題,告別了手部畸形,Midjourney V5 終於可以畫出正常的五個手指了。除此之外,V5 版本創作的玻璃及其反射的光影也都更加真實。

技術的升級讓Midjourney 真正實現了從圖像到照片的跨越,從搶畫師的飯碗進階為搶攝影師的飯碗。只要能掌握Prompt 的精髓,便可手握科技黑武器,驚喜的是V5 的升級裡就推出了describe 功能。
只需上傳一張圖片,使用describe 功能,Midjourney 便會自動分析圖片並生成4 條對應的Prompt,點擊下方對應的按鈕便可直接生成類似的圖片,當然也可以對這些Prompt 進行調整。這樣一來,獲取更符合自己要求的Prompt 就更容易。

從圖像反推Prompt,Midjourney 通過自行閉環推動人類不斷去擁抱這項偉大的技術,大量用戶的湧入也讓Midjourney 官方不得不暫停免費使用功能。
可以看到,Midjourney 的發展用飛速來形容也毫不為過,英偉達AI 科學家Jim Fan 曾猜測,Midjourney 是根據人類反饋RLHF 進行大規模的強化學習,並且這可能是有史以來規模最大的文本到圖像強化學習,用戶反饋越多,它的學習效果就越好。
歷史上每一次具有革命意義的技術更新,都將會迎來最終大範圍落地應用的曙光。在AI 科技飛飚的高速公路上,我們將會一直觀望這家圖片AI 龍頭如何秀出精彩車技,又將駛向何方。
將來的路會怎麼走?
動一動手指頭,打幾個關鍵字,Midjourney 的繪圖到了張張「封神」的程度,這無處安放的硬實力和軟魅力,追根究底,無疑歸功於其底層模型技術的更新迭代和發展進步。
2015 年,谷歌開源創建了首個通過算法生成藝術圖像的機器學習應用DeepDream,使AI 文生圖應用開始走進大眾的視野。而後的2021 年至今, 文生圖應用出現了突破性的進展,生成的圖像質量得到了迅速提高。從初級的氛圍感草圖到可以刻畫細節、生成精緻五官的精緻藝術圖,從以生成性對抗網絡GAN 轉變至以Diffusion 模型為核心,這其中經歷了無數次的技術變革。
Midjourney 在參考CLIP 及Diffusion 的基礎上構建了自己的閉源模型,抓取公開數據進行訓練,並構建了Discord 中的Midjourney bot 應用。不僅如此,它還在收集用戶反饋數據的基礎上,不斷迭代模型,以提供更好的體驗。2023 年3 月,在經歷多次更新後的Midjourney V5 版本閃亮登場,解決了一些技術難題和完成了跨越性的突破。

如今,Midjourney 替代了Pinterest、Google Images、Getty Images 等傳統圖庫平台,用戶不再需要花費更多的時間,而是直接生成,甚至可以將一個月的工作量降低至一星期就可以完成。這對於用戶而言,無疑是提高工作效率的加速器。
雖然Midjourney 目前已經在AIGC 領域是佼佼者的存在,但是它從未想過就止步於此。Discord 每週都會有它的公開會議,通過對其會議的相關內容的總結,關於它未來的幾個發展方向,可以簡單概括為以下幾個方面:
- 更高的圖片質量和更極致的圖片庫功能:圖片修改編輯、圖片擴展功能及在V6 算法中的更高分辨率;
- V7/V8 版本中,支持在圖片中寫文字;
- 告別Discord,提供移動端的服務,可能有自己的APP,或將功能遷移到網站;
- 實現實時繪圖功能;
- 發布API 用於工具的構建。
Midjourney 作為功能單一的應用,未來是否會被集成變成多功能產品的一個環節,或是被技術的快速進步顛覆,目前我們還無法看清行業的終局,但Midjourney 作為當前AI 圖片生成的龍頭,觀其用戶口碑和產品技術的迭代速度,都讓人無比期待它的未來發展。
元宇宙的「夢幻編輯器」
伴隨著數據、算法等核心技術的不斷更新與突破,AIGC 正在推動虛實共生趨勢下的內容創作的範式轉變,有望成為數字內容創新發展的新引擎。
按照AIGC 的發展邏輯,其應用場景主要分為三個階段:一是AIGC 內容生產技術不斷完善,能夠實現文本、視頻、圖片等生成以及跨模態轉換;二是具有多模態生成技術的聚合應用——虛擬人;三是AIGC 內容生態聚合體——元宇宙。
元宇宙是一個虛擬的世界,它由數字資產、虛擬現實和區塊鍊等技術構成,可以用來實現各種場景和應用,例如虛擬交易、虛擬社交、虛擬旅遊等。一個公認的事實是內容生產上的不足已成為製約元宇宙相關產業發展的重要瓶頸,而AIGC 在生成效率方面的優勢,讓其有望成為元宇宙建設的最佳生產力工具之一。
在提高內容生產效率的同時,華泰證券也指出:「AIGC 也有助於生成開放內容,滿足用戶個性化、開放性的需求,持續提升元宇宙的內容豐富度。」以Midjourney 等為代表的的AI 生成工具或可以成為元宇宙的夢幻編輯器。
長期來看,AIGC 與各行業的融合將會創造更多的應用場景,而Midjourney 作為文生圖領域的重要參與者,有很多人已經在嘗試將將其應用於自己的工作中,主要包括創意設計、工業設計、室內家居設計、廣告設計、Web3 & NFT 等。可以預見的是,人工智能增強下的創造力湧現只是AI 商業化應用的一個開端。

隨著AI 技術的快速發展,各種工具的出現讓AI 的應用範圍也會指數級的擴大。目前,在設計、電商、廣告、遊戲、影視等各個領域都湧現出了更多的用例,包括在元宇宙建設中的潛在應用,也將涉及到方方面面。因此,在娛樂性、實用性大大增強的同時,AIGC 全新的賽道也在被逐漸打開,接下來就敬請拭目以待。
元宇宙方興未艾,AIGC 接踵而至,我們有理由相信,這兩大科技賽道的交匯,將會為元宇宙注入更多的生機與色彩。