被高估的Pika,被低估的多模態(tài)AI

AI資訊1年前發(fā)布 AI工具箱
21 00

多模態(tài) AI 正處于爆發(fā)前夜。

從 GPT-4V 的“驚艷亮相”,到 AI 視頻生成工具 Pika1.0的“火爆出圈”,再到谷歌 Gemini 的“全面領(lǐng)先”,多模態(tài) AI 都是其中的關(guān)鍵詞。

盡管 Pika1.0的宣傳視頻被一些用戶認(rèn)為是“炒作”,亦或谷歌承認(rèn) Gemini 的演示視頻“經(jīng)過(guò)剪輯”,但不能否認(rèn),它們豐富了人們對(duì)多模態(tài) AI 的想象力。

“之前很多公司都在卷文本大模型,GPT-4V 的出現(xiàn)代表多模態(tài)大模型可落地,毫無(wú)疑問(wèn)明年大家都會(huì)卷多模態(tài)AI,原因很簡(jiǎn)單,因?yàn)?OpenAI 說(shuō)明這條路是能夠走得通。”微博新技術(shù)研發(fā)負(fù)責(zé)人、AI 首席科學(xué)家張俊林說(shuō)。

在行業(yè)主語(yǔ)為“落地”的當(dāng)下,多模態(tài) AI 正走向場(chǎng)景化、實(shí)用化、商業(yè)化。例如,在醫(yī)療領(lǐng)域可以通過(guò)結(jié)合圖像、錄音和病歷文本,提供更準(zhǔn)確的診斷和治療方案;在交通領(lǐng)域,結(jié)合圖像和傳感器數(shù)據(jù),帶來(lái)更智能、更安全的自動(dòng)駕駛體驗(yàn);在教育領(lǐng)域,將文本、聲音、視頻相結(jié)合,呈現(xiàn)更具互動(dòng)性的教育內(nèi)容。

但是業(yè)界一直在提多模態(tài)的概念,但是遠(yuǎn)沒(méi)有近期幾個(gè)現(xiàn)象級(jí)產(chǎn)品的演示那么直觀:多模態(tài)不僅可以為 AI 應(yīng)用帶來(lái)更多可能性,還是實(shí)現(xiàn)通用人工智能的重要路徑。

1.Pika:實(shí)力還是炒作?

最近的 AI 圈的飯局上,大家聊到多模態(tài) AI ,往往都會(huì)提到一家硅谷的初創(chuàng)公司—— Pika Labs。

公司初創(chuàng)團(tuán)隊(duì)只有4個(gè)人,創(chuàng)始人兼 CEO 郭文景有“女學(xué)霸”“斯坦福退學(xué)創(chuàng)業(yè)”“上市公司創(chuàng)始人女兒”等個(gè)人標(biāo)簽; Pika 三輪融資已籌款5500萬(wàn)美元,估值在2-3億美元之間;投資者包括 Quora 創(chuàng)始人兼CEO Adam D’angelo 、 OpenAI 科學(xué)家 Andrej Karpathy、Hugging Face 聯(lián)合創(chuàng)始人兼CEO Clem Delangue、YC 合伙人 Daniel Gross 等人。

這些都加起來(lái),可以說(shuō) Pika 的爆火是在發(fā)展過(guò)程中,講了一個(gè)技術(shù)、商業(yè)、資本、用戶都感興趣的故事,而且趕上了一個(gè)好的時(shí)機(jī)。

“今年6月份之后,AI生成圖片的投資變得比較保守,很多投資人會(huì)更關(guān)注 AI 生成視頻。”從事 AI 生成視頻研究的浦林(化名)告訴「甲子光年」,自有 AIGC 概念開(kāi)始,無(wú)論是 AI 生成圖片還是 AI 生成視頻都很熱,但是基于技術(shù)的發(fā)展程度,業(yè)內(nèi)預(yù)計(jì)今年年底,AI 生成視頻會(huì)有一個(gè)不錯(cuò)的 demo 出現(xiàn)?!斑@個(gè) demo 足夠吸引很多的流量,甚至出圈,有這樣的信心,那投資的邏輯就能走下去了。可以說(shuō), Pika 占到一個(gè)很好的時(shí)間點(diǎn)?!?/p>

Pika1.0推出的當(dāng)天,科技圈大佬們紛紛為其站臺(tái)。

自然語(yǔ)言處理領(lǐng)域著名學(xué)者 Christopher Manning 稱贊 Pika 的兩位創(chuàng)始人郭文景和孟晨琳推動(dòng)了高質(zhì)量視頻的快速發(fā)展;OpenAI 科學(xué)家 Andrej Karpathy 在社交平臺(tái)上轉(zhuǎn)發(fā)了 Pika1.0的演示內(nèi)容并表示:“每個(gè)人都能成為多模態(tài)夢(mèng)想的導(dǎo)演,就像《盜夢(mèng)空間》中的建筑師一樣?!?/p>

Pika1.0火爆出圈,離不開(kāi)一段官方宣傳視頻。視頻中,用戶只要輸入“馬斯克穿著太空服,3D 動(dòng)畫”,就生成了下面這段視頻。

被高估的Pika,被低估的多模態(tài)AI

Pika1.0官方宣傳視頻中其它演示也可以用“驚艷”來(lái)形容,視頻發(fā)布后,已經(jīng)有媒體迫不及待地稱“AI 生成視頻的 ChatGPT 時(shí)刻即將達(dá)來(lái)”。

但是,Pika 真的如宣傳視頻上所展現(xiàn)的那么“驚艷”嗎?

今年7月,Pika Labs 就在 Discord 推出服務(wù)器,短短幾個(gè)月時(shí)間內(nèi)收獲了50萬(wàn)用戶。不過(guò),想使用最新的 Pika1.0,在官網(wǎng)可能還需一段時(shí)間的排隊(duì)。但在 Discord 上,許多用戶已經(jīng)曬出了測(cè)試視頻。

目前,Pika1.0還只能生成3秒展示視頻。在社群中,用戶 A 輸入提示詞: A dragon fly in sky(一條龍?jiān)谔焐巷w)。這個(gè)表達(dá)是比較清晰明確的,但輸出的視頻結(jié)果卻和龍毫不相關(guān),更像一個(gè)克蘇魯生物。

被高估的Pika,被低估的多模態(tài)AI

而用戶 B 輸入了更為細(xì)致的提示詞:female priest – dnd character – in battle pose – character select default animation – camera zoom in – motion1(女性牧師 – 龍與地下城角色 – 戰(zhàn)斗姿勢(shì) – 角色選擇默認(rèn)動(dòng)畫 – 攝像頭放大 – 動(dòng)作1)。

這次 Pika1.0輸出的視頻結(jié)果大體相符要求,但細(xì)節(jié)依然有明顯缺陷,角色的手部構(gòu)圖“慘不忍睹”。不過(guò),“AI 不會(huì)數(shù)數(shù)”是存在已久的問(wèn)題,并非 Pika 獨(dú)有的“瑕疵”。

被高估的Pika,被低估的多模態(tài)AI

但也不乏效果驚艷的案例,比如用戶 C 提供了圖片并輸入提示詞:stranded medieval ship, violent sea, rain, clifs, slow motion, -motion2-gs22-camera pan right Image:1Attachment(擱淺的中世紀(jì)船只、洶涌的海浪、雨水、懸崖、慢動(dòng)作、動(dòng)作2、gs22-攝像機(jī)向右平移、圖像:附件1),生成的視頻效果較為精美。

被高估的Pika,被低估的多模態(tài)AI

AI 教育者 Chase Lean 在試用了 Pika1.0后難掩激動(dòng)之情,他在社交媒體上直言這是他“使用過(guò)的最好的 AI 視頻生成器”。

浦林一直在關(guān)注Pika及相關(guān)產(chǎn)品,從demo和實(shí)際使用感受來(lái)說(shuō),Pika1.0已經(jīng)屬于“行業(yè)領(lǐng)先水平”。

對(duì)于AI生成視頻工具,最為簡(jiǎn)單的評(píng)判標(biāo)準(zhǔn)就是“生成的內(nèi)容是否真實(shí)”。在技術(shù)上,Pika 在單幀畫面擬真程度、美學(xué)質(zhì)量以及視頻的動(dòng)作感上表現(xiàn)出色,在文生視頻、圖生視頻的能力和運(yùn)鏡上也有不錯(cuò)的能力展示。除算法外,社區(qū)活躍度也被認(rèn)為是初創(chuàng)公司核心競(jìng)爭(zhēng)力的一部分,包括維護(hù) Discord 社區(qū)等。目前,Pika 的社區(qū)活躍度位列業(yè)內(nèi)前茅。

在圖像和視頻生成方面,業(yè)內(nèi)主流技術(shù)路線為Diffusion Model(擴(kuò)散模型)。不過(guò)Pika聯(lián)合創(chuàng)始人孟晨琳在接受采訪時(shí)透露:“Pika 也不能完全算 Diffusion Model,我們開(kāi)發(fā)了很多新東西,是一種新的模型。”

不過(guò)在浦林看來(lái),Pika 與其它AI生成視頻工具(如 Runway )“在技術(shù)上沒(méi)有本質(zhì)差別”,一些自媒體對(duì) Pika 和 Runway 的對(duì)比分析“純粹是經(jīng)驗(yàn)歸納”。

這也就會(huì)帶來(lái)一個(gè)問(wèn)題,長(zhǎng)期關(guān)注AI領(lǐng)域的投資人辰逸(化名)向「甲子光年」表達(dá)了他的擔(dān)憂:“Diffusion Model 不是智能的。它主要根據(jù)過(guò)去圖像的經(jīng)驗(yàn)擬合出符合人類審美的圖像,并不具備理解語(yǔ)言和智能思考的能力。而當(dāng)我們?cè)谑褂?ChatGPT 時(shí),會(huì)有在和真人對(duì)話的感覺(jué),雖然這個(gè)「人」的智商可能忽高忽低?!?/p>

辰逸認(rèn)為,盡管Pika爆火離不開(kāi)產(chǎn)品實(shí)力,但“炒作”成分更多些。

“就像炒土豆絲,每個(gè)人使用的廚具、調(diào)味料等可能大不相同,但原材料歸根結(jié)底都是土豆。”辰逸比喻道,“理解語(yǔ)言的根本問(wèn)題并沒(méi)有解決,圖像學(xué)還缺少一個(gè)飛躍的時(shí)刻。”

而在回答“AI 視頻生成什么時(shí)候會(huì)迎來(lái) GPT 時(shí)刻”的問(wèn)題時(shí),Pika團(tuán)隊(duì)還是比較清醒的,孟晨琳認(rèn)為,目前視頻生成處于類似 GPT-2的時(shí)期,“很可能在未來(lái)一年內(nèi)有一個(gè)顯著的提升”。

Pika 的能力在某種程度上被高估了,但 Pika 帶來(lái)的破圈效果是從業(yè)者樂(lè)于見(jiàn)到的。浦林五年前就進(jìn)入了 AI 生成視頻領(lǐng)域,最近這半年是他覺(jué)得這個(gè)領(lǐng)域“最火”的一段時(shí)間,盡管他也覺(jué)得 Pika “在宣傳上比較用力”,但是從專業(yè)角度分析,他相信4個(gè)人的團(tuán)隊(duì)做出 Pika 是“沒(méi)問(wèn)題的”。

2.爭(zhēng)奪AI視頻生成高地

從技術(shù)視角來(lái)看,有業(yè)內(nèi)學(xué)者認(rèn)為,相對(duì)于文本、代碼和圖片生成,文生視頻(Text-to-Video)是 AIGC 的“高地”,因?yàn)檫@個(gè)領(lǐng)域存在著算力需求大、高質(zhì)量數(shù)據(jù)集短缺、可控性較差等挑戰(zhàn)。

浦林認(rèn)為,AI視頻生成領(lǐng)域還有一個(gè)難題,即生產(chǎn)和研究之間存在的差距。

研究者往往難在第一時(shí)間將研究成果應(yīng)用于實(shí)際,因?yàn)椴煌囊曨l制作者,比如電影、動(dòng)畫、短劇的制作者,有著不同的制作流程,而研究中可能只涉及一種特定的生產(chǎn)方式,比如文本到視頻。

浦林近期也在產(chǎn)業(yè)中調(diào)研,通過(guò)和電影制片方的交流不斷優(yōu)化自己的研究方向?!敖鉀Q難題的關(guān)鍵在于開(kāi)發(fā)的工具能否真正滿足視頻制作者的需求,并與其實(shí)際工作流程相契合?!逼至指嬖V「甲子光年」,“當(dāng)你的研究越靠近生產(chǎn)的時(shí)候,它會(huì)產(chǎn)生更大的經(jīng)濟(jì)價(jià)值?!?/p>

商湯科技數(shù)字文娛事業(yè)部副總裁李星冶表示,多模態(tài) AI 中門檻比較高的就是文生視頻,“現(xiàn)在一些廣告視頻的制作,只要錄入文本就能生成視頻,當(dāng)然目前效率還沒(méi)有那么高,視頻像素可以達(dá)到4K 或者8K,但是動(dòng)畫效果還比較簡(jiǎn)單。”

AI 視頻生成領(lǐng)域,賽道也愈發(fā)擁擠起來(lái)。盡管 Pika 備受矚目,但接下來(lái)它仍需面對(duì)不斷增多的競(jìng)爭(zhēng)。

Runway 推出了動(dòng)態(tài)筆刷新功能 Motion Brush,用戶只需在圖片上輕輕一劃,即可將其轉(zhuǎn)化為動(dòng)態(tài)視頻。另外,Runway 還與電影制作公司展開(kāi)了緊密合作。

Stability AI公司發(fā)布了其 Stable Video Diffusion 視頻模型,用戶可根據(jù)需要調(diào)整各種參數(shù),如迭代步數(shù)、重繪幅度等,以協(xié)助創(chuàng)作者精確掌控畫面生成過(guò)程,包括風(fēng)格、姿勢(shì)和線條等特征。

除此之外,現(xiàn)象級(jí)文生圖工具 Midjourney 也正在著手開(kāi)發(fā)視頻功能;meta 也推出了兩項(xiàng)基于人工智能的視頻編輯新功能。

而在開(kāi)源方面,AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局 AI 視頻生成賽道。

3.多模態(tài)AI的想象

對(duì)于投資人來(lái)說(shuō),多模態(tài)AI也是今年下半年的關(guān)注焦點(diǎn)。

長(zhǎng)期關(guān)注AI領(lǐng)域投資的心資本合伙人吳炳見(jiàn)認(rèn)為,大語(yǔ)言模型只是AI版圖的一部分,基礎(chǔ)模型的第一性原理是“predict next token(預(yù)測(cè)下一個(gè)詞)”,這個(gè)原理有可能帶來(lái)其它模型。

“如果未來(lái) Transformer或者另外一套算法能夠準(zhǔn)確預(yù)測(cè)下一幀,那么視頻模型就出來(lái),就有機(jī)會(huì)解鎖下一個(gè)抖音級(jí)別的內(nèi)容平臺(tái);如果能準(zhǔn)確預(yù)測(cè)下一串動(dòng)作序列,那么具身智能模型就出來(lái)了,就解鎖通用機(jī)器人了;如果能準(zhǔn)確預(yù)測(cè)下一個(gè)蛋白質(zhì)序列,那么蛋白質(zhì)模型就出來(lái)了,新藥研發(fā)又可以邁進(jìn)一大步了;如果能準(zhǔn)確預(yù)測(cè)下一個(gè)像素,那么3D模型就出來(lái)了,就解鎖元宇宙的構(gòu)建了?!眳潜?jiàn)說(shuō)。

在吳炳見(jiàn)看來(lái),待版圖完全解鎖后,就會(huì)有多個(gè)基礎(chǔ)模型,而很多方向的邊際成本會(huì)趨近于零,不斷解鎖新的應(yīng)用層的機(jī)會(huì)。

國(guó)內(nèi)的 AI 廠商也在加強(qiáng)對(duì)多模態(tài) AI 的投入。昆侖萬(wàn)維在海外進(jìn)行了 AI 多模態(tài)場(chǎng)景探索,其中包括了AI游戲(Club Koala),之前已經(jīng)在德國(guó)科隆游戲展上亮相,預(yù)計(jì)將于明年上半年進(jìn)行測(cè)試?!斑@里不僅包括了常見(jiàn)的對(duì)話,通過(guò)大模型賦能的 AI NPC,也包括3D 生成等 AIGC 技術(shù),尤其是在 AI3D 生成方面,我們做得比較領(lǐng)先。”昆侖萬(wàn)維董事長(zhǎng)兼 CEO 方漢介紹。

「甲子光年」還關(guān)注到一些技術(shù)大佬入局。例如,清華大學(xué)計(jì)算機(jī)系 Bosch AI 教授、清華大學(xué)人工智能研究院副院長(zhǎng)朱軍創(chuàng)立的生數(shù)科技,專注于多模態(tài)層面,致力于打造可控的多模態(tài)通用大模型;前字節(jié)跳動(dòng)前視覺(jué)技術(shù)負(fù)責(zé)人、AI Lab 總監(jiān)王長(zhǎng)虎創(chuàng)立了愛(ài)詩(shī)科技,聚焦于生成式 AI 的視覺(jué)多模態(tài)算法平臺(tái)。

盡管多模態(tài)大模型使AI能夠根據(jù)圖像內(nèi)容推理復(fù)雜問(wèn)題,但仍無(wú)法像視覺(jué)感知系統(tǒng)那樣在圖像上精確定位指令對(duì)應(yīng)的目標(biāo)區(qū)域。因此,香港中文大學(xué)賈佳亞團(tuán)隊(duì)提出LISA(Large Language Instructed Segmentation Assistant)多模態(tài)大模型。LISA通過(guò)引入一個(gè)標(biāo)記來(lái)擴(kuò)展初始大型模型的詞匯表,并采用Embedding-as-Mask(嵌入作為掩碼)的范式賦予解釋多模態(tài)大型模型分割功能,最終展現(xiàn)出強(qiáng)大的零樣本泛化能力。

被高估的Pika,被低估的多模態(tài)AI

LISA技術(shù)方案概述,圖片來(lái)源:受訪者提供

在垂直應(yīng)用場(chǎng)景上,云知聲通過(guò)醫(yī)療知識(shí)增強(qiáng)的山海大模型北京友誼醫(yī)院打造的門診病歷生成系統(tǒng),可以在不改變醫(yī)生問(wèn)診方式情況下,通過(guò)醫(yī)生與患者的對(duì)話錄音,抽取關(guān)鍵問(wèn)診信息并生成病歷,將醫(yī)生從病歷撰寫工作中解放出來(lái),把更多時(shí)間留給患者。

谷歌近期重磅推出的 Gemini 也顯示了多模態(tài)模型在各應(yīng)用場(chǎng)景中的潛在價(jià)值。如何真正打通物理世界和數(shù)字世界之間的屏障,關(guān)鍵在于有效處理多模態(tài) AI 能力。用底層的感知能力衍生出操作,從而實(shí)現(xiàn)與物理世界最自然的交互方式。

在多模態(tài) AI 爆發(fā)之前,不要溫和地走進(jìn)這個(gè)良夜。

*應(yīng)受訪對(duì)象要求,文中浦林、辰逸為化名

*參考資料:

專訪Pika Labs創(chuàng)始人:探索視頻生成的GPT時(shí)刻,海外獨(dú)角獸

LISA:通過(guò)大語(yǔ)言模型進(jìn)行推理分割,香港中文大學(xué)賈佳亞團(tuán)隊(duì)

? 版權(quán)聲明

相關(guān)文章

暫無(wú)評(píng)論

none
暫無(wú)評(píng)論...