圖森未來視頻大模型賺錢還是賺吆喝

2024-12-18 07:38:09 北京商報(bào)

　　圖森未來視頻大模型賺錢還是賺吆喝 　

　　“自動(dòng)駕駛和圖生視頻從技術(shù)復(fù)用角度，互相搭不上”，“在市面上開源模型的基礎(chǔ)上，收集一些數(shù)據(jù)，做視頻模型門檻不高”，針對圖森未來12月17日發(fā)布圖生視頻大模型Ruyi一事，自動(dòng)駕駛和視頻模型公司技術(shù)人員分別向北京商報(bào)記者表示。8月官宣進(jìn)入生成式AI應(yīng)用領(lǐng)域時(shí)，“自動(dòng)駕駛第一股”圖森未來的戰(zhàn)略轉(zhuǎn)型就曾引發(fā)爭議，當(dāng)下模型上線，不少業(yè)內(nèi)人士依然有疑惑。對此，記者和圖森未來工程高級副總裁李海泉聊了聊這款大模型背后的故事。

　　4個(gè)月

　　12月17日，圖森未來正式發(fā)布圖生視頻大模型Ruyi，并將Ruyi-Mini-7B版本正式開源，用戶可以從huggingface上下載使用。這是圖森未來正式發(fā)布的第一款“圖生視頻”模型，也是圖森未來進(jìn)入生成式AI應(yīng)用賽道，推出的第一款產(chǎn)品。

　　“我們是從8月開始做的，12月初訓(xùn)練進(jìn)入尾聲，后期跟其他模型做了比較，在內(nèi)部做了很多測試，才選擇現(xiàn)在發(fā)布出來�！闭劦�12月上線有無特別考量時(shí)，李海泉告訴北京商報(bào)記者。

　　外界獲悉圖森未來要跨界也是在8月，準(zhǔn)確來說是8月15日。當(dāng)天，圖森未來宣布，與上海三體動(dòng)漫有限公司達(dá)成合作，共同開發(fā)《三體》系列的動(dòng)畫長篇電影和視頻游戲。圖森未來借此宣布，正式進(jìn)入生成式AI應(yīng)用領(lǐng)域，甚至具體到正式進(jìn)軍動(dòng)畫與視頻游戲市場。

　　從8月到12月，對于圖森未來而言，4個(gè)月是做一款視頻大模型最短的時(shí)間嗎？

　　“對。這可能是對我們來說最短的時(shí)間了。”但李海泉也承認(rèn)，因?yàn)闋可娴娇梢哉{(diào)動(dòng)的資源，如何高效地調(diào)動(dòng)資源，4個(gè)月并不是行業(yè)最短時(shí)間。

　　回到Ruyi，“它對有一定技術(shù)背景的個(gè)人小團(tuán)體和公司會(huì)很友好，我們并沒有上線一個(gè)網(wǎng)址或App。如果用戶沒有高性能的顯卡，玩Ruyi是很難的”。李海泉介紹了Ruyi面向的用戶群，他向北京商報(bào)記者“安利”：“我們不需要寫提示詞，把圖片拽上去就可以�！�

　　搭不上？能復(fù)用？

　　從流程上看，Ruyi和市面上其他的圖生視頻模型的差異不大。

　　按照圖森未來的官方說法，Ruyi需要用戶提供一張圖片作為輸入，并可以選擇輸出時(shí)長、輸出分辨率、運(yùn)動(dòng)幅度和鏡頭移動(dòng)方向等選項(xiàng)，Ruyi會(huì)根據(jù)輸入的圖像輸出一個(gè)不超過5秒的視頻。

　　圖森未來相關(guān)人士在和開發(fā)者溝通時(shí)表示，“我們內(nèi)部對比過，我們的主要特點(diǎn)一個(gè)是做動(dòng)漫更好，一個(gè)是我們是24fps(每秒播放24幀畫面)的，動(dòng)作更絲滑”。

　　不過圖森未來也承認(rèn)，Ruyi目前仍然存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場等問題，公司正在改進(jìn)這些缺點(diǎn)，在日后的更新中對它們進(jìn)行修復(fù)。

　　另一個(gè)業(yè)內(nèi)人士的關(guān)注點(diǎn)是自動(dòng)駕駛和視頻模型有什么關(guān)聯(lián)？“從技術(shù)復(fù)用角度，互相搭不上。”一位自動(dòng)駕駛從業(yè)者向北京商報(bào)記者表示。

　　一家視頻模型公司CTO告訴北京商報(bào)記者，“準(zhǔn)確說，視頻模型和自動(dòng)駕駛在技術(shù)上，或者經(jīng)驗(yàn)復(fù)用上沒啥關(guān)系，圖森未來之所以能做，可能是基于市面上開源模型，收集了一些數(shù)據(jù)，門檻不高”。

　　對此，李海泉持不同意見。站在自動(dòng)駕駛的角度，他認(rèn)為，“自動(dòng)駕駛領(lǐng)域的算法、規(guī)劃控制這些肯定是沒法用在視頻模型上的，但是還是有很多東西可以復(fù)用的，比如模型設(shè)計(jì)、數(shù)據(jù)處理、基礎(chǔ)工具類”。

　　關(guān)于基于開源模型，李海泉直言，“我們在設(shè)計(jì)上確實(shí)參考了很多開源方案的實(shí)現(xiàn)，不只圖森未來會(huì)這樣。我們一直關(guān)注大模型的發(fā)展，沒必要關(guān)起門來”。

　　圖什么

　　根據(jù)GIR調(diào)研，2023年全球文生視頻大模型收入大約720萬美元，預(yù)計(jì)2030年達(dá)到22.19億美元，2024—2030年期間，CAGR(年復(fù)合增長率)有望達(dá)到56.6%。

　　數(shù)據(jù)很誘人，現(xiàn)實(shí)中視頻生成的技術(shù)成熟度卻還沒有那么高，實(shí)現(xiàn)規(guī)模性商業(yè)化還需要時(shí)間。

　　在圖森未來看來，最佳應(yīng)用場景是孵化生成式AI工具的原動(dòng)力。公司致力于利用大模型降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。Ruyi大模型，已經(jīng)可以實(shí)現(xiàn)輸入關(guān)鍵幀后，生成之后5秒的內(nèi)容，或輸入兩個(gè)關(guān)鍵幀，由模型生成中間的過渡內(nèi)容，降低開發(fā)周期。這和圖森未來想要入局的動(dòng)畫與視頻游戲市場強(qiáng)相關(guān)。

　　不過，文淵智庫創(chuàng)始人王超向北京商報(bào)記者表示，“我覺得圖森未來是在賺吆喝，早期那些AI公司，在大模型這波是跟不上的”。

　　在和北京商報(bào)記者交流時(shí)，瑞達(dá)恒研究院經(jīng)理王清霖認(rèn)為，“從經(jīng)營現(xiàn)狀來看，圖森未來的主營業(yè)務(wù)尚未展現(xiàn)出顯著優(yōu)勢，且企業(yè)內(nèi)部存在混亂。因此，圖森未來亟須探索新業(yè)務(wù)領(lǐng)域，以開辟新的增長點(diǎn)。鑒于視圖生成技術(shù)領(lǐng)域尚未形成清晰的市場格局，這為圖森未來提供了嘗試和突破的機(jī)會(huì)。不過，該領(lǐng)域的盈利能力尚待進(jìn)一步驗(yàn)證和觀察”。

　　一個(gè)插曲是：持續(xù)已久的圖森未來內(nèi)訌還不時(shí)被曝出新動(dòng)態(tài)。近日有投資人士向媒體透露，即將于12月20日召開的圖森未來股東大會(huì)正進(jìn)行股東投票，屆時(shí)將決定圖森未來下一階段的控制權(quán)。

　　李海泉12月17日向北京商報(bào)記者透露，“12月19日我們會(huì)把AIGC(人工智能生成內(nèi)容)業(yè)務(wù)、其他業(yè)務(wù)和自動(dòng)駕駛業(yè)務(wù)如何整合等，給大家講清楚”。

　　北京商報(bào)記者魏蔚

來源：北京商報(bào)

編輯：萬可義

廣告等商務(wù)合作，請點(diǎn)擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個(gè)人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財(cái)經(jīng)資訊。

今日推薦