人民網(wǎng)北京2月26日電 (焦磊)只需輸入文本指令,便可生成60s的視頻內(nèi)容,并在畫面效果、視頻時長、流暢度和邏輯性等方面具備驚人效果……近日,OpenAI發(fā)布的文生視頻大模型Sora迅速引發(fā)人們關注。業(yè)內(nèi)分析認為,該項新產(chǎn)品或將促使大模型廠商加大對多模態(tài)大模型的研發(fā)投入,并進一步推動AGI(通用人工智能)進程。
一直以來,視頻領域便是被普遍看好的AI應用落腳點之一。繼可生成圖文的ChatGPT之后,Sora的發(fā)布迎合了業(yè)內(nèi)對多模態(tài)大模型的期待。
模態(tài)即每一種信息的來源或形式。人們在信息獲取、環(huán)境感知、知識學習與表達等方面都是采用多模態(tài)的輸入、輸出方式。
華福證券研報表示,相比單模態(tài),多模態(tài)大模型同時處理文本、圖片、音頻以及視頻等多類信息,與現(xiàn)實世界融合度高,更符合人類接收、處理和表達信息的方式,與人類交互方式更加靈活,表現(xiàn)得更加智能,能夠執(zhí)行更大范圍的任務,有望推動AI邁向AGI。
此前,大模型在各個領域的應用主要集中在文生文、文生圖之上,而在文生視頻領域卻進步緩慢。業(yè)內(nèi)分析表示,此次Sora的發(fā)布,將促使多模態(tài)大模型成為生成式AI的重點發(fā)展方向。未來人機交互將通過文字、視覺、語音等多維度溝通,進而提升效率,逐漸向AGI方向邁進。
值得一提的是,國務院國資委日前召開“AI賦能產(chǎn)業(yè)煥新”中央企業(yè)人工智能專題推進會。會議提出,開展AI+專項行動,強化需求牽引,加快重點行業(yè)賦能,構建一批產(chǎn)業(yè)多模態(tài)優(yōu)質數(shù)據(jù)集,打造從基礎設施、算法工具、智能平臺到解決方案的大模型賦能產(chǎn)業(yè)生態(tài)。
視頻大模型的創(chuàng)新進步,也引起人們對相關內(nèi)容行業(yè)變革的思考。
浦銀國際分析認為,對于短視頻,Sora提升了內(nèi)容供給及創(chuàng)作質量,并有效降低了門檻和成本,或將進入“全民創(chuàng)作”時代。而長視頻對內(nèi)容質量等專業(yè)化要求較高,AI生成視頻在精準度、可編輯性等方面仍需進一步打磨,長期發(fā)展空間廣闊。
IDC中國研究總監(jiān)盧言霞認為,Sora將最先應用于短視頻、廣告、互娛、影視、媒體等領域。在這些領域采用多模態(tài)大模型能力,輔助人類員工生成視頻,既可以提高生產(chǎn)速度又可以提高生產(chǎn)數(shù)量,還可以創(chuàng)造全新的視覺感受,能夠幫助企業(yè)真正實現(xiàn)降本增效、提升用戶體驗。
與圖文相比,視頻內(nèi)容所包含的數(shù)據(jù)量巨大,因而引發(fā)人們對算力需求的關注。業(yè)內(nèi)分析認為,AI視頻對算力的需求將會是幾何式增長,算力限制可能是影響文生視頻類應用開放使用的重要因素。
盧言霞表示,多模態(tài)大模型對算力的消耗更高,算力的可獲取性以及成本將是挑戰(zhàn)之一。此外,多模態(tài)大模型將帶來更嚴峻的安全挑戰(zhàn)。一方面多模態(tài)大模型將讀取更多的圖像、視頻類數(shù)據(jù),這些圖像視頻數(shù)據(jù)是否合規(guī)是否安全,需要得到保障;另一方面,生成視頻與真實世界之間的差異,需評估是否會影響到人身安全、社會穩(wěn)定、企業(yè)安全等。
根據(jù)華泰證券研報,2023年實際誕生文生視頻大模型達到數(shù)十個,全球用戶數(shù)量超過百萬級別,但目前多數(shù)視頻模型仍處于產(chǎn)品早期階段。從創(chuàng)作端看,市場上已公開的大多數(shù)模型出自初創(chuàng)公司和小型技術開發(fā)團隊,包括Runaway、Pika等,且目前已呈現(xiàn)較為可觀的完成效果和商業(yè)模式。(實習生張泊洋對此文亦有貢獻)
轉載請注明來自濟南富森木工刀具制造有限公司 ,本文標題:《拓寬行業(yè)應用場景 多模態(tài)大模型加速通用AI進程》
還沒有評論,來說兩句吧...