太真了!羅永浩數字人引爆直播間,背后技術有多強?快訊
羅永浩數字人直播間有兩位數字人,為何這次羅永浩數字人在百度優選直播間的表現卻讓人眼前一亮呢,羅永浩數字人直播間做到了。
【TechWeb】6月18日消息,一年一度618,電商平臺們都在拼低價、拼補貼卷生卷死的時候,百度另辟蹊徑,聯手羅永浩搞了一場數字人直播,因為太擬真,以至于讓直播間的網友都在猜:這是“真的假的”羅永浩。

羅永浩數字人直播間
6月15日下午,“羅永浩數字人”在百度電商首次開播,全場近7小時GMV達5500萬元,觀看人次超1300萬,部分品類銷量超甚至越過了5月23日羅永浩真人直播場。
事實上,數字人直播早已不是新鮮事,為何這次羅永浩數字人在百度優選直播間的表現卻讓人眼前一亮呢?
在百度AI Day上,百度副總裁、電商總經理平曉黎,百度集團副總裁吳甜揭秘了羅永浩數字人背后的黑科技和更多細節。
真假難辨的“羅永浩”
仔細觀察這次羅永浩數字人的直播表現,會發現,這場直播創下幾個業內首次:

第一,這次數字人直播全場持續了近7小時。
目前市面上主流的AI生視頻產品生成的視頻時長大多在幾十秒至十幾分鐘,近7小時的數字人直播可謂超越了AI視頻生成極限。
如何讓一個AI生成的數字人影像保持近7小時的一致性?這背后需要解決哪些技術挑戰?
第二、和市面上大多的單個數字人直播不同,羅永浩數字人直播間有兩位數字人,分別是羅永浩和他的助手朱蕭木的數字人。
這是行業首次“多數字人直播”,并且,在直播中羅永浩與助播數字人配合自然、雙數字人搭檔接梗流暢,搶話自然。
雙人/多人直播相比單人直播,又有哪些技術鴻溝需要翻越?
第三、數字人羅永浩不但能做出喝奶茶、拎可樂等細節動作,還能與直播間用戶發布的彈幕進行實時互動,就像真人直播間一樣玩抽獎、發福袋等互動。這一點更是秒殺一眾對口型的直播數字人。
同樣的,在長達近7小時的直播中,是如何保持數字人互動動作的精準度的?
也正是因為上面這些直播特征,讓直播間的網友一時之間分不清在直播的到底是羅永浩本人,還是羅永浩數字人,真假難辨了。
平曉黎:百度數字人與市面上的直播數字人相比,有代際優勢
這個真假難辨的“羅永浩”,百度是如何打造的呢?
百度副總裁、電商總經理平曉黎介紹了“羅永浩數字人”的打造過程:今年 4 月百度發布了高說服力數字人,這是一個新的里程碑。此后,在高說服力數字人的基礎之上,百度電商慧播星再一次迭代,圍繞慧播星首席體驗官羅永浩,發布了業界首個超頭主播的數字人,實現了體驗、內容、視覺、效果的四大突破,使得數字人帶貨能力媲美真人。

在平曉黎看來,百度的這個“超頭主播的數字人”,跟市場上目前的直播數字人之間,存在著明顯的“代際”優勢。正是對體驗、內容、視覺、效果的四大突破,成就了這種優勢。
具體來看,羅永浩數字人直播間做到了:
體驗突破,復刻羅永浩跟朱蕭木的絲滑配合,是業界首個雙數字人互動直播間;
內容突破,數字人做到了“懂創作”,帶貨時塑品專業度更高,數字人可以“有個性”,甚至能“玩梗”,為數字人注入靈魂;
視覺突破,羅永浩數字人直播實現了在直播實時環境下的超長演繹,做到了動作、表情、語調等貼合話術,且穩定可控;
效果突破,AI大腦基于直播間信號靈活控場,數字人可以主動邀評、高頻互動,極大提升用戶沉浸感;通過多智能體實時調度,在數字人直播間實現了和真人直播間一樣的互動玩法,如抽獎、發福袋等。
平曉黎介紹,目前,在百度慧播星,單個數字人的制作成本在1000元/月左右。目前百度電商已有累計超 10 萬數字人主播,覆蓋電商、教育、醫療等數十個行業,助力商家直播運營成本下降超80%,GMV平均提升62%。
五大關鍵技術揭秘
那么,這項領先行業的“羅永浩數字人”到底是如何實現的呢?
百度集團副總裁吳甜在百度AI Day上進行了背后技術大揭秘。
吳甜表示,百度在今年4月發布了最新的文心 4.5 Turbo和文心X1 Turbo為此次直播提供了強有力的技術支撐,打造了多模協同的數字人技術,羅永浩數字人是基于文心大模型的最佳實踐。
具體到羅永浩數字人的打造上,吳甜總結道,羅永浩數字人直播背后的五大關鍵技術包括:劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成,以及高一致性超擬真數字長視頻生成。這些技術的綜合應用,為用戶呈現了一個高質量的直播間表現。

直播中,數字人不僅要詳細解讀商品,還要通過肢體語言和表情傳達商品特性,這構成了一個多模態的協同問題。多模協同的數字人技術是數字人表現好的關鍵所在。百度為了實現語言、語音和視覺的協調一致,采用了一種基于劇本驅動的技術方案,劇本不僅包含臺詞,還包括對視覺、語音等模態以及在直播過程中的實時互動內容,確保數字人的表達在語義、語氣語調、微表情和手勢上高度協同。

在數字人語音合成方面,通過采用文本自控的語音合成等技術,實現了更逼真、互動性強的對話效果。為解決羅永浩數字人直播雙人聲音配合的難點,百度采用對話上下文編碼器,將對話歷史輸入和當前對話進行語音合成的統一推理計算,最終實現流暢、自然的雙人對話效果。

吳甜還特別提到,在直播間的環境下,數字人形象生成的挑戰主要集中在多模協同、高表現力動作的傳達、復雜交互的實現以及超長時長的一致性保持。百度通過多模態輸入,包括視頻、劇本、語音和骨骼信號,以及對視頻的多模態理解和人、物、場的高可控視頻生成,實現復雜交互片段和大表情、大動作片段的生成。特別地,面對羅永浩直播間兩位具有高IP價值的主播以及豐富的商品,通過結合多模態視頻理解、跨模態信號生成、視頻生成等技術,克服了高可控交互,高精度、長時間一致性保持等難點,實現了高一致性超擬真羅永浩數字人長視頻生成。

現在,羅永浩已經入駐百度優選,將以真人+數字人的形式不定期開播。同時,羅永浩將擔任百度慧播星首席體驗官,雙方也將在“AI+直播”領域進行探索。
未來數字人直播表現會演進到何種逼真度,值得期待。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。