蘋果新研究:AI不聽錄音,憑文本描述能零樣本識別洗碗等12種活動快訊
蘋果指出大語言模型(LLM)可通過分析音頻和運動數據的文本描述,也能精確判斷用戶正在進行的具體活動,還驗證了 LLM 在理解和融合多源文本信息以進行復雜推理方面的強大能力。
IT之家 11 月 22 日消息,科技媒體 9to5Mac 昨日(11 月 21 日)發布博文,報道稱在最新公布的研究報告中,蘋果指出大語言模型(LLM)可通過分析音頻和運動數據的文本描述,精準識別用戶活動,未來可能會應用于 Apple Watch 上。
這項名為“后期多模態傳感器融合”(Late Multimodal Sensor Fusion)的技術,主要結合 LLM 的推理能力與傳統傳感器數據,即使在傳感器信息不足的情況下,也能精確判斷用戶正在進行的具體活動。
研究的核心方法頗具新意。大語言模型并未直接處理用戶的原始音頻錄音或運動數據,而是分析由專門的小型模型生成的文本描述。
具體來說,音頻模型會生成描述聲音環境的文字(如“水流聲”),而基于慣性測量單元(IMU)的運動模型則會輸出動作類型的預測文本。這種方式不僅保護了用戶隱私,還驗證了 LLM 在理解和融合多源文本信息以進行復雜推理方面的強大能力。
為驗證該方法,研究團隊使用了包含數千小時第一人稱視角視頻的 Ego4D 數據集。他們從中篩選出 12 種日常活動,包括吸塵、烹飪、洗碗、打籃球、舉重等,每段樣本時長 20 秒。
隨后,研究人員將小模型生成的文本描述輸入給谷歌的 Gemini-2.5-pro 和阿里的 Qwen-32B 等多個大語言模型,并測試其在“零樣本”(無任何示例)和“單樣本”(提供一個示例)兩種情況下的識別準確率。
測試結果顯示,即使沒有任何針對性地訓練,大語言模型在活動識別任務中的表現也遠超隨機猜測的水平,其 F1 分數(衡量精確率和召回率的指標)表現優異。當獲得一個參考示例后,模型的準確度還會進一步提升。
這項研究表明,利用 LLM 進行后期融合,可以有效開發出強大的多模態應用,而無需為特定場景開發專門模型,從而節省了額外的內存和計算資源。蘋果公司還公開了實驗數據和代碼,以供其他研究者復現和驗證。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
