前些天,耳機在公司跟同事一起看小米發布會,道單他們一個個都盯著超跑躍躍欲試,選題而我(因為經濟實力)只能點頭微笑,耳機仿佛鎮定地表達對新耳機更感興趣(扶額苦笑.jpg)……
官方自夸小米 Buds 5 Pro 為“4000 元以內音質最好 TWS 耳機”,道單擁有無損音質、選題深度降噪,耳機以及一些 AI 功能。道單
Buds5 Pro Wi-Fi 版本搭載了驍龍 S7+音頻平臺,選題是耳機目前唯一支持 Wi-Fi 功能的藍牙耳機芯片,但主要還是道單服務音頻傳輸速率。
耳機支持高通 aptX Lossless 編碼,選題該協議支持傳輸 16bit/44.1kHz 音頻,耳機這也是道單 CD 唱片和主流音樂平臺里無損音樂(絕大多數)的規格。
其實,選題TWS 耳機自開始就少不了 AI 算法——處理音質、優化拾音、環境分析、智能降噪等等。
但今天我們討論的 AI, 意味著讓耳機去做一些更時髦的任務:給打工人翻譯、整理速記、喚醒智能助手。反而TWS 原本的“三要素”——佩戴、音質、降噪成為了AI耳機的短板。大眾默認和市場成熟的產品形態和標準,卻成為了讓產品 AI 化的桎梏。
比如字節 Ola Friend、Cleer ARC3、小度G108 等選擇了耳掛或者耳夾式。雖然相比入耳式更能成為一個“隨身 AI”,少了很多壓迫和異物感,能長時間佩戴,但是被動降噪幾乎沒有,音質也會因為開放式設計,低頻泄漏嚴重。
也有AI耳機選擇了入耳式的外觀形態。比如 iKKO ActiveBuds AI、科大訊飛 Nano+、飛利浦 8 號。降噪上用了主被動降噪結合,有幾款官方標注的極限降噪深度能達到 45db,效果還不錯——但音質又拿不出手了。
iKKO ActiveBuds AI 售價1899,不便宜了,藍牙解碼協議只支持到 AAC、SBC,不支持音質更好的 LDAC、aptX。在定位上,顯然不是以音質為導向的耳機。對比市面上很多三四百元左右價位的“普通” TWS 耳機,比如紅米 Buds6Pro、飛傲 FW3、Oppo EncoAir4、1MORE S20 等都沒有在協議上做妥協。
很多 AI 耳機的宣傳噱頭,也更多在智能、生產力、陪伴等 AI 上,而可以淡化了關于音質、降噪、佩戴、續航、多協議等 TWS 耳機的基本品質——在前瞻性和實用性之間,還沒有達到一種良好平衡。
你不免會問,這些功能哪個智能手機做不到?為什么還要額外買個 AI 耳機呢?這是個對于 AI 硬件來說一個老生常談,又從未被很好解答的問題。
但耳機在處理語音需求優勢巨大,似乎又天然為“語言大模型”而生——佩戴貼近耳朵和嘴巴,語音采集的信號更清晰,說話起止更易判別,麥克風收聲時最大避免了環境噪音和語音衰減。
比如耳機像一款獨立的錄音筆一樣,獨立錄制兩小時會議。然后同步到手機里,轉文字,翻譯,會議紀要一下都出來了。
再比如,喚醒 AI 助手,隨時聊天、練口語,景區講解。更“賽博”一點的話,帶著耳機和 AI 聊騷戀愛,可比舉著個手機自然多了。
那么,第二個問題來了。Ola Friend 叫出來基于豆包大模型的豆包,小米 Buds 5 Pro 叫出來接入 DeepSeek 的超級小愛,跟我通過 AirPods 喚醒 Siri 有啥差別?
AirPods 是在2017年推向市場,大多 iPhone 用戶早就無比熟悉問 Siri 天氣如何、設置鬧鈴、甚至讓它搜索一堆“鍋包肉菜譜”的網頁給你......
所以目前的 AI 耳機本質上還是一個“喚醒器”,是一個接收 app 音頻輸出的載體,與 AI 助手對話不是獨立在耳機內完成,而是經過“耳機-手機 App-云端-手機 App-耳機”的路徑。
其智能體現完全依賴模型能力,某款 AI 耳機就曾在直播活動中因為識別不出主播一句“I like 百年孤獨”中英文夾雜而卡住。
耳機目前還無法成為具備獨立聯網、獨立運算能力的設備,因為人耳體積是限制耳機內置 AI 算力和性能的天花板,其內置的計算能力承載不了哪怕是最小的端測模型。
體積上,目前最邊緣的 AI 芯片,比如有 13 TOPS 算力的樹莓派 AI 模塊,物理尺寸都有 22*42 mm,比單只 AirPods Pro 還寬還長,最少1-2W功耗。
目前 TWS 耳機功耗都控制在 5-150mW(全功能開啟后)范圍內,1W功耗別說續航和技術上實現不了,塞進耳朵內無法有效散熱,人耳也受不了,這下真“發燒”了(小伙兒~聽啥見不得人的呢?咋耳根臺子都紅了)。
所以現階段,AI 耳機必須需要依靠外部算力,拋開手機的可能性也許是“復古”:比如頸掛式,比如配一個越來越大的耳機盒,用來擴容算力。
比如 WISHEE Ai,iKKO Active Buds,把耳機盒做成一個帶 sim 卡槽,能打電話,能上網,帶屏幕,能下 app 的智能終端。
可想而知,將傳感器,存儲和計算單元,數據傳輸和網絡連接等硬件模組放到一個如此“極致”的體積下,實際上算力應該非常有限,AI 助手估計經常卡頓,聊著聊著,AI 就消失了。
你們還記不記得,之前有一個引起了很多討論的硬件,叫 Friend AI——大體上是一個項鏈的形態,內置了麥克風,長續航電池,收集用戶周圍的聲音信息,并通過連接手機與用戶對話。
Friend AI 的宣傳片里,一名女生邊吃飯邊在手機上看劇,Emily(女生給其 Friend AI 起的名字)聽到電視里的聲音,給女生手機發消息說,“這部劇被低估了,太精彩了。”女生不小心把食物掉到其上面,又收到了一句,“味道還不錯。”
這是很多 AI 硬件找到的成立理由,手機積累了大量數據但仍有限,能收集到比手機更多數據、更多維度數據,才能打造隨身的“Personal AI”。
就像智能手表/手環,耳機也可以依靠捕捉到的佩戴者體征信息和環境聲音后,提供“聽力健康”類似的功能。
比如 AI 分析我的語氣,檢測我的情緒,然后自動推薦適合的音樂,白噪音來緩解壓力,提升注意力,改善我當下的情緒。
耳機是語音交互最為直接的入口。對人來說,用語音交互非常自然,但對機器處理任務來說,并不高效。
區別于我們早已習慣的屏幕交互,語音對話是線性的(想想你做 ppt 匯報,和只有語音的電話會匯報,這兩個場景的區別)。耳機應該成為更多環節復雜,但步驟明確,容錯率高的語音場景的入口,一個隨叫隨到,交互摩擦盡可能少的 AI 助理。
比如當你再問耳機里的智能助手“鍋包肉咋做”,它會考慮到你剛健完身,推薦一個低卡版給你,甚至從電商平臺上比好了價,整理好了購物清單給你;
如果能與其他隨身設備配合,比如根據手表在記錄的運動類型,自動在跑步時放快歌,在游泳時播播客;
這也是大家仍執著于要 AI 耳機(或其他 AI 硬件)的原因——隨身的 AI 不應該被困在某個 app 當中,而即將到來的通用 agent,也許并不再會是軟件應用,而恰恰是一款硬件,比如耳機。