IT之家 3 月 30 日消息,公開抖音總裁韓尚佑今日宣布,推薦“抖音安全與信任中心”網站上線。原理網站首次公開抖音推薦算法原理,抖音介紹其推薦算法如何預估用戶行為概率,首次算法并通過多目標建模等方式實現更優質、公開豐富的推薦內容推薦,而算法需由平臺治理體系對其進行約束和規范。原理
據IT之家了解,抖音網站也披露了抖音平臺治理的首次算法審核流程,闡述平臺如何應對謠言、公開網暴等違規內容帶來的推薦挑戰。
同時,原理抖音還介紹了自家的“Wide&Deep”和“雙塔召回”兩種模型。
Wide&Deep 模型的主要思路正如其名,是由單層的 Wide 部分和多層的 Deep 部分組成的混合模型。其中,Wide 部分的主要作用是讓模型具有較強的“記憶能力”(memorization),“記憶能力”可以被理解為模型直接學習并利用歷史數據中物品或者特征的“共現頻率”的能力;Deep 部分的主要作用是讓模型具有“泛化能力”(generalization),“泛化能力”可以被理解為模型傳遞特征的相關性,以及發掘稀疏甚至從未出現過的稀有特征與最終標簽相關性的能力。
Wide&Deep 模型的這一結構特征,可以解決協同過濾算法的短板。協同過濾算法優點突出,但是其局限性也很明顯,就是泛化能力差,推薦的結果頭部效應比較明顯。也就是容易造成信息單一問題。
一條視頻從海量信息中被選中,推送給用戶,一般要經過進入內容池、召回、排序三個環節。用戶發布的新視頻首先要經過初步評估進入內容池,然后進入召回環節,其作用是從海量的內容池中,初步快速粗篩出一大批用戶可能感興趣的內容。
舉例來說,召回環節需要用到召回模型,抖音最常用的召回模型是“雙塔召回模型”(Two-Tower Retrieval Model)。雙塔召回模型把用戶和內容都轉化為數學空間里的一個個點,就像是給用戶和內容貼上了獨特的“數字標簽”,這個過程叫做向量化表征學習。其大概過程如下:
(1)分別將用戶特征、內容特征進行數學轉化(如展示小貓的視頻為 0,展示小狗的視頻為 1,短視頻為 0,長視頻為 1,那么一個展示小貓的長視頻即(0,1),其實際長度取決于特征有多少維度,用戶特征同理);
(2)將轉化后的數學特征輸入到用戶塔、內容塔兩個深度學習模型中,經過訓練,各自形成一組新的數字集合,這叫做用戶表征和內容表征。在這一步,原本各自代表一個現實特征的數字不再具備任何實際語義,兩個模型會把用戶特征和內容特征都轉化為沒有現實意義的數字代碼 —— 因此,算法不用理解現實語義,只需處理純粹的數學符號;
(3)將兩組形式為純粹的數字集合的用戶表征和內容表征,放入同一個向量空間中,每一組數字集合便在向量空間中擁有了一組專屬的向量值,好比一組獨有的“數字指紋”;
(4)將訓練過的所有內容表征的向量值和當前用戶表征的向量值的距離進行對比,距離越接近代表用戶越喜歡。當你的“數字指紋”和某個視頻的“數字指紋”在坐標系里剛好比較“匹配”(距離近),算法就會推薦它。
今年 1 月,抖音集團宣布擬推出 10 項措施,推動平臺工作透明化,創建安全與信任的平臺環境,打造更良好的網絡生態,其中包括推進算法透明化和推進平臺治理透明化。
1.推進算法透明化。2025 年,抖音將建設安全與信任中心網站和線下公示展廳,面向社會全面深入地公開抖音的算法基礎運作原理、運營機制,也將對外公布各類熱點榜單的計算原理和機制,提高透明度。
2.推進平臺治理透明化。抖音將持續加大治理工作的技術研究、產品人力、資金投入。在抖音安全與信任中心,我們將面向社會全面公開抖音的社區規范、審核標準、審核機制;并將定期公開平臺治理的各類典型違規案件和現象,明確對各類問題的治理態度,接受公眾監督。
相關閱讀:
《抖音將推進算法透明化,加強內容推薦多樣性、完善“防沉迷”機制》