欧美在线专区-欧美在线伊人-欧美在线一区二区三区欧美-欧美在线一区二区三区-pornodoxxx中国妞-pornodoldoo欧美另类

position>home>Spotlights

如何構建一個好的電商搜索引擎?

[導讀]機器學習算法的何構好不斷進步,搜索引擎巧妙的電商人機交互設計,分布式系統的搜索革新讓搜索引擎在不知不覺中成為人們生活中不可或缺的一部分。同時,引擎隨著人們新需求的何構好不斷涌現,搜索引擎也沒有停下變革的電商步伐。本文主要分享智能搜索在電商的搜索應用探索,介紹如何構建一個好的引擎電商搜索引擎。


如何構建一個好的電商搜索引擎?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

分享嘉賓:邢少敏?第四范式 架構師

編輯整理:劉員京

出品平臺:DataFunTalk

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

導讀:機器學習算法的何構好不斷進步,搜索引擎巧妙的電商人機交互設計,分布式系統的搜索革新讓搜索引擎在不知不覺中成為人們生活中不可或缺的一部分。同時,引擎隨著人們新需求的何構好不斷涌現,搜索引擎也沒有停下變革的電商步伐。本文主要分享智能搜索在電商的搜索應用探索,介紹如何構建一個好的電商搜索引擎。主要內容包括:
  • 為什么要做搜索
  • 整體的技術方案
  • 實際應用效果
01
電商搜索需求背景

首先,給大家分享下為什么要做搜索。

1. 被忽視、低估的搜索行為

在電商的app里,流量來自很多不同的渠道,比如說搜索、推薦、活動和直播等等。搜索,是電商app非常重要的一個流量入口,可能很多電商app來自搜索的流量都會占過半以上。對于需求明確的用戶主要還是通過搜索來觸達,對于需求不明確的用戶主要通過推薦。那么,對于搜索,因為需求比較明確,所以會更容易轉化。

2.?搜索用戶體驗痛點

一些電商巨頭其實已經把搜索體驗做得非常好,但是一些體量較小的客戶依然做不好搜索體驗,所以這就給我們提供了市場機會。

3. 搜索痛點下的用戶流失

如果搜索做得不好,用戶搜索多次,瀏覽搜索結果超過一定時間或者翻頁幾次以后,都找不到結果,就會因為無法忍受搜索體驗而流失。

4. 智能搜索挖掘用戶行為數據價值

所以應該優化搜索體驗,留住用戶,那應該如果做好智能搜索呢?可以通過用戶行為日志挖掘到很多有價值的數據,從這些數據中找到豐富的特征,利用這些特征去將搜索流量的價值最大化。

5. 電商搜索舉例

一般情況下,對于搜索,除了我們經常看到的去搜索框里面敲一些關鍵詞來搜索以外,搜索還有其他場景,比如搜索發現、搜索建議、熱門搜索、猜你喜歡和搜索底紋,其實這些已經不是單純的搜索,而是跟推薦相結合的場景。

6. 商品搜索?VS. 網頁搜索

日常生活中,最熟悉的網頁搜索和商品搜索有什么區別?可以從這幾個方面來分析:

  • 商品搜索和網頁搜索的優化目標不一樣,網頁搜索主要是優化網頁和搜索詞的相關性 ( 不考慮網頁搜索中的廣告點擊率優化 );而商品搜索主要優化目標是點擊率 ( CTR )、轉化率 ( CVR )、交易額 ( GMV ),兩者的優化目標是有一些不同的。

  • 從數據結構方面來講,網頁搜索使用的是全網的非結構化數據,需要額外的非結構化數據處理工作;而對于商品搜索,使用的是優質的結構化數據,比起網頁搜索里面參差不齊的非結構化數據,少了數據整理和處理的工作。

  • 從數據來源方面來講,網頁搜索使用的是整個互聯網的數據,而商品搜索,往往是一家企業內部的數據,而且這些數據存儲在它的業務數據庫或者數倉里,相對來說數據是比較好處理的。

  • 從數據規模來講,網頁搜索使用的數據一般是萬億級的規模,有超過萬億的網頁,但是商品搜索的話,根據客戶規模的大小,商品的SKU數或者SPU數基本上是幾萬到幾千萬這個級別,與網頁搜索不在一個量級。

  • 從召回率來講,網頁搜索對召回率的要求不會太高,但是商品搜索對召回率的要求是很高的,因為不能讓一些商品永遠沒有曝光的機會,所以一定是需要讓所有的商品都有曝光的機會,商品搜索對于召回率的要求是很高的。

  • 從個性化程度來講,網頁搜索一般情況下也能做到個性化,通常像谷歌、百度等搜索公司在個性化上也會做一些工作,但是對個性化的要求并不高;而商品搜索對個性化的要求很高,比如搜索的時候,不同的人消費能力的不同,那么排序的時候,需要考慮把合適價格的產品返回給不同消費能力的人群。個性化要求的不同是網頁搜索和商品搜索的重要區別,這就決定了兩者技術實現的不同。

02
技術方案探索

接下來,介紹一下總體的技術方案。

技術架構圖主要分為三大塊,一塊是數據,一塊是模型,一塊是搜索引擎本身,其中數據和模型是為搜索引擎服務的,會有數據接入的一些模塊,把客戶的數據接入到系統里面,放入數據中臺上去計算物料畫像、用戶畫像等等;接下來,需要用這些數據建一些模型,這些模型會在搜索引擎的各個環節中用到,比如意圖、召回、粗排、精排中各個環節都會用到;再往下,就是一些基礎的數據存儲中間件。我們主要圍繞著搜索引擎本身這個流程展開,最右側就是搜索引擎的流程,接下來我們從上往下來介紹一下整個搜索是如何做的。

1. Query預處理

當用戶在一個電商app上輸入搜索詞的時候,會先對搜索詞進行預處理,這種預處理就包括常見的去停止詞、歸一化、拼音轉文字、同義詞替換、分詞、補全、改寫和糾錯等等一系列的處理,然后把用戶搜索的不太規范或者不正確的query處理成規范形式和正確形式,并且做一些分詞、轉換的處理。

2. 實體識別

做完預處理之后,得到了用戶搜索詞分詞的結果,拿到這個分詞結果,要把分詞結果里面每一個詞識別成一個實體,什么是實體呢?在電商里面的實體類型其實有很多,這里列出了三種,有商品實體類型,礦泉水就是一種實體,屬于商品實體類型;農夫山泉是品牌這種實體類型;飲用水是一種分類或者叫類目,這些都是實體類型,實體類型下面有具體的實體,實體就是礦泉水,農夫山泉,所以需要知道輸入的詞到底是一個什么實體,比如說輸入“奧利奧餅干”,做完預處理之后,得到“奧利奧”和“餅干”兩個詞,這個時候就需要做實體識別,識別后可以知道“奧利奧”是一種品牌,“餅干”是一種商品,這樣就能做后續的處理。

實體識別是序列標注的一種,有很多種方法,像CRF、BERT之類的,都可以用來做實體識別,在工程上處理的時候不一定是在線使用這些算法,因為這些算法在線計算成本比較高,通常會進行離線計算,把計算出的結果放到緩存中,這樣在線只需要做一些簡單的匹配,處理會快很多,另外有時候還需要經過一些人工糾正,這樣才能得到比較準確的實體詞。做實體識別有一些前提條件,怎么知道礦泉水是一種商品?農夫山泉是一種品牌呢?這些知識其實是需要外部輸入才能知道,這就是領域知識,所以首先要積累一些領域知識。

① 領域知識積累

領域知識其實是不太好分析出來的,舉個例子,豬舌和口條其實是一回事,茭瓜和西葫蘆是一回事,這些知識,當然可以去分析,那如何分析?其實有很多現成的知識可以抓取過來利用,把它作為領域知識積累下來。這個領域知識有很多形態,最簡單就是詞庫,也可以構建知識圖譜,構建知識圖譜是構建領域知識最常用的方式。

② 詞庫挖掘

詞庫如何構建,需要挖掘各種類型的詞,比如最常用的同義詞和上位詞,同義詞理解可以用前面舉的例子,茭瓜和西葫蘆是一回事,獲取同義詞有很多種方法,使用預訓練的詞向量方法去找共現關系可以大量的找到同義詞 ( 也就是類似word2vec的方法 ),但是找出來之后可能不太準確,需要后期處理一下才能使用。從百度百科上可以爬取到很多同義詞,以及業務運營數據庫和企業現有詞庫積累都可以找到同義詞,有各種各樣的方法去構建同義詞庫。

那么如何挖掘上位詞,舉例理解上位詞,比如商品類目就是具體商品的上位詞,礦泉水的上位詞就是飲用水。詞庫的構建是做搜索必要的工作,但是在構建詞庫的過程中,不一定是手工的過程,完全可以用其他的自動化方法甚至模型去篩選詞庫,最后再做一些人工糾正。

③ 商品知識圖譜構建

如何構建商品知識圖譜,我們可以構建很多種不同類型的知識圖譜,本文是根據不同實體來構建知識圖譜,比如按照三種實體類型來構建知識圖譜,像上圖最右側的示意圖,蘋果有很多種型號,如果用戶搜索蘋果,用戶有可能想買iPhone 11、iPhone X或者還是沒出來的iPhone 12,可以通過先驗知識,把知識圖譜構建出來,最后排序時可以把這些知識融入進去,比如用戶都更加傾向于去買iPhone X,后面排序的時候iPhone X就會更靠前一些。對于類目來說,搜索蘋果有可能是一個手機,也有可能是水果,那到底是想買手機還是想吃水果,是有一個概率的,不同用戶有不同的傾向性,但是目前我們構建的圖譜還不能做到特別個性化,它只是一個宏觀的統計,搜蘋果時有80%的用戶其實是要買蘋果手機的,有20%的用戶要買水果,這樣就給了我們一種排序的參考。知識圖譜其實是做了一個非個性化全局的知識構建,通過商品庫去分析靜態概率,最后根據用戶點擊行為會做一些動態調整,調整完的知識圖譜再用在后面的排序上。

3. 意圖識別

將用戶搜索詞做了預處理之后,基于分詞結果識別搜索詞對應的實體類型,可以知道用戶搜一個商品的時候,搜的是什么樣的實體,是一個品牌,還是一個商品名稱,還可以通過圖譜去猜測用戶的搜索意圖,如果他只輸一個蘋果,能猜出來很大概率上可能要買手機,也可以把其他實體類型也猜出來,猜完了以后,還是有一部分猜不出來,那猜不出來的這部分怎么辦呢,就要用意圖識別。

那么如何做意圖識別,使用用戶導入的物料庫自動的去訓練意圖模型,意圖識別就是去做類目預測,甚至去做一些字面沒有表達出來的其他實體類型的預測。在初始的物料庫里面,商品的各種屬性就是一些天然的標注數據,使用這些標注數據去訓練一個初始的意圖模型,來預測隱含的實體類型,當這個初始模型訓練完成之后,再用搜索日志去動態調整這個意圖模型。

做完預處理、分詞、實體識別、基于知識圖譜的預測和意圖識別,能做到什么效果呢?能做到搜"手機",根據這個用戶的信息,就可以知道手機是一個商品名字,還可以猜出來具體商品,但是猜的可能不一定那么準,這個用戶可能有80%的概率要買蘋果手機,而且他買的這個蘋果手機可能是iPhone 11,還可能猜出來要買的顏色是紅色的。這樣在用戶輸入一個詞的時候,就能預測出他可能要搜的所有的信息,當然這個預測有時準有時不準,但后面會調整,這樣的話,就可以拿著這些信息去做一些召回。

意圖識別有哪些方法,意圖識別的方法有很多種,因為意圖識別本身用的就是分類器,分類器其實有好多種,但是經過各種對比之后,我們選擇了能在線上使用的FastText,同等效果下,FastText是最快的,并且簡單高效,實用性高。

4. 粗排

做完前面的工作就開始做召回,從用戶搜索的一個詞通過一系列流程,通過知識圖譜 ( 其實知識圖譜放的是一些比較頭部的實體,但是長尾的實體詞還是需要意圖識別的方法來預測 ) 預測出了各種信息,拿著這些信息去構建召回的條件,用這個召回的條件去召回出來完整的結果集合,這個時候召回的工作就完成了。

召回的工作完成之后,接下來就是粗排,可以使用簡單的模型來粗排,這個模型里面的特征可以用相關性 ( 搜索和推薦不同,搜索一開始就會有相關性,但推薦就不會有相關性,推薦不會先輸入一些搜索詞 )、時間、熱度、銷量、好評數和收藏數等等特征,訓練出簡單的模型,做一些粗排的排序,進行截斷,進入下一個環節,想要更簡單的話,可以找出核心的特征,做加權平均也可以。粗排還不能達到個性化的效果,當然也可以把粗排做得更個性化,可以根據不同搜索的用戶做個性化的粗排模型。

5. 精排

得到粗排結果以后,接下來就是精排,對于搜索來講,目前來講主要的優化目標是CTR,用的主要是CTR預估方法,CTR預估有很多不同的方法,比如傳統的特征工程方法、深度學習方法等,也可以使用第四范式自研的HyperCycle。

特征工程方法主要是利用不同種類的多種特征,構建機器學習排序模型,上面列了幾組特征,有搜索詞特征、相關性特征、用戶特征、商品特征和行為特征等。

深度學習方法也是常用的CTR預估方法,有很多深度學習模型可以用于搜索場景的排序,比如DeepFM、Wide&Deep等。

我們系統中主要使用的是自研的HyperCycle。簡單來說會自動蓄水積累數據、自動探索模型、自動挖掘特征,自動訓練上線,還會定期自動更新,詳細信息可以參考后面石光川分享的HyperCycle。

6. 其他

搜索中會出現推薦相關的應用場景,像搜索底紋、搜索發現、搜索提示、猜你喜歡和相關搜索等等都和推薦相關。

搜索底紋就是搜索框里面唯一的那個詞,其實就是對搜索框top1的推薦,根據用戶的歷史行為,推薦出該用戶最有可能搜的詞匯取top1放在搜索底紋里,然后推薦給用戶,用戶看見這個底紋以后就有可能去搜這個底紋上的搜索詞,目的是希望引導用戶,猜出用戶想要搜什么,提高轉化率;搜索發現跟搜索底紋的原理差不多,只是有了更多推薦的搜索詞;搜索提示是在搜索中做一些推薦,相關搜索是在沒有搜索結果時做一些相關推薦;有的地方還會有猜你喜歡,猜你喜歡其實是一個純推薦的場景,當用戶打開搜索頁面時,去猜用戶最想要搜索的是什么,然后推薦給用戶。這些其實都是搜索中的推薦,搜索中的流量和推薦中的流量是完全可以打通的。

以上,逐個講了整個搜索的流程,那么現在分步的去看搜索一個詞時是怎樣的過程。第一步會先輸入搜索詞"康師傅方便面",第二步預處理,預處理會做一些事情,首先是分詞,之后會算出來該搜索詞可能的實體類型,比如康師傅是一個品牌,它識別出康師傅是一個品牌,方便面可能是一種修飾語,也可能是一種類型,還有一些同義詞:袋裝面、桶裝面和泡面,做完第二步的處理,會拿到這樣一些處理結果;第三步意圖識別,可以看到有96%的概率所屬類目是糧油調味;

第四步構建一個搜索query,從ES召回結果;第五步拿到ES召回的結果之后,做粗排并截斷;第六步做精排;最后做基于業務規則的運營干預,把最終的搜索結果返回給用戶,以上就是完整的技術流程。

03
應用案例和效果

最后,我們看看搜索技術方案應用案例,分析產生的效果。

在一些零售企業場景應用之后搜索結果準確率提升了50%,整個商品的覆蓋率提高了3倍,解決了客戶的搜索體驗痛點。

這是上線前后搜索結果的對比,沒上線前搜索"蘋果"時,排在前面并不是蘋果,上線智能搜索之后,搜索結果都是"蘋果"相關的。

按品類搜索,優化前搜索"水",Top 5返回了"豐水梨"、"柔膚水"等完全不相關產品,優化后搜索"水",Top 5返回是和水緊密相關商品。

按品牌搜索,優化前搜索"安慕希",Top 5返回了"希藝歐"完全不相關商品,優化后搜索"安慕希",Top 5返回是和品牌緊密相關商品。

按同義詞搜索,優化前搜索"圣女果",Top5返回了"果汁飲料"、"芒果味果凍"毫不相關的商品,優化后搜索"圣女果",Top5返回是和圣女果緊密相關商品。

優化后,可以進行智能糾錯和拼音搜索,比如搜索 "平果"、"pingguo" 和 "pinguo" 時,都能準確搜索出蘋果相關的商品。

嘉賓介紹:

邢少敏,17年加入第四范式,一直在做業務產品的研發,最初做智能客服系列產品,去年孵化了智能搜索產品,今年同時在做智能推薦產品的研發。

今天的分享就到這里,謝謝大家。

特別推薦一個分享架構+算法的優質內容,還沒關注的小伙伴,可以長按關注一下:

長按訂閱更多精彩▼

如有收獲,點個在看,誠摯感謝

免責聲明:本文內容由21ic獲得授權后發布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯系我們,謝謝!

Popular articles

主站蜘蛛池模板: 人和与禽交| 玉蒲团之天下第一| 国产亚洲精品一品区99热| 婷婷色天使在线视频观看| 国产麻豆剧果冻传媒一区| 欧美军人男男同videos可播放| 免费国产怡红院在线观看| 好湿好大硬得深一点动态图| 男人在线资源| 国产欧美日韩综合精品一区二区| 国产精品久久久久9999| 亚洲一级生活片| 夜先锋av资源网站| 欧美日韩国产一区二区三区欧| 波多野结衣不打码视频| 又爽又黄又无遮挡网站| 精品无码久久久久久久动漫 | avav在线播放| 四虎永久地址| 最近免费中文字幕mv在线电影| 向日葵视频app免费下载| 又湿又紧又大又爽a视频| 渣男渣女抹胸渣男渣女app| 菠萝蜜视频网在线www| 国产精品爽爽va在线观看无码| 中文字幕制服诱惑| 99re热在线观看| 美女把尿口扒开让男人添| 日韩成人午夜| 欧美猛交xxxx免费看| 国产精品久久一区二区三区| 久热精品在线| 樱花草视频www| 久久成人国产精品一区二区| 亚洲综合色丁香婷婷六月图片| 国产嫩草在线观看| 黑人巨鞭大战洋妞| 黄网站在线播放| 精品久久久久香蕉网| 波多野结衣一区二区| 色播影院性播免费看|