京東集團高級副總裁張晨總結:京東是一家以互聯(lián)網(wǎng)科學引領的網(wǎng)絡零售企業(yè),零售是它的基因,而零售最根本的是要給用戶做好服務,京東可以通過技術手段把服務體驗提升更多。
物流已經(jīng)成為京東的核心競爭力,在今年618大促期間,有大量的商品實現(xiàn)了當日達,要讓物流更快可以通過大數(shù)據(jù)的方式來實現(xiàn),例如對某個居住小區(qū)的消費偏好進行分析,可以預先判斷哪些商品最暢銷,把商品放在小區(qū)附近的配送站,當有消費者下單,便可實現(xiàn)配送,這樣能提升用戶體驗。
提升用戶體驗的第二方面,是在大數(shù)據(jù)的基礎上實現(xiàn)的精準推送。零售企業(yè)對商品是否暢銷的一個判斷是周轉率,而京東要實現(xiàn)提升周轉率便是對商品的精準推送,“千人千面”產(chǎn)品體現(xiàn)的是這樣的思路,京東商城研發(fā)部“推薦搜索部”劉尚堃表示:“在當前推薦位的情況下,再提升40%、50%的效能是能做到的,因為京東個性化首頁產(chǎn)品上線的時間并不長。”
張晨認為,數(shù)據(jù)量越大,后發(fā)的價值越大,因為京東的商品大多數(shù)屬于自營,貨品有來源、質量有保障、交易是真實的,這些讓京東成為“中國互聯(lián)網(wǎng)企業(yè)里數(shù)據(jù)最好的公司之一,用這些優(yōu)質的數(shù)據(jù)反過來服務好用戶,可挖的細節(jié)太多,是一件做不完的事情。”
京東的數(shù)據(jù)主要兩大類,用戶行為數(shù)據(jù)和基于內(nèi)容的數(shù)據(jù)。京東會根據(jù)用戶的行為數(shù)據(jù)構建用戶畫像,比如是不是有小孩,是不是男性,在京東的生命周期怎么樣,促銷的敏感度如何,在家還是單位購物多,購買率的等級是什么?京東會根據(jù)用戶的行為做推薦,這大多是通過離線數(shù)據(jù)計算的。此外,系統(tǒng)還會根據(jù)用戶的實時行為進行推薦,比如判斷出用戶喜歡瀏覽牙刷的品類,喜歡電動牙刷,而且偏好聲波類電動牙刷。
通過“共現(xiàn)矩陣”的辦法,京東推薦系統(tǒng)可以度量商品到商品的、用戶到用戶的商品、商品到商品的相似指數(shù)。比如用戶對某個商品的分值比較高,瀏覽的分值比較高,購買的分值更高。通過這些辦法,可以找到比較貼近其需求和愛好的產(chǎn)品推薦給消費者,在這些基礎算法之外,京東還會應用高級算法提升推薦的效果。
京東還會通過一些模型進行推薦,比如用戶的購買力模型、周期商品購買模型、LDA模型等。例如,京東現(xiàn)在有大量第三方商家,會存在有“一品多商”的問題,京東就會用圖片相似等方法做過濾。
在排序上,京東會進行兩級預估,先預估CTR(點擊率),再預估CVR(轉化率),由此進行排序。這是如何實現(xiàn)的呢?對于任何一個商品,京東都認為它具備品牌、中心詞、類目、擴展屬性等指標,可以用銷售量來度量。每個商品和商品之間有一張購買的網(wǎng),每個商品的pagerank也可以使用,這個指標不但考慮了數(shù)量問題,還考慮了網(wǎng)狀關系,考量的指標還有評論數(shù)、好評度、瀏覽深度等。拿一個實際的例子來說,如果某用戶購買產(chǎn)后塑身產(chǎn)品,那么孕婦裝雖然有關聯(lián)度,但這種關系會被劇烈地降低權重,因為邏輯上是先懷孕后生產(chǎn)再塑身。
京東個性化與排序平臺部高級總監(jiān)鄒宇分享了對冷啟動用戶的處理方法。所謂的“冷啟動”是指一個新用戶,系統(tǒng)中沒有他的行為數(shù)據(jù)。這個時候,京東做法就是根據(jù)人以群分的歸類法則。比如基于社交關系推薦。當然如果這些沒有,可能找更粗的人群分群的方式,比如性別、年齡、地域。當然最極端的情況下,完全沒有,那就根據(jù)最近的熱點進行類別多樣化精選推薦的策略,把每一類當下最流行的商品拼在一起推薦給新用戶去看,這其實是試探的過程,然后根據(jù)用戶的交互反饋,慢慢向用戶主信息上收斂。
重視實驗與監(jiān)控迅速確認算法優(yōu)劣
京東推薦平臺部總監(jiān)劉思喆介紹,在推薦系統(tǒng)中,京東非常重視實驗與監(jiān)控。京東是算法和架構分離,架構可以管頂層工程,算法就是每天嘗試各種各樣的特征、數(shù)據(jù)、規(guī)則,以及流量最終的效果怎么樣。
京東推薦的實驗系統(tǒng)采用了外部的頁面配置。流量實時生效,而且流量比例是可以任意分配的。簡單修改某一個線上實驗,它的流量就可以實現(xiàn)秒級線上更新,第二天甚至實時可以看到結果。京東的分流策略常用兩種,第一種是隨機,每次刷新看到的結果可能都不一樣,比如十組實驗,每一版都是10%的概率呈現(xiàn);第二種就是相對固定,一旦看到第一次結果之后,就保證你以后看到的結果都是這個樣子。京東的實驗系統(tǒng)支持版本回溯,算法工程師一旦出現(xiàn)誤配,可以找回相關的版本和權限。
除了實時實驗之外,京東實驗系統(tǒng)同樣有離線debug平臺支持,輸入?yún)?shù)可以是一個或多個SKU,也可以是類,進行不同實驗的結果召回,定位不同實驗的效果。這樣算法工程師可以通過自測幾個小的例子,迅速找到自己的算法,在沒有切流量之前問題在哪,或者到底好在什么地方。
持續(xù)優(yōu)化迭代提升推薦系統(tǒng)價值
劉思喆認為,算法優(yōu)化必須逐步迭代。不可能忽然上一個很牛的算法保證效果提高50%,工程師之間的相互交流有助于提高算法優(yōu)化效果。
而通過數(shù)據(jù)的挖掘,京東也會發(fā)現(xiàn),某些用戶從來不點任何推薦,不點任何廣告,也就是對這個東西完完全全不感冒。那可能京東也有可能對該用戶隱藏推薦系統(tǒng)。“用戶如果能深度地參與到推薦系統(tǒng)里面來,當然可能是無意識的,這時推薦系統(tǒng)才真正做到了極致。”
鄒宇認為,京東大數(shù)據(jù)的價值越來越大。舉例來說,互聯(lián)網(wǎng)展示廣告的點擊率通常能到千分之一就不錯了,轉化率更低,通常是萬分之幾。但京東的搜索轉化率高于這種廣告轉化率的幾個數(shù)量級,因此,京東的數(shù)據(jù)會有越來越高的價值,京東的推薦系統(tǒng)在推動業(yè)務成長方面的作用也將越來越重要。