居理新房作為國(guó)內(nèi)最大新房電商平臺(tái),一直致力于深入探索數(shù)據(jù)在房產(chǎn)流通中的應(yīng)用價(jià)值,提升居理新房用戶的購(gòu)房體驗(yàn)。2018年,居理新房在業(yè)內(nèi)率先成立了AI大數(shù)據(jù)研究院,從而更加系統(tǒng)化的挖掘數(shù)據(jù)的決策力和洞察力,通過(guò)大數(shù)據(jù)和AI技術(shù)發(fā)現(xiàn)和解決業(yè)務(wù)和產(chǎn)品核心問(wèn)題,為業(yè)務(wù)的高速增長(zhǎng)和用戶體驗(yàn)的持續(xù)升級(jí)提供動(dòng)力。
日前,居理新房大數(shù)據(jù)VP張惟師在公開(kāi)場(chǎng)合發(fā)表演講。他表示,目前居理新房已經(jīng)打造了獨(dú)特的線上線下閉環(huán)的生態(tài)系統(tǒng)。
新房業(yè)務(wù)場(chǎng)景客單價(jià)極高,頻率極低,對(duì)比新聞信息流、廣告推薦、快消商品等,是產(chǎn)業(yè)互聯(lián)網(wǎng)中典型算法不友好場(chǎng)景。居理新房搭建了復(fù)用性和擴(kuò)展性都比較好的算法平臺(tái),可以通過(guò)一些靈活的配置,實(shí)現(xiàn)相關(guān)監(jiān)控、任務(wù)調(diào)度、模型校驗(yàn)、可視化頁(yè)面以及AB Test。算法平臺(tái)底層支持多種算法引擎包括機(jī)器學(xué)習(xí)模型平臺(tái)(Spark-MLlib,Xgboost)、深度學(xué)習(xí)平臺(tái)(Tensorflow,Pytorch)以及圖相關(guān)模型,通過(guò)pipeline的方法整合數(shù)據(jù)流和算法引擎。
以優(yōu)選客戶識(shí)別算法為例,張惟師從以下方面介紹了居理新房的算法設(shè)計(jì)思路。
一、樣本選擇
如何選擇正負(fù)樣本?比較直觀的做法將“最終是否發(fā)生認(rèn)購(gòu)行為”作為正負(fù)樣本的評(píng)估依據(jù)。
在居理新房的業(yè)務(wù)場(chǎng)景下,由于房屋交易業(yè)務(wù)轉(zhuǎn)化率低,從線上訪問(wèn)UV到最終房屋認(rèn)購(gòu),比例在萬(wàn)分之幾左右。
為了解決樣本稀疏問(wèn)題,通過(guò)設(shè)置了一個(gè)代理目標(biāo),將是否發(fā)生帶看行為作為正負(fù)樣本的評(píng)估依據(jù)。帶看行為發(fā)生在認(rèn)購(gòu)行為之前,發(fā)生認(rèn)購(gòu)行為占帶看比例約十分之一,周期也可從一到兩個(gè)月縮減到兩周左右。
樣本在一個(gè)周期T內(nèi),將是否被帶看作為正負(fù)樣本的評(píng)估依據(jù)。另外可以后續(xù)模型訓(xùn)練時(shí),提高具有多次帶看行為或者發(fā)生認(rèn)購(gòu)行為的權(quán)重。在一個(gè)時(shí)間周期T內(nèi),可能存在跟單不完全的情況,但這部分比例在10%以內(nèi),可以忽略。由于正負(fù)樣本比例差異較大,在樣本量較大的情況下,這種比例可以接受,但在樣本量較少的情況下,正負(fù)樣本比例差異導(dǎo)致模型學(xué)習(xí)困難,因此在訓(xùn)練模型前可以先對(duì)樣本進(jìn)行采樣預(yù)處理。常見(jiàn)的樣本采樣方法有欠采樣和過(guò)采樣。欠采樣是保持?jǐn)?shù)據(jù)集正樣本數(shù)量不變,根據(jù)一定比例去隨機(jī)抽取負(fù)樣本,過(guò)采樣是通過(guò)已有正樣本來(lái)構(gòu)造虛擬正樣本,來(lái)減小正負(fù)樣本差異,常見(jiàn)的過(guò)采樣方法有SMOTE等。但是采樣方法會(huì)影響數(shù)據(jù)集中的正負(fù)樣本分布,在關(guān)注概率值的分類(lèi)等業(yè)務(wù)場(chǎng)景下,需要對(duì)模型輸出的概率進(jìn)行校準(zhǔn)。
二、特征工程
在特征工程中,特征類(lèi)型主要有以下三類(lèi),信息來(lái)源類(lèi)、用戶App行為類(lèi)、用戶粘性類(lèi)。
其中信息渠道來(lái)源是指用戶是來(lái)自百度、Feed、廣點(diǎn)通等平臺(tái),多設(shè)備、多賬號(hào)等主要是用于衡量用戶是否發(fā)生過(guò)作弊行為。
用戶App行為類(lèi)特征是占比最大的一類(lèi)特征,主要是指用戶在留電話號(hào)碼前,在App上點(diǎn)擊、瀏覽、搜索等行為。
用戶粘性類(lèi)特征是一些抽象統(tǒng)計(jì)特征,其中訪問(wèn)深度是指App頁(yè)面用戶訪問(wèn)最長(zhǎng)的路徑,廣度是指App中用戶使用的功能的數(shù)量。
三、模型調(diào)優(yōu)
模型主要采用的傳統(tǒng)模型LR、RF、XGBoost、LightGBM,也嘗試了使用Deep Learning等,但實(shí)際效果不如傳統(tǒng)模型好。
在當(dāng)前場(chǎng)景下樣本數(shù)量少,而且版本更新迭代較快的時(shí)候,常遇到數(shù)據(jù)分布不一致的問(wèn)題。產(chǎn)品迭代了新的版本,但離線模型訓(xùn)練用的還是老的數(shù)據(jù),而線上用的新版數(shù)據(jù),這種信息不一致將拉低模型效果。當(dāng)前采用的方案是時(shí)間窗口滾動(dòng)的方式來(lái)訓(xùn)練模型,并盡量剔除一些可能因?yàn)榘姹緦?dǎo)致數(shù)據(jù)不一致的特征,努力將影響降至最低。
在無(wú)論是深度學(xué)習(xí)還是傳統(tǒng)機(jī)器學(xué)習(xí),參數(shù)調(diào)優(yōu)的方法大同小異,主要是網(wǎng)格搜索(Grid Search)、人工參數(shù)調(diào)優(yōu)以及分城市閾值調(diào)優(yōu)。網(wǎng)格搜索調(diào)優(yōu)雖然不能一定找到最優(yōu)解,但是花費(fèi)時(shí)間較短。另外也嘗試了一些貝葉斯優(yōu)化的方法,它和grid search有的區(qū)別就是它會(huì)根據(jù)上一輪做算法的參數(shù)結(jié)果去選擇最有可能產(chǎn)生最優(yōu)算法參數(shù)方向去優(yōu)化這個(gè)參數(shù),利用貝葉斯優(yōu)化自動(dòng)幫忙尋找參數(shù)優(yōu)化方向。貝葉斯尋優(yōu)容易陷入局部最優(yōu),需要多進(jìn)行幾輪貝葉斯優(yōu)化,手工選出里面的極大值。分城市閾值調(diào)優(yōu)是遇到的另一個(gè)更嚴(yán)重的一個(gè)場(chǎng)景,由于居理新房業(yè)務(wù)分布在全國(guó)12個(gè)城市,而且每個(gè)城市有自己不同的特點(diǎn),用戶的行為都不一樣,在模型分類(lèi)時(shí),每個(gè)城市應(yīng)采取不同的閾值。在本身整體數(shù)據(jù)量就不多情況,每個(gè)城市的數(shù)據(jù)量更少,這種情況下或者將城市信息加入特征,或者每個(gè)城市都分別訓(xùn)練一個(gè)模型。
四、可解釋性分析
整個(gè)房產(chǎn)行業(yè)的客單價(jià)都比較高,每個(gè)客戶都特別的寶貴。若將好線索誤判,沒(méi)有為客戶好好服務(wù)將會(huì)導(dǎo)致較大的損失。
對(duì)于居理新房的業(yè)務(wù)人員(客服、咨詢師)而言,模型預(yù)估結(jié)果會(huì)與他們?cè)械囊恍┕ぷ髂J胶土?xí)慣矛盾,需要向業(yè)務(wù)人員解釋模型預(yù)估結(jié)果。當(dāng)算法去服務(wù)于業(yè)務(wù)團(tuán)隊(duì)的時(shí)候,這種可解釋性顯得尤為重要。
通過(guò)xgboost計(jì)算得到的特征重要性(feature importance)不一定是完全可解釋的,和特征在決策森林中出現(xiàn)的次數(shù)相關(guān)。但特征在決策森林里面出現(xiàn)的次數(shù)越多并不能說(shuō)明特征越重要。這里采用的是SHAP來(lái)進(jìn)行可解釋性分析,SHAP計(jì)算的是一個(gè)特征加入到模型時(shí)的邊際貢獻(xiàn),考慮了該特征在所有的特征序列的情況下不同的邊際貢獻(xiàn)。在SHAP圖中,縱坐標(biāo)是特征列表,橫坐標(biāo)是從負(fù)數(shù)到正數(shù)的取值范圍,表示對(duì)模型輸出值的影響。留電口、渠道特征是從SHAP方法來(lái)看是最為重要的特征。一般來(lái)說(shuō)通過(guò)搜索渠道來(lái)的用戶,購(gòu)房的意向較強(qiáng)烈,這個(gè)也和基本認(rèn)知符合。另一個(gè)比較顯著的特征pv_p_select_city,表示切換城市的動(dòng)作越多,購(gòu)房意向越弱。
五、實(shí)際效果
從模型效果來(lái)看,客戶認(rèn)購(gòu)量提升了十七個(gè)百分點(diǎn),基本達(dá)到了算法預(yù)期目標(biāo)。從認(rèn)購(gòu)到帶看的目標(biāo)變化,將周期從兩個(gè)月縮減到了兩周,后續(xù)希望能找到一個(gè)更好的指標(biāo)來(lái)代替帶看,進(jìn)一步縮短模型周期。另外居理新房還做了很多線下數(shù)據(jù)的累積,如咨詢師與客戶的電話錄音、交通行為等,通過(guò)這些離線數(shù)據(jù)能大概分析出咨詢師和客戶的行為。目前不同的城市數(shù)據(jù)累積量不同,等數(shù)據(jù)量積累到一定程度,可以為不同的城市設(shè)置獨(dú)立的模型。另外模型融合(stacking)是后續(xù)優(yōu)化的方向,看能不能做出更有意思的效果。目前的模型是基于無(wú)線數(shù)據(jù),PC數(shù)據(jù)相對(duì)無(wú)線來(lái)說(shuō),用戶行為比較少,下一步是跨站整合PC和無(wú)線的數(shù)據(jù)。
相關(guān)文章:
杭州市濱江區(qū)偉業(yè)路3號(hào)
業(yè)務(wù)熱線(微信同號(hào)):18143453325
業(yè)務(wù)郵箱:[email protected]
業(yè)務(wù)QQ:2848414880
目標(biāo):致力于幫助中國(guó)企業(yè)出海淘金
使命:為國(guó)內(nèi)企業(yè)跨境出海提供動(dòng)力支持
愿景:打造用戶期待和尊重的外貿(mào)服務(wù)商
頂部
合作
微信
公眾號(hào)