成人免费区一区二区三区,极品TheAV在线,亚洲超碰一区欧美,AV福利在线免

 
 
| | | |
關(guān)于點擊率模型,你知道這三點就夠了 ?
關(guān)于點擊率模型,你知道這三點就夠了

關(guān)于點擊率模型,你知道這三點就夠了》》》上海會務公司《《《

上述的模型選擇都是結(jié)合業(yè)務場景做出的選擇,這里按我個人理解給出一個連貫一些的點擊率預估模型演進的過程:

之前提及過,一般會以高維sparse特征的LR模型作為基線模型,也有用dense特征直接結(jié)合LR來建模的。由于LR是線性分類器,后者需要對dense特征手工加各種非線性變換,遇到瓶頸后會轉(zhuǎn)向前者,或者改成使用GBDT,NN等非線性模型。而高維sparse特征結(jié)合LR的方案,人工在特征工程遇到一定瓶頸后,會采用FM等方案自動做特征發(fā)現(xiàn),為了解決時效性的問題,會結(jié)合batch的訓練加上Online的更新方式,或者直接轉(zhuǎn)向完全Online的方案如ftrl。還有一個方向是會結(jié)合自身的業(yè)務場景,對模型的損失函數(shù)做一些創(chuàng)新,比如yahoo的laser,阿里的coupled group lasso,比賽里的field aware的ffm等等。

在比賽里為了提升效果,很常見的一個策略是把各個模型融合在一起,最簡單的有把各個模型的結(jié)果做線性加權(quán),也有把各個模型進行stacking的方案,比如Facebook的gbdt+lr,再有把各個模型的信息喂給dnn去學習的。對這三種方案來說,效果最好的,我個人比較相信,是用dnn去做模型的blending(融合)。注意這里說的DNN不是指具體的某個模型dbn,cnn,而是指將各種淺層模型的中間權(quán)重,預估結(jié)果,原始的靜態(tài),動態(tài)特征等作為DNN的輸入,使用dnn后饋的輸入梯度來聯(lián)合更新這些結(jié)構(gòu)的參數(shù)。對DNN大家可能比較詬病的是其訓練效率,但我覺得在大公司可能還好,聽在百度的朋友說DNN的開發(fā)代價和訓練開銷隨著探索在逐步降低,不一定比gbdt等非線性模型代價高很多。

當然,對小公司來說,直接走到DNN有點用力過猛,我在這里簡要介紹一下FM+gbdt去融合的方案:第一步當然也是基于大規(guī)模稀疏特征LR。第二步,為了更好的刻畫長尾,自動發(fā)現(xiàn)組合特征,采用了FM。在同樣的訓練時間下,AUC提升,模型泛化性能可控。第三步:為了更好的fine tuning頭部和提升時效性,采用了用gbdt加動態(tài)特征的模型。最后呢,把這兩個模型簡單的做線性融合,由于倆個模型的特征和模型差異性較大,融合后auc也有顯著的提升。

對于gbdt,開源的實現(xiàn)有很多,但效果差別比較大,這里推薦一個開源實現(xiàn)xgboost,很多kaggle上的比賽借助這個工具都拿到了好名次。之前我寫過一篇叫做xgboost導讀和實戰(zhàn)的文章,對原始paper中的公式給出了一些推導細節(jié),這里不再詳述。簡單的說原始paper里是在函數(shù)空間上梯度下降求解,在求解步長時一般都是固定學習率。而xgboost對損失函數(shù)做了二階的泰勒展開,考慮了損失函數(shù)的二階梯度信息,并加入了正則項整體求最優(yōu)解,有比較好的泛化性能。另外在具體建樹的分裂節(jié)點過程也不是大多數(shù)實現(xiàn)里基于信息增益等,而是結(jié)合具體目標函數(shù)的真實下降量。有人做過各實現(xiàn)的評測,xgboost在性能和效果上都是相當不錯的。

BSp-SSp

幾個典型的模型基本就簡要講到這里,最后講一下模型求解的優(yōu)化算法,計算廣告書里給出了不少經(jīng)典的優(yōu)化凸優(yōu)化算法的原理和實現(xiàn)代碼,LBFGS,trust region等,這些凸優(yōu)化算法基本上都是掃一遍樣本,迭代的更新一次模型參數(shù),想要提升模型訓練收斂的效率,主要思路是降低掃樣本的成本,比如把樣本cache在內(nèi)存里,另外就是降低迭代輪數(shù),比如書里提到的admm。

這樣的batch做迭代的優(yōu)化方法現(xiàn)在被稱為一種叫做BSp(Bulk Synchronous parallel)的方式,與之相對應的叫做SSp(StalenessSynchronous parallel),主要是基于異步的minibatch sgd的優(yōu)化算法來更新,加上了一個bounded的一致性協(xié)議來保證收斂。補充一點的是,很多實現(xiàn)中其實是完全異步來實現(xiàn)的,更為簡單一些。SSp的方式雖然單輪迭代的網(wǎng)絡開銷不小,但是掃一遍樣本,minibatch sgd可以更新很多次模型,迭代的次數(shù)相對LBFGS會降低很多,所以整體的時間開銷相對也會少很多,另外可以結(jié)合online更新進一步降低訓練時間。從底層消息通訊的工程架構(gòu)上來說,ssp的方式主要是異步的push pull,基于消息隊列如zeromq等去實現(xiàn),相對bsp的這樣的同步原語,實現(xiàn)起來相對簡單優(yōu)雅些,也有一些不錯的開源實現(xiàn)比如李沐的dmlc。

ssp方式的缺點是數(shù)據(jù)量少的時候minibatch sgd的優(yōu)勢相對不明顯,需要多調(diào)調(diào)參數(shù),沒有batch算法省事??傮w說來,趨勢是在從bsp的架構(gòu)往ssp的架構(gòu)在轉(zhuǎn),包括一些dnn的實現(xiàn),基于SSp的方式加Online更新后訓練模型的開銷相對已經(jīng)較小了。

(轉(zhuǎn)自微信公眾號:計算廣告)

行業(yè)新聞
上海開業(yè)策劃公司:紅紅火火,欣欣向
上海會議活動策劃公司的功效性體現(xiàn)在
了解上海會議活動策劃布置方案
上海會議策劃中如何安排茶歇冷餐?
上海會議策劃公司的核心職責是什么
上海公關(guān)活動公司:活動策劃,一站式
上海公關(guān)活動策劃:個性化定制、別出
上海公關(guān)策劃公司如何制定公關(guān)活動
上海新品發(fā)布會策劃的方案流程
上海發(fā)布會策劃的工作內(nèi)容
上海發(fā)布會策劃公司:新品發(fā)布會活動
上海慶典策劃:舉辦慶典典禮要四個方
聯(lián)系我們? |? Contact us ?
Copy Right 2001-2020年 邦行廣告(www.zqyvictor.com.cn) 上海邦行廣告有限公司版權(quán)所有 備案號: 滬ICP備19043197號-1
邦行廣告是一家專業(yè)的上海公關(guān)公司、上海會務公司、上?;顒硬邉澒?/a>、上海品牌年會活動策劃公司;公司核心成員具有多年4A廣告公司、TOP公關(guān)公司從業(yè)經(jīng)驗,與我們攜手,讓您的品牌更具有價值。
電話:13671607508? |? 客戶咨詢QQ:1473996205? |? E-mail:ocmc@ocmc.com.cn? |? 地址:上海市長寧區(qū)凱旋路613號創(chuàng)邑?源G棟 | 網(wǎng)站地圖 |百度地圖 |
點我在線咨詢
24小時免費熱線
13671607508
上海
021-60481008
杭州
13671607508
業(yè)務咨詢(微信同號)
金先生 13671607508
 
久久久99老汉推车| 人妻精品久色| 爱搞网站一区二区| 久久悠视频| 国产精品久久久fu| 日本一区二区枫富爱在线| 91在线精品秘密不卡视频| 欧美日本一本免费一区| 一区二区三区插逼视频| 91粗天 堂| 好吊妞操哦哟| 日b久久久久久久| 国产晚上啪啪啪| 国产一区二区三区婷婷色| 国产视频不卡| 一区二 区 搜索| 草逼视频网站免费网站| 欧美亚洲日韩图区| 在线AⅤ传媒| 精品caoporn—| 色香蕉伊人在线| 国产一级黄网站| 成人在线观看爽爽爽爽| 日日干日日玩日日操| 日韩人妻自拍视频在线| 国产一区二三区久久久| 大香蕉伊然在线观看97| 极品免费国产一区二区三区| 亚洲夜晚福利| 久久推油| 日韩欧美美女后入| 久久人很黄的视频| 舔熟女91| 美女激情AⅤH| 国产强奸乱伦精品无码| 不卡日AV中文字幕| 老司机无码二区三区| 亚洲 欧美 日韩无码| 日韩五十路双飞| 日韩人妻电影| 美女国产精品|