推薦系統(tǒng)MostPopular算法的Python實(shí)現(xiàn)方式
推薦系統(tǒng)MostPopular算法的Python實(shí)現(xiàn)
MostPopular 算法的 是指對(duì)每個(gè)用戶(hù)都選擇出當(dāng)前流行度最高的Top-K個(gè)物品進(jìn)行推薦,在推薦的時(shí)候,需要去除用戶(hù)原先就瀏覽過(guò)的項(xiàng)目。
算法代碼如下
# Most Pop def MostPopular(pop_dict, I, K): ? ? ''' ? ? ? ? pop_dic:流行度字典,存儲(chǔ)了每個(gè)item:pop_value的鍵值對(duì)。 ? ? ? ? I:用戶(hù)可以選擇的Item空間(需去除已經(jīng)看過(guò)的item) ? ? ? ? K:Top-K 值,推薦出K個(gè)item給用戶(hù) ? ? ''' ? ? pop_dict_sort = sorted(pop_dict.items(), key=lambda kv: (kv[1], kv[0]), reverse=True) ? ? for each_item in pop_dict_sort: ? ? ? ? if each_item[0] not in I: ? ? ? ? ? ? pop_dict_sort.remove(each_item) ? ? return [i[0] for i in pop_dict_sort[:K]]
在ML-1M數(shù)據(jù)集上的測(cè)試結(jié)果(100個(gè)用戶(hù))
Precision: 0.05399999999999998
Recall: 0.0659683173313864
HR: 0.08
NDCG: 0.2668352016595219
ARP: 25.750500000000002
推薦系統(tǒng)的幾種常用算法總結(jié)
之前也做過(guò)一些關(guān)于推薦系統(tǒng)的項(xiàng)目,下面就來(lái)系統(tǒng)的總結(jié)一下。
一、什么是推薦系統(tǒng)?
引用百度百科的一段解釋就是:“利用電子商務(wù)網(wǎng)站向客戶(hù)提供商品信息和建議,幫助用戶(hù)決定應(yīng)該購(gòu)買(mǎi)什么產(chǎn)品,模擬銷(xiāo)售人員幫助客戶(hù)完成購(gòu)買(mǎi)過(guò)程。個(gè)性化推薦是根據(jù)用戶(hù)的興趣特點(diǎn)和購(gòu)買(mǎi)行為,向用戶(hù)推薦用戶(hù)感興趣的信息和商品。”
在這個(gè)數(shù)據(jù)過(guò)載的時(shí)代,信息的消費(fèi)者需要從海量的信息中找到自己所需要的信息,信息的生產(chǎn)者要讓自己生產(chǎn)的信息在海量的信息中脫穎而出,這時(shí)推薦系統(tǒng)就應(yīng)運(yùn)而生了。對(duì)用戶(hù)而言,推薦系統(tǒng)不需要用戶(hù)提供明確的目標(biāo);對(duì)物品而言,推薦系統(tǒng)解決了2/8現(xiàn)象的問(wèn)題(也叫長(zhǎng)尾效應(yīng)),讓小眾的物品可以展示到需要它們的用戶(hù)面前。
二、推薦系統(tǒng)要解決的問(wèn)題?
1、幫助用戶(hù)找到想要的物品 如:書(shū)籍、電影等
2、可以降低信息過(guò)載
3、有利于提高站點(diǎn)的點(diǎn)擊率/轉(zhuǎn)化率
4、有利于對(duì)用戶(hù)進(jìn)行深入了解,為用戶(hù)提供個(gè)性化服務(wù)
三、推薦系統(tǒng)的發(fā)展趨勢(shì)?
推薦系統(tǒng)的研究大致可以分為三個(gè)階段,第一階段是基于傳統(tǒng)的服務(wù),第二階段是基于目前的社交網(wǎng)絡(luò)的服務(wù),第三階段是即將到來(lái)的物聯(lián)網(wǎng)。
這其中產(chǎn)生了很多基礎(chǔ)和重要的算法,例如協(xié)同過(guò)濾(包括基于用戶(hù)的和基于物品的)、基于內(nèi)容的推薦算法、混合式的推薦算法、基于統(tǒng)計(jì)理論的推薦算法、基于社交網(wǎng)絡(luò)信息(關(guān)注、被關(guān)注、信任、知名度、信譽(yù)度等)的過(guò)濾推薦算法、群體推薦算法、基于位置的推薦算法。
其中基于鄰域的協(xié)同過(guò)濾推薦算法是推薦系統(tǒng)中最基礎(chǔ)、最核心、最重要的算法,該算法不僅在學(xué)術(shù)界得到較為深入的研究,而且在業(yè)界也得到非常廣泛的應(yīng)用,基于鄰域的算法主要分為兩大類(lèi),一類(lèi)是基于用戶(hù)的協(xié)同過(guò)濾算法,另一類(lèi)是基于物品的協(xié)同過(guò)濾算法,除此之外,基于內(nèi)容的推薦算法應(yīng)用也非常廣泛等等,因此下文將對(duì)涉及推薦系統(tǒng)的常用算法進(jìn)行詳細(xì)介紹。
1、基于流行度的推薦算法
2、基于協(xié)同過(guò)濾的推薦算法(UserCF與ItemCF)
3、基于內(nèi)容的推薦算法
4、基于模型的推薦算法
5、基于混合式的推薦算法
四、基于流行度的推薦算法
基于流行度的算法非常簡(jiǎn)單粗暴,類(lèi)似于各大新聞、微博熱榜等,根據(jù)PV、UV、日均PV或分享率等數(shù)據(jù)來(lái)按某種熱度排序來(lái)推薦給用戶(hù)。
注:獨(dú)立訪客(UV)、訪問(wèn)次數(shù)(VV)兩個(gè)指標(biāo)有什么區(qū)別?
① 訪問(wèn)次數(shù)(VV):記錄1天內(nèi)所有訪客訪問(wèn)了該網(wǎng)站多少次,相同的訪客有可能多次訪問(wèn)該網(wǎng)站,且訪問(wèn)的次數(shù)累加。
② 獨(dú)立訪客(UV):記錄1天內(nèi)所有訪客訪問(wèn)了該網(wǎng)站多少次,雖然相同訪客能多次訪問(wèn)網(wǎng)站,但只計(jì)算為1個(gè)獨(dú)立訪客。
③ PV訪問(wèn)量(Page View):即頁(yè)面訪問(wèn)量,每打開(kāi)一次頁(yè)面或者刷新一次頁(yè)面,PV值+1。
1、優(yōu)點(diǎn):該算法簡(jiǎn)單,適用于剛注冊(cè)的新用戶(hù)
2、缺點(diǎn):無(wú)法針對(duì)用戶(hù)提供個(gè)性化的推薦
3、改進(jìn):基于該算法可做一些優(yōu)化,例如加入用戶(hù)分群的流行度進(jìn)行排序,通過(guò)把熱榜上的體育內(nèi)容優(yōu)先推薦給體育迷,把政要熱文推給熱愛(ài)談?wù)撜蔚挠脩?hù)。
五、基于用戶(hù)的協(xié)同過(guò)濾推薦算法
當(dāng)目標(biāo)用戶(hù)需要推薦時(shí),可以先通過(guò)興趣、愛(ài)好或行為習(xí)慣找到與他相似的其他用戶(hù),然后把那些與目標(biāo)用戶(hù)相似的用戶(hù)喜歡的并且目標(biāo)用戶(hù)沒(méi)有瀏覽過(guò)的物品推薦給目標(biāo)用戶(hù)。
1、基于用戶(hù)的CF原理如下:
① 分析各個(gè)用戶(hù)對(duì)物品的評(píng)價(jià),通過(guò)瀏覽記錄、購(gòu)買(mǎi)記錄等得到用戶(hù)的隱性評(píng)分;
② 根據(jù)用戶(hù)對(duì)物品的隱性評(píng)分計(jì)算得到所有用戶(hù)之間的相似度;
③ 選出與目標(biāo)用戶(hù)最相似的K個(gè)用戶(hù);
④ 將這K個(gè)用戶(hù)隱性評(píng)分最高并且目標(biāo)用戶(hù)又沒(méi)有瀏覽過(guò)的物品推薦給目標(biāo)用戶(hù)。
2、優(yōu)點(diǎn):
① 基于用戶(hù)的協(xié)同過(guò)濾推薦算法是給目標(biāo)用戶(hù)推薦那些和他有共同興趣的用戶(hù)喜歡的物品,所以該算法推薦較為社會(huì)化,即推薦的物品是與用戶(hù)興趣一致的那個(gè)群體中的熱門(mén)物品;
② 適于物品比用戶(hù)多、物品時(shí)效性較強(qiáng)的情形,否則計(jì)算慢;
③ 能實(shí)現(xiàn)跨領(lǐng)域、驚喜度高的結(jié)果。
3、缺點(diǎn):
① 在很多時(shí)候,很多用戶(hù)兩兩之間的共同評(píng)分僅有幾個(gè),也即用戶(hù)之間的重合度并不高,同時(shí)僅有的共同打了分的物品,往往是一些很常見(jiàn)的物品,如票房大片、生活必需品;
② 用戶(hù)之間的距離可能變得很快,這種離線(xiàn)算法難以瞬間更新推薦結(jié)果;
③ 推薦結(jié)果的個(gè)性化較弱、較寬泛。
4、改進(jìn):
① 兩個(gè)用戶(hù)對(duì)流行物品的有相似興趣,絲毫不能說(shuō)明他們有相似的興趣,此時(shí)要增加懲罰力度;
② 如果兩個(gè)用戶(hù)同時(shí)喜歡了相同的物品,那么可以給這兩個(gè)用戶(hù)更高的相似度;
③ 在描述鄰居用戶(hù)的偏好時(shí),給其最近喜歡的物品較高權(quán)重;
④ 把類(lèi)似地域用戶(hù)的行為作為推薦的主要依據(jù)。
六、基于物品的協(xié)同過(guò)濾推薦算法
當(dāng)一個(gè)用戶(hù)需要個(gè)性化推薦時(shí),舉個(gè)例子由于我之前購(gòu)買(mǎi)過(guò)許嵩的《夢(mèng)游計(jì)》這張專(zhuān)輯,所以會(huì)給我推薦《青年晚報(bào)》,因?yàn)楹芏嗥渌脩?hù)都同時(shí)購(gòu)買(mǎi)了許嵩的這兩張專(zhuān)輯。
1、基于物品的CF原理如下:
① 分析各個(gè)用戶(hù)對(duì)物品的瀏覽記錄;
② 依據(jù)瀏覽記錄分析得出所有物品之間的相似度;
③ 對(duì)于目標(biāo)用戶(hù)評(píng)價(jià)高的物品,找出與之相似度最高的K個(gè)物品;
④ 將這K個(gè)物品中目標(biāo)用戶(hù)沒(méi)有瀏覽過(guò)的物品推薦給目標(biāo)用戶(hù)
2、優(yōu)點(diǎn):
① 基于物品的協(xié)同過(guò)濾推薦算法則是為目標(biāo)用戶(hù)推薦那些和他之前喜歡的物品類(lèi)似的物品,所以基于物品的協(xié)同過(guò)濾推薦算法的推薦較為個(gè)性,因?yàn)橥扑]的物品一般都滿(mǎn)足目標(biāo)用戶(hù)的獨(dú)特興趣。
② 物品之間的距離可能是根據(jù)成百上千萬(wàn)的用戶(hù)的隱性評(píng)分計(jì)算得出,往往能在一段時(shí)間內(nèi)保持穩(wěn)定。因此,這種算法可以預(yù)先計(jì)算距離,其在線(xiàn)部分能更快地生產(chǎn)推薦列表。
③ 應(yīng)用最廣泛,尤其以電商行業(yè)為典型。
④ 適于用戶(hù)多、物品少的情形,否則計(jì)算慢
⑤ 推薦精度高,更具個(gè)性化
⑥ 傾向于推薦同類(lèi)商品
3、缺點(diǎn):
① 不同領(lǐng)域的最熱門(mén)物品之間經(jīng)常具有較高的相似度。比如,基于本算法,我們可能會(huì)給喜歡聽(tīng)許嵩歌曲的同學(xué)推薦汪峰的歌曲,也就是推薦不同領(lǐng)域的暢銷(xiāo)作品,這樣的推薦結(jié)果可能并不是我們想要的。
② 在物品冷啟動(dòng)、數(shù)據(jù)稀疏時(shí)效果不佳
③ 推薦的多樣性不足,形成信息閉環(huán)
4、改進(jìn):
① 如果是熱門(mén)物品,很多人都喜歡,就會(huì)接近1,就會(huì)造成很多物品都和熱門(mén)物品相似,此時(shí)要增加懲罰力度;
② 活躍用戶(hù)對(duì)物品相似度的貢獻(xiàn)小于不活躍的用戶(hù);
③ 同一個(gè)用戶(hù)在間隔很短的時(shí)間內(nèi)喜歡的兩件商品之間,可以給予更高的相似度;
④ 在描述目標(biāo)用戶(hù)偏好時(shí),給其最近喜歡的商品較高權(quán)重;
⑤ 同一個(gè)用戶(hù)在同一個(gè)地域內(nèi)喜歡的兩件商品之間,可以給予更高的相似度。
七、基于內(nèi)容的推薦算法
協(xié)同過(guò)濾算法僅僅通過(guò)了解用戶(hù)與物品之間的關(guān)系進(jìn)行推薦,而根本不會(huì)考慮到物品本身的屬性,而基于內(nèi)容的算法會(huì)考慮到物品本身的屬性。
根據(jù)用戶(hù)之前對(duì)物品的歷史行為,如用戶(hù)購(gòu)買(mǎi)過(guò)什么物品、對(duì)什么物品收藏過(guò)、評(píng)分過(guò)等等,然后再根據(jù)計(jì)算與這些物品相似的物品,并把它們推薦給用戶(hù)。例如某用戶(hù)之前購(gòu)買(mǎi)過(guò)許嵩的《尋寶游戲》,這可以說(shuō)明該用戶(hù)可能是一個(gè)嵩鼠,這時(shí)就可以給該用戶(hù)推薦一些許嵩的其他專(zhuān)輯或著作。
1、基于內(nèi)容的推薦算法的原理如下:
① 選取一些具有代表性的特征來(lái)表示每個(gè)物品
② 使用用戶(hù)的歷史行為數(shù)據(jù)分析物品的這些特征,從而學(xué)習(xí)出用戶(hù)的喜好特征或興趣,也即構(gòu)建用戶(hù)畫(huà)像
③ 通過(guò)比較上一步得到的用戶(hù)畫(huà)像和待推薦物品的畫(huà)像(由待推薦物品的特征構(gòu)成),將具有相關(guān)性最大的前K個(gè)物品中目標(biāo)用戶(hù)沒(méi)有瀏覽過(guò)的物品推薦給目標(biāo)用戶(hù)
2、優(yōu)點(diǎn):
① 是最直觀的算法
② 常借助文本相似度計(jì)算
③ 很好地解決冷啟動(dòng)問(wèn)題,并且也不會(huì)囿于熱度的限制
3、缺點(diǎn):
① 容易受限于對(duì)文本、圖像、音視頻的內(nèi)容進(jìn)行描述的詳細(xì)程度
② 過(guò)度專(zhuān)業(yè)化(over-specialisation),導(dǎo)致一直推薦給用戶(hù)內(nèi)容密切關(guān)聯(lián)的item,而失去了推薦內(nèi)容的多樣性。
③ 主題過(guò)于集中,驚喜度不足
八、基于模型的推薦算法
基于模型的推薦算法會(huì)涉及到一些機(jī)器學(xué)習(xí)的方法,如邏輯回歸、樸素貝葉斯分類(lèi)器等?;谀P偷乃惴ㄓ捎诳焖佟?zhǔn)確,適用于實(shí)時(shí)性比較高的業(yè)務(wù)如新聞、廣告等,而若是需要這種算法達(dá)到更好的效果,則需要人工干預(yù)反復(fù)的進(jìn)行屬性的組合和篩選,也就是常說(shuō)的Feature Engineering。而由于新聞的時(shí)效性,系統(tǒng)也需要反復(fù)更新線(xiàn)上的數(shù)學(xué)模型,以適應(yīng)變化。
九、基于混合式的推薦算法
現(xiàn)實(shí)應(yīng)用中,其實(shí)很少有直接用某種算法來(lái)做推薦的系統(tǒng)。在一些大的網(wǎng)站如Netflix,就是融合了數(shù)十種算法的推薦系統(tǒng)。我們可以通過(guò)給不同算法的結(jié)果加權(quán)重來(lái)綜合結(jié)果,或者是在不同的計(jì)算環(huán)節(jié)中運(yùn)用不同的算法來(lái)混合,達(dá)到更貼合自己業(yè)務(wù)的目的。
十、推薦結(jié)果列表處理
1、當(dāng)推薦算法計(jì)算得出推薦結(jié)果列表之后,我們往往還需要對(duì)結(jié)果進(jìn)行處理。比如當(dāng)推薦的內(nèi)容里包含敏感詞匯、涉及用戶(hù)隱私的內(nèi)容等等,就需要系統(tǒng)將其篩除;
2、若多次推薦后用戶(hù)依然對(duì)某個(gè)物品毫無(wú)興趣,就需要將這個(gè)物品降低權(quán)重,調(diào)整排序;
3、有時(shí)系統(tǒng)還要考慮話(huà)題多樣性的問(wèn)題,同樣要在不同話(huà)題中篩選內(nèi)容。
十一、推薦結(jié)果評(píng)估
當(dāng)一個(gè)推薦算法設(shè)計(jì)完成后,一般需要用查準(zhǔn)率(precision),查全率(recall),點(diǎn)擊率(CTR)、轉(zhuǎn)化率(CVR)、停留時(shí)間等指標(biāo)進(jìn)行評(píng)價(jià)。
- 查準(zhǔn)率(precision):推薦給用戶(hù)且用戶(hù)喜歡的物品在推薦列表中的比重
- 查全率(recall):推薦給用戶(hù)且用戶(hù)喜歡的物品在用戶(hù)列表中的比重
- 點(diǎn)擊率(CTR):實(shí)際點(diǎn)擊了的物品/推薦列表中所有的物品
- 轉(zhuǎn)化率(CVR):購(gòu)買(mǎi)了的物品/實(shí)際點(diǎn)擊了的物品
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持本站。
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。