无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機(jī)號

注冊

忘記密碼

用戶協(xié)議

綁定手機(jī)號

近期有不法分子打著愛盈利的旗號,制作“愛盈利”名稱的App,并偽造愛盈利證件,騙取用戶信任,以抖音點(diǎn)贊賺錢或其他方式賺錢為名義,過程中以升級會員獲得高傭金為名讓用戶充值。
愛盈利公司鄭重聲明:我司沒有研發(fā)或運(yùn)營過任何名為“愛盈利”的APP,我司做任務(wù)賺錢類產(chǎn)品從沒有讓任何普通用戶充值升級會員。我公司產(chǎn)品均在本網(wǎng)站可查詢,請將網(wǎng)站拉至底部,點(diǎn)擊“關(guān)于我們”可查看愛盈利相關(guān)產(chǎn)品與服務(wù)。
溫馨提示:當(dāng)遇到此類問題請撥打官方電話或添加官方微信,以免財產(chǎn)損失。愛盈利官網(wǎng)地址:www.jza6.com。
  • 推廣與合作
X

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

來源: 2864
愛盈利(aiyingli.com)移動互聯(lián)網(wǎng)最具影響力的盈利指導(dǎo)網(wǎng)站。定位于服務(wù)移動互聯(lián)網(wǎng)創(chuàng)業(yè)者,移動盈利指導(dǎo)。我們的目標(biāo)是讓盈利目標(biāo)清晰可見!降低門檻,讓缺乏經(jīng)驗(yàn)、資金有限的個人和團(tuán)隊獲得經(jīng)驗(yàn)和機(jī)會,提高熱情,激發(fā)產(chǎn)品。

單純理解算法還算容易,但是到實(shí)際工作中就往往理不清頭緒,特征變量從哪來,又怎么選,模型的輸出結(jié)果是什么,如何評價模型好壞,有了模型如何應(yīng)用,模型上線之后還要做什么等等一系列問題。今天我們就以常用的邏輯回歸為例,結(jié)合實(shí)際場景說說如何應(yīng)用結(jié)果問題的過程。對于數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)建模師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師來說,都必須了解全部流程。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

算法描述

邏輯回歸(Logistic Regression)是應(yīng)用非常廣泛的一種分類機(jī)器學(xué)習(xí)算法,算法簡單且高效、預(yù)測速度快,而且容易學(xué)習(xí)和理解。進(jìn)一步說,邏輯回歸是一個二分類算法,主要解決離散的兩元分類【是、否】預(yù)測的問題。聽得最多的線性回歸是解決連續(xù)型變量預(yù)測的問題,例如已知近年的銷售數(shù)據(jù)預(yù)測下季度的銷售額。

對于多個分類問題,y不在[0, 1]中取值,而是有K個分類。多非類有兩種情況,一是K個類別不是互斥的,比如用戶會購買哪些品類,就可以為每個品類分別訓(xùn)練一個二元分類器。 如果K個類別是互斥的,即y=1時不能取其它值,比如預(yù)測用戶的年齡段,這種情況可以利用Softmax Regression算法,是對LR的改進(jìn)。

下面這張圖非常清晰的描述了算法的原理,n個自變量(X1,X2,…Xn)會影響分類結(jié)果, Beta系數(shù)代表是每個變量對分類的影響程度,需要通過訓(xùn)練數(shù)據(jù)集做最大似然估計(所有樣本的預(yù)測值和真實(shí)值一致性的概率最大)得出,Beta值越大說明該變量對結(jié)果的影響越顯著,然后再用Logit函數(shù)做變型,把數(shù)值轉(zhuǎn)化成[0, 1]值。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

邏輯回歸是有監(jiān)督學(xué)習(xí)算法,首先利用訓(xùn)練數(shù)據(jù)集多次迭代估算出Beta參數(shù),然后把測試數(shù)據(jù)帶入下面的公式(sigmoid函數(shù)),就可以求出每個測試記錄的預(yù)測值,把預(yù)測值和實(shí)際的真實(shí)進(jìn)行比較,計算模型的準(zhǔn)確率、AUC值來評價該模型能是否達(dá)到應(yīng)用要求。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

為什么能得到【0,1】之間的概率呢,主要是sigmoid函數(shù)的功勞,如果把上面的sigmoid函數(shù)用圖像畫出來就能直觀看出來了 。從如下的函數(shù)圖上可以看出,函數(shù)y=g(z)在z=0的時候取值為1/2,而隨著z逐漸變小,函數(shù)值趨于0,z逐漸變大的同時函數(shù)值逐漸趨于1,而這正是一個概率的范圍。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

作為產(chǎn)品經(jīng)理必須要理解算法原理、來龍去脈、應(yīng)用場景,知道如何準(zhǔn)備數(shù)據(jù),基本夠用了,推倒算法的過程還是交給數(shù)學(xué)專業(yè)的搞吧,下面我們通過實(shí)際例子,看看如何使用算法。

算法實(shí)例

案例描述

預(yù)測用戶對18個大品類的購買偏好【1,0】,品類偏好不是互斥的,即可以同時喜歡多個,所以使用LR構(gòu)建18個分類模型預(yù)測用戶對每個品類的購買偏好即可。

分析變量

找到可能影響分類結(jié)果的因素,例如:品類瀏覽頻次、品類購買頻次、購買總金額、平均購買間隔天數(shù)、近一次購買時間、近一次瀏覽時間、總停留時間、家庭人口數(shù)量、地理位置。然后數(shù)據(jù)倉庫中匯總計算出這些指標(biāo)(這部分屬于數(shù)據(jù)工程師的工作,從原始數(shù)據(jù)中抽取、匯總計算,例如數(shù)據(jù)倉庫有用戶購買的多條記錄,但沒有平均購買間隔天數(shù)這個指標(biāo)),最后一列是實(shí)際的分類結(jié)果,構(gòu)建成一個含有很多相關(guān)變量的大寬表作為算法的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,如下圖所示。實(shí)際應(yīng)用中為了模型更加精準(zhǔn)需要組織更細(xì)節(jié)的變量,比如近1/2/3/7天的點(diǎn)擊、收藏、瀏覽次數(shù),以及用戶這些行為和該品類全部用戶行為的比例關(guān)系等等。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

特征選擇

特征選擇是從屬性集合中選擇那些重要的,與分析任務(wù)相關(guān)的子集的過程。選擇變量不在多,關(guān)鍵就行。 特征選擇方法有逐步增加法(先選擇一個最優(yōu)的,然后逐個添加)、逐步遞減法(所有屬性做為候選,逐個刪除)、遞歸特征刪除法。這里使用遞歸刪除法,通過邏輯回歸算法本身就是計算特征變量的系數(shù),系數(shù)大小也就代表了該變量的重要程度。 遞歸刪除法是用全量特征跑出一個LR模型,根據(jù)線性模型的系數(shù)(上面說過了系數(shù)越大說明變量和分類相關(guān)性越大),刪掉5-10%的弱特征,觀察準(zhǔn)確率/AUC的變化,逐步進(jìn)行, 直至準(zhǔn)確率/AUC出現(xiàn)大的下滑停止,這時保留下來的特征系數(shù)就是模型的輸出。

模型檢驗(yàn)

模型檢驗(yàn)主要采用準(zhǔn)確率和AUC兩個指標(biāo)。計算兩個指標(biāo)都需要理解幾個概念,所謂的真正例就是真實(shí)類別為【是】且預(yù)測類別也為【是】,假負(fù)例(預(yù)測類別為【否】但實(shí)際為【是】)、假正例(預(yù)測類別為【真】但實(shí)際為【否】)、真負(fù)例(預(yù)測類別為【否】且實(shí)際也為【否】)。準(zhǔn)確率是指測試集中被正確分類的比例,例如100個測試記錄,有82(48 + 34)個被正確分類,即真正例和真負(fù)例的和,正確率就是82%,算法的準(zhǔn)確率一般要高于80%,不然沒法實(shí)際應(yīng)用。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

AUC(Area under the Curve of ROC)比較麻煩需要先畫ROC曲線,AUC就是ROC曲線下方面積所占的比例,越大越好。ROC曲線X軸是假正例(FP)的累計比例,Y軸是真正例(TP)的累計比例,那么自然是,F(xiàn)P rate小時TP rate越大模型越好。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

模型輸出

模型輸出,模型構(gòu)建完成后輸出的結(jié)果就是保留的特征變量以及其對應(yīng)的系數(shù)。

模型應(yīng)用

模型應(yīng)用,有ID為1000的用戶,他對應(yīng)的特征變量為(31, 6, 138, 29, 3, 26, 38, 4),判斷其是否會購買洗護(hù)這個品類。方法就是把參數(shù)帶回下面的公式中,計算分類概率是0還是1,如果是1就說明用戶近期會購買該品類。

數(shù)據(jù)產(chǎn)品經(jīng)理需要掌握最常用的邏輯回歸算法

迭代優(yōu)化

迭代優(yōu)化,模型上線后會根據(jù)運(yùn)營不斷的去優(yōu)化,提高轉(zhuǎn)化率,比如再擴(kuò)充平均購買金額,最大購買金額等等字段構(gòu)建新的模型,然后做A/B測試,如果的準(zhǔn)確率和轉(zhuǎn)化率都高于舊的模型則正式上線。

至此,我們就完成的邏輯回歸的實(shí)際應(yīng)用。

 

作者:百川,微信公眾號:修煉大數(shù)據(jù)(studybigdata)

本文由 @百川 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Pexels,基于 CC0 協(xié)議

愛盈利-運(yùn)營小咖秀 始終堅持研究分享移動互聯(lián)網(wǎng)App運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識內(nèi)容;是廣大App運(yùn)營從業(yè)者的知識啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺;

評論

相關(guān)文章推薦

SELECT dw_posts.ID,dw_posts.post_title,dw_posts.post_content FROM dw_posts INNER JOIN dw_term_relationships ON (dw_posts.ID = dw_term_relationships.object_id) WHERE 1=1 AND(dw_term_relationships.term_taxonomy_id = 3083 ) AND dw_posts.post_type = 'post' AND (dw_posts.post_status = 'publish') GROUP BY dw_posts.ID ORDER BY RAND() LIMIT 0, 6

京ICP備15063977號-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號