无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機(jī)號(hào)

賬號(hào)登錄手機(jī)登錄

立即注冊(cè) 忘記密碼

注冊(cè)

我同意用戶協(xié)議

已有賬號(hào)，立即登錄

忘記密碼

記得密碼，直接登錄

用戶協(xié)議

綁定手機(jī)號(hào)

推廣與合作

X

你的位置：首頁 > 產(chǎn)品運(yùn)營1 > 本文

數(shù)據(jù)和算法的相愛相殺（二）：常見的聚類算法

關(guān)注

來源： 331271 2018-08-08

以下是數(shù)據(jù)與算法相愛相殺的第二篇，常見的聚類算法。如果按正常的數(shù)據(jù)和算法知識(shí)體系，這時(shí)候應(yīng)該講一下常用的數(shù)據(jù)查詢或算法的數(shù)學(xué)基礎(chǔ)，但是觀眾老爺多是PM，恐不感興趣或沒有基礎(chǔ)。所以我就從應(yīng)用和實(shí)戰(zhàn)的角度給大家直接上干貨，在過程中介紹其用到的數(shù)學(xué)或計(jì)算機(jī)知識(shí)。

數(shù)據(jù)和算法的相愛相殺（二）：常見的聚類算法

聚類算法應(yīng)該是大數(shù)據(jù)分析中最常見一類算法，在一般互聯(lián)網(wǎng)公司中，哪怕不借助算法，我們也經(jīng)常需要對(duì)用戶、客戶進(jìn)行分類，進(jìn)行人群畫像，以支持差異化服務(wù)或營銷。所以說聚類這件事情我們一直在做，而借助數(shù)據(jù)規(guī)模和算法優(yōu)勢(shì)則可以讓我們分類更加精準(zhǔn)、多元、客觀。

常見的聚類算法包括：層次化聚類算法、劃分式聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法等，以及現(xiàn)在比較火的基于粒度的聚類等。

我沒有打算做聚類算法的科普，也不做其發(fā)展來龍去脈的論文，就從一般互聯(lián)網(wǎng)公司能用到，各位看官可以拿來就用的角度分享一下常見的算法。

1、基于空間測距的k-means算法系列

k-means算法是一種經(jīng)典的分類算法，它的基本原理是，視所有的數(shù)據(jù)為多維空間的點(diǎn)，如一名普通用戶（擁有：月消費(fèi)頻次、消費(fèi)金額、最近一次消費(fèi)時(shí)間等眾多的消費(fèi)數(shù)據(jù)），他每一個(gè)我們用于分析的數(shù)據(jù)都看作是一個(gè)維度。

這樣我們就得出了該用戶的位置，通過定義數(shù)個(gè)（即k個(gè)）中心點(diǎn)（中心點(diǎn)由機(jī)器隨機(jī)尋找），測算用戶與各中心點(diǎn)的距離并進(jìn)行比較，將該用戶加入距離最近的中心點(diǎn)，這樣就形成了不同的圈層。

明眼的觀眾可能已經(jīng)看到，如果某點(diǎn)對(duì)所有中心點(diǎn)距離的最小值存在相同的，那這個(gè)點(diǎn)應(yīng)該加入哪個(gè)圈層呢？

這時(shí)候就原來的中心點(diǎn)變成圈層的幾何中心，從新測算距離，直到所有的點(diǎn)全包包含在某一個(gè)圈層中。

k-means算法的優(yōu)點(diǎn)是簡單高效、時(shí)間復(fù)雜度、空間復(fù)雜度都比較低，而且對(duì)于數(shù)據(jù)規(guī)模也不感冒，這對(duì)追求效率和消費(fèi)者體驗(yàn)的互聯(lián)網(wǎng)公司至關(guān)重要。

但是其需要預(yù)設(shè)k值，k值的選擇會(huì)很大程度上影響聚類，用戶數(shù)據(jù)缺失的情況對(duì)結(jié)果也有很大影響，同時(shí)對(duì)臟數(shù)據(jù)和離群值也很敏感。所以人們又改良了k-means算法，具體如下，大家選擇學(xué)習(xí)。

為了解決預(yù)設(shè)k值不準(zhǔn)確問題，延伸出了k-means++等眾多算法。其基本原理是：在選擇初始中心之前，對(duì)所有數(shù)據(jù)進(jìn)行一次計(jì)算，使得選擇的初始聚類中心之間的距離盡可能的遠(yuǎn)，同時(shí)也減少了計(jì)算量。

2、基于空間測距的CURE算法

層次聚類的核心原理是：先將每個(gè)對(duì)象作為一個(gè)組（簇），然后根據(jù)兩兩之間的距離合并這些原子組為越來越大的組，直到所有對(duì)象都在一個(gè)組中，或者條件滿足（達(dá)到了你想要的組個(gè)數(shù)）。

它的計(jì)算流程是：每個(gè)對(duì)象作為一類，計(jì)算兩者這件最小距離>將兩個(gè) 合并成一個(gè)新類，形成新的中心>計(jì)算所有類之間的距離，然后兩兩合并>直到合并完成或達(dá)到要求。

常見的層次聚類算法有：CURE算法、ROCK算法等，其基本原理都一樣，不過是各有所長。

3、基于密度劃分的DBSCAN算法

上文中我們講到了基于空間距離的聚類算法，這類算法最終形成的多是“圓形”的元素類，而基于度劃分的DBSCAN算法核心是：預(yù)先定義兩個(gè)變量，一個(gè)表示球形的半徑，一個(gè)表示球形內(nèi)的點(diǎn)。

只要一個(gè)區(qū)域中的點(diǎn)的密度（即：球內(nèi)的點(diǎn)/球的體積）大過某個(gè)閾值，就把球形相近的點(diǎn)加到與之相近的聚類中去。

在DBSCAN中的點(diǎn)分為核心點(diǎn)：在球形范圍核心（稠密）的點(diǎn)；
邊界點(diǎn)：處于球形邊界之內(nèi)，但離核心較遠(yuǎn)的點(diǎn)，處于球形范圍之外的點(diǎn)。

DBSCAN也存在一定的缺陷，一方面是對(duì)于高維數(shù)據(jù)不能很好的反映，另一方面是在聚類密度不斷變化的數(shù)據(jù)集中，不能很好地反映整體聚類情況。

以上幾種算法，基本夠PM們?cè)谌粘Ｊ褂茫瑔⒌纤季S，方便交流。

除了以上幾種常用的聚類分析算法之外，還有一些聚類算法（均值漂移算法、網(wǎng)格算法、模型算法），如果大家有時(shí)間可以查找資繼續(xù)學(xué)習(xí)。

相關(guān)閱讀

數(shù)據(jù)和算法的相愛相殺（一）：獲取數(shù)據(jù)要注意什么？

本文由 @沒空兒原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash ，基于 CC0 協(xié)議

愛盈利-運(yùn)營小咖秀(www.jza6.com) 始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識(shí)內(nèi)容；是廣大App運(yùn)營從業(yè)者的知識(shí)啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺(tái)；

想了解更多移動(dòng)互聯(lián)網(wǎng)干貨知識(shí)，請(qǐng)關(guān)注微信公眾號(hào)運(yùn)營小咖秀（ID: yunyingshow）

上一篇我的三年產(chǎn)品路（二）：產(chǎn)品經(jīng)理要具備什么技能？

下一篇短視頻還可以有什么新玩法？

關(guān)注

篇作品

總閱讀量

評(píng)論

相關(guān)文章推薦

庖丁解牛：如何做產(chǎn)品需求分析

愛盈利（aiyingli.com）移動(dòng)互聯(lián)網(wǎng)最具影響力的盈利指導(dǎo)網(wǎng)站。定位于服務(wù)移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)者，移動(dòng)盈利指導(dǎo)。我們的目標(biāo)是讓盈利目標(biāo)清晰可見！降低門檻，讓缺乏經(jīng)驗(yàn)、資金有限的個(gè)人和團(tuán)隊(duì)獲得經(jīng)驗(yàn)和機(jī)會(huì)，提高熱情，激發(fā)產(chǎn)品。當(dāng)我們?cè)诿鎸?duì)一頭牛——復(fù)雜的....
深入淺出：后臺(tái)產(chǎn)品的核心能力

一直以來，市面上的書籍以及培訓(xùn)課程，都圍繞著前端產(chǎn)品經(jīng)理在介紹，將更多的重心放在產(chǎn)品經(jīng)理對(duì)于用戶、需求、場景的理解，以及對(duì)前端交互界面以及用戶體驗(yàn)的設(shè)計(jì)上。但其實(shí)對(duì)于每一個(gè)前端產(chǎn)品而言，背后都有一個(gè)或多個(gè)后臺(tái)產(chǎn)品在支撐，以保證用戶需求可以被滿足，用戶....
4個(gè)方面談?wù)劊寒a(chǎn)品調(diào)研中的啟發(fā)式需求訪談

本文主要從啟發(fā)式訪談的編寫訪談綱要、設(shè)計(jì)啟發(fā)式訪談問題、篩選訪談對(duì)象、溝通控制、四個(gè)方面來給大家介紹一下啟發(fā)式訪談。在之前的文章《產(chǎn)業(yè)智能互聯(lián)網(wǎng)中，一個(gè)生態(tài)產(chǎn)品經(jīng)理的核心技能清單是什么？》，我們說到一個(gè)生態(tài)產(chǎn)品經(jīng)理的核心技能之一就是，要具備啟發(fā)式訪談....
比茅臺(tái)更暴利，「南極人」憑什么“空手套”13億？

最近降溫了，又到了該穿秋衣的季節(jié)。打開淘寶隨便一搜，不出意外地看見了一個(gè)眼熟的名字：南極人。根據(jù)阿里研究院發(fā)布的《2020中國消費(fèi)品牌發(fā)展報(bào)告顯示》，南極人入選95后最喜歡的國貨品牌前三甲，另外兩位是小米和華為。說實(shí)話，這是讓我沒想到的。我本來以為南....
產(chǎn)品生活實(shí)驗(yàn)：深度拆解日常生活中人“吃飯”的需求

愛盈利（aiyingli.com）移動(dòng)互聯(lián)網(wǎng)最具影響力的盈利指導(dǎo)網(wǎng)站。定位于服務(wù)移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)者，移動(dòng)盈利指導(dǎo)。我們的目標(biāo)是讓盈利目標(biāo)清晰可見！降低門檻，讓缺乏經(jīng)驗(yàn)、資金有限的個(gè)人和團(tuán)隊(duì)獲得經(jīng)驗(yàn)和機(jī)會(huì)，提高熱情，激發(fā)產(chǎn)品。從生活化情境中，以產(chǎn)品的視角....
5個(gè)角度，盤點(diǎn)增長產(chǎn)品經(jīng)理的崛起

本文將為你梳理增長概念的由來與發(fā)展，并進(jìn)一步結(jié)合產(chǎn)品經(jīng)理這一崗位聊聊增長產(chǎn)品經(jīng)理的崛起。最近兩年，在對(duì)產(chǎn)品經(jīng)理的職位描述上，發(fā)生了一些有趣的事情產(chǎn)品經(jīng)理（PM）的title越來越多出現(xiàn)了增長兩個(gè)字，尤其是在互聯(lián)網(wǎng)行業(yè)。具體崗位title有：增長產(chǎn)品經(jīng)....

推薦作者

更多

波波關(guān)注

愛盈利&運(yùn)營小咖秀創(chuàng)始人
溪姐關(guān)注

APP推廣/直播短視頻運(yùn)營專欄作者
劉瑋冬關(guān)注

運(yùn)營的路上你從不孤單，因?yàn)槲視?huì)和你一直站在一起。我是知名運(yùn)營專家劉瑋冬，這是我的運(yùn)營工作手記，希望你能從這里，讀懂運(yùn)營。
出海筆記關(guān)注

海外推廣運(yùn)營，實(shí)操干貨聚集地！國內(nèi)首家出海推廣運(yùn)營學(xué)習(xí)交流平臺(tái)。微信公眾號(hào)：chuhaibiji。
半糖關(guān)注

深耕抖音運(yùn)營、抖音營銷

愛盈利（aiyingli.com）是以運(yùn)營、推廣為核心的學(xué)習(xí)、交流、分享平臺(tái)，集媒體、培訓(xùn)、短視頻數(shù)據(jù)查詢?yōu)橐惑w，全方位服務(wù)于推廣和運(yùn)營人，成立7年舉辦線上與線下沙龍300+場，平臺(tái)聚集了眾多知名互聯(lián)網(wǎng)公司運(yùn)營大咖，愿大家在這里收獲成長

關(guān)于我們加入我們網(wǎng)站地圖

合作伙伴

微信公眾號(hào)

愛盈利服務(wù)號(hào)

運(yùn)營小咖秀

京ICP備15063977號(hào)-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號(hào)