无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機號

注冊

忘記密碼

用戶協(xié)議

綁定手機號

近期有不法分子打著愛盈利的旗號,制作“愛盈利”名稱的App,并偽造愛盈利證件,騙取用戶信任,以抖音點贊賺錢或其他方式賺錢為名義,過程中以升級會員獲得高傭金為名讓用戶充值。
愛盈利公司鄭重聲明:我司沒有研發(fā)或運營過任何名為“愛盈利”的APP,我司做任務(wù)賺錢類產(chǎn)品從沒有讓任何普通用戶充值升級會員。我公司產(chǎn)品均在本網(wǎng)站可查詢,請將網(wǎng)站拉至底部,點擊“關(guān)于我們”可查看愛盈利相關(guān)產(chǎn)品與服務(wù)。
溫馨提示:當(dāng)遇到此類問題請撥打官方電話或添加官方微信,以免財產(chǎn)損失。愛盈利官網(wǎng)地址:www.jza6.com。
  • 推廣與合作
X

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

來源:中國統(tǒng)計網(wǎng) 9737

在本文中我會嘗試如何從0數(shù)據(jù)開始到獲取百萬頁面,進行用戶數(shù)據(jù)分析、建模,再數(shù)據(jù)信息化、可視化,生成用戶畫像分析用戶特征。

緣起:幾個月前正式進駐簡書平臺,不由的想了解下在這個平臺上聚集的都是些什么人,有哪些人跟我臭味相投品味相似。作為技術(shù)人,首先想到是用一些技術(shù)手段來分析,看到簡書上有不少爬蟲、數(shù)據(jù)分析技術(shù)文章,不由的技癢,于是便有了自造輪子的想法。

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的


本文會談及以下內(nèi)容:

數(shù)據(jù)采集
數(shù)據(jù)清洗
數(shù)據(jù)分析
簡書粉絲排行榜
簡書用戶常用詞排行榜
簡書用戶愛好排行榜
簡書用戶喜愛書籍排行榜
數(shù)據(jù)可視化
用戶關(guān)鍵詞云圖
用戶畫像
機器學(xué)習(xí)
用戶性別預(yù)測
用戶愛好分析
用戶推薦

 

  大 綱 

1、用戶畫像概述(是什么,有什么用,怎么做)

2、獲取抽樣用戶數(shù)據(jù)

需要什么樣的抽樣數(shù)據(jù)

3、獲取用戶發(fā)表內(nèi)容,提取用戶關(guān)鍵詞

難點:文章列表獲?。徽奶崛?;提取關(guān)鍵詞

4、性別分析

性別數(shù)據(jù)獲取
難點:數(shù)據(jù)樣本少;新浪反爬
機器學(xué)習(xí)分類

5、愛好分析

愛好和興趣的區(qū)別
構(gòu)建愛好分類

6、關(guān)鍵興趣分析

什么是關(guān)鍵興趣
獲取書籍?dāng)?shù)據(jù)
獲取電影數(shù)據(jù)(未完成)

7、結(jié)果分析

簡書整體用戶群體畫像
簡書男性群體用戶畫像
簡書女性群體用戶畫像
構(gòu)建網(wǎng)站群體用戶畫像
網(wǎng)站個體用戶畫像
典型男性用戶例子及分析

8、用戶推薦

目的:增加用戶粘性;提高內(nèi)容爆光率;營銷活動推廣
做法:千人千面的個性化推薦
使用什么推薦算法:個性化標簽;協(xié)同過濾(UserCF/ItermCF)
例子:典型男性用戶例子及分析相似用戶

9、存在問題

10、涉及工具

 

用戶畫像概述(是什么,有什么用,怎么做)

用戶畫像是根據(jù)用戶基本屬性、社會屬性、生活習(xí)慣和消費行為等信息而抽象出的一個標簽化的用戶模型。構(gòu)建用戶畫像的核心工作即是給用戶貼“標簽”,而標簽是通過對用戶信息分析而來的高度精煉的特征標識。

用途

用戶畫像的作用

精準營銷,分析產(chǎn)品潛在用戶,針對特定群體利用短信、郵件等方式進行營銷;
用戶統(tǒng)計,比如購買某類書籍人數(shù) TOP10;
數(shù)據(jù)挖掘,構(gòu)建智能、個性化推薦系統(tǒng),利用關(guān)聯(lián)規(guī)則計算,喜歡讀書的人通常喜歡什么商品品牌,利用聚類算法分析,喜歡讀書的人年齡段分布情況;
進行效果評估,完善產(chǎn)品運營,提升服務(wù)質(zhì)量,其實這也就相當(dāng)于市場調(diào)研、用戶調(diào)研,迅速下定位服務(wù)群體,提供高水平的服務(wù);
對服務(wù)或產(chǎn)品進行私人定制,精準到某一類甚至每一位客戶提供個性化服務(wù);
業(yè)務(wù)經(jīng)營分析以及競爭分析,影響企業(yè)發(fā)展戰(zhàn)略。


用戶畫像的基本構(gòu)成

構(gòu)建用戶畫像的可以通過四組屬性,它們是:用戶靜態(tài)屬性、用戶動態(tài)屬性、用戶消費屬性、用戶心理屬性

用戶靜態(tài)屬性

用戶靜態(tài)屬性,是指一些較穩(wěn)定不會頻繁變化的屬性,靜態(tài)屬性是用戶畫像建立的基礎(chǔ),最基本的用戶信息記錄。如性別、年齡、學(xué)歷、角色、收入、地域、婚姻狀態(tài)等。

用戶動態(tài)屬性

用戶動態(tài)屬性,動態(tài)屬性指具有可變性,如用戶的興趣愛好、在互聯(lián)網(wǎng)上的活動行為特征。

用戶心理屬性

用戶心理屬性,心理屬性指用戶在環(huán)境、社會或者交際、感情過程中的心理反應(yīng),或者心理活動

用戶消費屬性

消費屬性指用戶的消費意向、消費意識、消費心理、消費嗜好等,對用戶的消費有個全面的數(shù)據(jù)記錄,對用戶的消費能力、消費意向、消費等級進行很好的管理。

用戶畫像類型

用戶畫像可分為群體用戶畫像和個體用戶畫像,前者是抽象的族群代表,表示某一類人的特征,用于分析群體特征;后者是具體到某個個體用戶上,表示該用戶的特征,用于做個性化分析。

怎么做

數(shù)據(jù)收集 - 根據(jù)數(shù)據(jù)來源可分為內(nèi)部數(shù)據(jù)庫、ETL、外部網(wǎng)站數(shù)據(jù)采集
數(shù)據(jù)建模 - 根據(jù)所獲取到的數(shù)據(jù)建立模型,注入數(shù)據(jù)調(diào)整模型參數(shù)
數(shù)據(jù)分析及預(yù)測 - 數(shù)據(jù)可視化、輸出報表、趨勢預(yù)測

說到數(shù)據(jù)挖掘,是把散亂數(shù)據(jù)轉(zhuǎn)換成「有價值」信息的過程,數(shù)據(jù)是可以是數(shù)字或者文本內(nèi)容甚至圖像,而信息是有語義的、人腦可理解的報告、圖表。

數(shù)據(jù)挖掘的過程是:獲取數(shù)據(jù)(內(nèi)部數(shù)據(jù)庫查詢、外部網(wǎng)站抓取、購買接口)-> 數(shù)據(jù)清洗(數(shù)據(jù)結(jié)構(gòu)化)-> 數(shù)據(jù)分析(建模、應(yīng)用算法公式)-> 數(shù)據(jù)信息化(報表結(jié)論、數(shù)據(jù)可視化)

更具體怎么做,下面我會以簡書的真實用戶數(shù)據(jù)為例子展示下。

構(gòu)建簡書用戶畫像

簡書用戶數(shù)據(jù)收集
獲取抽樣用戶數(shù)據(jù)

作為簡書的外部普通用戶,也只有通過“數(shù)據(jù)采集”(網(wǎng)頁爬蟲)這個途徑來獲取數(shù)據(jù),而據(jù)說簡書用戶上千萬,日活過百萬,顯然全部抓取下來不知何年月,因此進行抽樣分析是比較合理的做法。

需要什么樣的抽樣數(shù)據(jù)?

顯然活躍用戶是我們需要的關(guān)注。在簡書上,活躍用戶有2種,一種是大V(粉絲數(shù)量多),另外一種是發(fā)帖多的,這里我選擇了粉絲數(shù)量多的這類用戶。為什么不選發(fā)帖最多的?一個網(wǎng)站的人氣一般都是靠大V用戶群帶動的,這群人產(chǎn)生的內(nèi)容介于PGC(專業(yè)編輯)和UGC(普通用戶貢獻)之間,他們產(chǎn)生的內(nèi)容會比較有影響力。而發(fā)帖多不代表有影響力,在背后發(fā)帖的說不定還可能是腳本程序。

為了使用方便,我使用Ruby 開發(fā)了自己的爬蟲(簡書上有很多介紹Scrapy這個優(yōu)秀的爬蟲框架的使用教程,工具使用自己熟悉的就好),鏈接規(guī)則設(shè)置為允許網(wǎng)站首頁、用戶主頁、文章內(nèi)容頁(為了獲取評論用戶鏈接)、粉絲列表(followers)、關(guān)注列表(following),如圖↓

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

爬蟲鏈接規(guī)則設(shè)置.png


爬蟲啟動后會自動抓取符合這些規(guī)則的頁面,并自動解析頁面內(nèi)鏈接,保存符合配置規(guī)則的鏈接再進行抓取。

〖Tips:說易行難,為了提高爬蟲效率一般我們都會使用多線程,這里面要涉及到并發(fā)編程、master-worker調(diào)度的工作模式,總而言之,寫爬蟲不難,但開發(fā)一個高效爬蟲框架不輕松,建議初學(xué)者先掌握使用流行工具框架再去造輪〗

最后爬蟲抓取了約31萬個頁面,其中有11萬個用戶主頁,感覺也夠用了,如圖

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶頁面抓取結(jié)果.png


增加一個ExtractUserPipeline(Pipeline是我用于在爬蟲框架中處理獲取頁面內(nèi)容的自定義類,可參考Scrapy的Pipeline概念)來解析提取用戶的信息,可使用css selector、正則表達式處理頁面內(nèi)容,得到一個包含用戶名稱、性別、粉絲數(shù)、文章數(shù)等基礎(chǔ)用戶信息的json結(jié)構(gòu)的數(shù)據(jù),例如:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶提取數(shù)據(jù)example.png


在爬蟲框架上運行這個Pipeline,獲取到11萬份格式好的用戶數(shù)據(jù)樣本,作為抽樣沒有必要使用全部數(shù)據(jù),因此我只選取了排行榜上的前10000個數(shù)據(jù),按照關(guān)鍵值“followers_count”來排序,最后得到了一份“簡書Top 10000 粉絲排行榜” ,如圖

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書Top 10000 粉絲排行榜.png


〖Tips:一開始我是使用1000條數(shù)據(jù),數(shù)據(jù)量時少方便調(diào)整模型和算法參數(shù),跑一次最多幾十分鐘,到最后要出結(jié)論報表時才使用10000用戶數(shù)據(jù),會涉及近70萬文章頁面,這時每跑一次分析運算都是按小時算的了〗

獲取用戶發(fā)表內(nèi)容,提取用戶關(guān)鍵詞

觀其“言行舉止”是了解一個人的辦法,在簡書上,用戶“發(fā)聲”的自然就是其發(fā)布的文章,因此需要獲取用戶發(fā)表過的文章內(nèi)容是收集下一個特征數(shù)據(jù)的基礎(chǔ)。

文章列表

簡書給出了第一個“難題”:用戶的文章列表使用AJAX翻頁,普通爬蟲無法直接獲取分頁列表。這種問題一般有兩種解決:一是查看Network請求,通過編程拼接出所請求的url;二是使用headless browser(如 PhantomJS/Selenium/SlimerJS/Chrome headless)。使用headless browser比較通用但運行效率低,而簡書的分頁規(guī)則也只是最簡的分頁數(shù)+1,所以我的解決辦法是添加一個Pipeline,在獲取到一個列表頁時執(zhí)行分析拼接出下一頁的鏈接加入待抓取頁面列表。

開啟爬蟲服務(wù)對這1萬個用戶鏈接進行爬取,跑完能得到約60萬個內(nèi)容頁、7萬個列表分頁,再加上前面的抓取的31萬,多達到100萬個頁面,為家里的網(wǎng)絡(luò)帶寬心疼一下下。

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書內(nèi)容頁面抓取結(jié)果-數(shù)量.png


另外,從爬蟲框架對簡書的抓取結(jié)果的分析報告中,發(fā)現(xiàn)簡書的網(wǎng)頁響應(yīng)都很快,平均每個頁面300ms,97%的頁面都能秒開,只有15%的頁面打開在300ms以上,而超過3秒以上的幾乎是0%,贊!

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書內(nèi)容頁面抓取結(jié)果-分析.png


〖Tips:有少量用戶約50個在抓取時返回404,可能被簡書關(guān)閉了帳號,所以下面出現(xiàn)分析報表中并不是完整的10000整數(shù)〗

提取正文

一篇內(nèi)容頁中除了正文,還有很多重復(fù)的“裝飾”語,如簡書每個內(nèi)容頁面都有“贊賞支持”、“關(guān)注”、“登錄” 等詞,如果都無差別收錄顯然會是出現(xiàn)最高頻次、卻是對文章表述毫無意義的詞,因此需要先提取出正文內(nèi)容,再對正文進行分詞才合理。最簡單的做法是使用正則、css selector提取即可。我使用了密度算法,不需要編寫正則,把密度高部分作為正文對待,這樣無論是什么類型的內(nèi)容頁、網(wǎng)頁改版頁面結(jié)構(gòu)變更了都能處理了。

提取關(guān)鍵詞

中文NLP(自然語言處理)中第一步就是中文分詞,從最簡單的機械分詞(各種MM算法)到復(fù)雜的神經(jīng)網(wǎng)絡(luò)分詞算法,需要處理歧義識別、新詞發(fā)現(xiàn);另外再好的分詞算法也需要有2份詞典,一個是專用詞典,一個是停用詞典。有時會感嘆英文國家的NLP技術(shù)發(fā)展那么快是因為英文分詞門檻低嗎?好在現(xiàn)在開源分詞庫也不少,效果各有特點,選則自己熟悉的即可。

從每篇文章提取出20個詞頻出現(xiàn)最高的詞作為文章關(guān)鍵詞,效果如下圖

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

內(nèi)容頁分詞.png


在二十幾篇文章中,只有一篇出現(xiàn)了“關(guān)注”這個詞,說明這個作者真的有在求關(guān)注。

對每個用戶,再合并其所有文章內(nèi)容中的關(guān)鍵詞,并統(tǒng)計重復(fù)次數(shù)作為詞頻,按詞頻高低取前100個,這份數(shù)據(jù)作為該用戶的“常用詞”。

〖Tips:這是很重要的一份特征數(shù)據(jù),對后面的用戶性別、興趣愛好分析都要使用到〗

現(xiàn)在我們先看一下 簡書CEO 簡叔 的常用詞的詞云 是什么樣:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書CEO 簡叔 詞云.png


詞云顯示他喜歡聊“秘密”,關(guān)注“簡書”,“創(chuàng)業(yè)”、“團隊”、“產(chǎn)品”、“寫作”,“平臺”、“互聯(lián)網(wǎng)”,“作者”。

我會猜他有很多“想法”,平時喜歡去“咖啡廳”找“創(chuàng)作”的“靈感”,要在“上海”或“北京“找個“辦公室”組建一個“創(chuàng)業(yè)”“團隊”,做一個基于“互聯(lián)網(wǎng)”的“文章” “寫作” “內(nèi)容” “平臺”,“產(chǎn)品”叫“簡書”或“jianshu”,會招攬很多“作者” 并保護他們的“著作權(quán)”,提供“手機”“app”的“下載”,得了“蘋果” 的“優(yōu)秀” “設(shè)計” “推薦”,求“群友”多“交流”多“關(guān)注”,求“打賞”求“評論”。

(哈哈 以上完全瞎猜,我對“簡叔”的認識只有這2個字)

最后再統(tǒng)計下所有用戶的關(guān)鍵詞使用的比率,得到 “簡書用戶常用詞 Top 100排行榜”

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶常用詞 Top 100排行榜.png


現(xiàn)在簡單分析下前20個詞,可以發(fā)現(xiàn)簡書上的用戶每書寫100個詞時,就有2次提及“作者”、“簡書”,關(guān)心“著作權(quán)”,表明寫作意愿很強烈,也關(guān)注平臺自身,符合簡書打造寫作平臺本身的定位;常談?wù)?ldquo;生活”、“工作”,常說“選擇”,很在意“時間”,說明在職人士應(yīng)該是主要用戶;喜歡談“喜歡”什么、談“感覺”、常會說“故事”,文藝味很濃;做事講究“方法”,有大堆的“世界”觀、“人生”觀,說明大部分用戶教育程度比較高(大學(xué));有“孩子”、喜歡曬“圖片”的用戶估計占比也很高,繼而可以推測主要的用戶年齡段在24-36(23大學(xué)畢業(yè),36以上是中年)之間;喜歡討論“app”,符合移動互聯(lián)網(wǎng)的時代特征;關(guān)注“學(xué)習(xí)”,在這個社區(qū)推“知識付費”學(xué)習(xí)課程準是一呼百應(yīng)。

以上純粹直觀印象不算結(jié)論。

另外,為了能搭上這里“文藝”的氛圍,特意獻上一份 “簡書用戶常用詞 Top 100詞云圖.png”,大家看看 “感覺”是否“喜歡”

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶常用詞 Top 100詞云圖.png


下面再繼續(xù)看看如何獲取其他的用戶屬性特征。

性別分析

性別是用戶最基礎(chǔ)的靜態(tài)屬性之一,作為人類自然體上最大基因差異特征,對用戶言行舉止、思想決策有莫大的影響,因此性別分析幾乎是所有領(lǐng)域都需要研究分析的。

但簡書這里留了第二個“難題”:性別是選填,大部分用戶留空。

看下現(xiàn)在的用戶性別比率統(tǒng)計:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶性別比率-預(yù)測前.png


在這10000人中,75%是未知的,剩下已知的男女各占一半。感覺玩不下去了 。

幸好現(xiàn)在是機器學(xué)習(xí)時代,可以使用機器學(xué)習(xí),對用戶的特征行為進行學(xué)習(xí),從而對用戶進行性別預(yù)測。

前面說了人類性別對其言行有莫大影響,因此我使用“用戶常用詞”作為輸入特征,來預(yù)測用戶性別。

性別分類是典型的二分類問題,可以使用樸素貝葉斯、決策樹、SVM等有監(jiān)督學(xué)習(xí)的分類算法,我選擇了樸素貝葉斯,NBC模型所需的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單,結(jié)果還挺有效。

機器學(xué)習(xí)過程有4步:1,特征工程;2,訓(xùn)練;3,測試及評估;4,預(yù)測;

特征工程

一開始使用1000個用戶數(shù)量進行練習(xí)時,得到的性別數(shù)量很少,不足夠訓(xùn)練出一個可信任的分類模型。

經(jīng)簡書上的Python爬蟲大師 @向右奔跑 提醒,簡書用戶公開信息上會有新浪微博的鏈接,而新浪微博上有用戶性別信息。

嘗試了一輪,發(fā)現(xiàn)只有部分用戶會有新浪微博鏈接,而新浪微博卻有個業(yè)界知名的反爬系統(tǒng),必需降頻率抓取,成效不是很高。最后使用10000個用戶數(shù)據(jù)時感覺訓(xùn)練數(shù)據(jù)量已經(jīng)足夠。

訓(xùn)練

訓(xùn)練集準備好后,就可以構(gòu)建分類器,把已知性別和對應(yīng)用戶的常用詞,作為標簽和特征值,進行訓(xùn)練,如圖:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶性別預(yù)測-訓(xùn)練.png


測試及評估

分類器訓(xùn)練完后,要對訓(xùn)練好的模型進行準確率評估,意思是看看預(yù)測結(jié)果靠不靠譜。

我在這里使用了“F1 Score”,簡單科普下:

F1分數(shù)(F1 Score),是統(tǒng)計學(xué)中用來衡量二分類模型精確度的一種指標。它同時兼顧了分類模型的準確率和召回率。F1分數(shù)可以看作是模型準確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。

簡單來說,F(xiàn)1分數(shù)是個加權(quán)平均值,越接近1表示預(yù)測結(jié)果越準確。

測試的結(jié)果如下:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶性別預(yù)測-結(jié)果評估1.png


分數(shù)略低,經(jīng)過一番調(diào)整參數(shù)重新訓(xùn)練后,得到

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶性別預(yù)測-結(jié)果評估2.png


現(xiàn)在的F1 分數(shù) 為 “0.864”,實際測試有 87.6% 的準確率,感覺分類模型已經(jīng)可用了。

做下抽樣檢查,看到對程序員的性別識別還是比較準確性

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶性別預(yù)測-結(jié)果抽樣.png


預(yù)測

使用訓(xùn)練好的模型,嘗試對所有未知用戶性別進行預(yù)測:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶性別預(yù)測-預(yù)測未知性別結(jié)果.png


應(yīng)用預(yù)測結(jié)果,并查看最終的性別比率圖表:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶性別比率-預(yù)測后.png


以10000個簡書用戶為樣本的抽樣調(diào)查中,女性占58.1% 男性占 41.9%。

原來簡書女性用戶那么多的嗎,真是萬萬沒想到,第一次來到一個女性用戶比男性高的社區(qū),有點小緊張,怎么裝做經(jīng)常來的樣子 。

愛好分析

有了一份靜態(tài)屬性的特征數(shù)據(jù),我們繼續(xù)看看動態(tài)屬性中的“興趣愛好”要如何提取分析。

愛好和興趣的區(qū)別

在這里我給“愛好”和“興趣”做了細分定義,愛好跟興趣的區(qū)別:愛好是固定分類,興趣是動態(tài)詞條,例如可以是熱門頭條話題;愛好不會輕易消亡,興趣會隨時間降低關(guān)注熱情;愛好是“做什么”、“某一類事物”,例如“讀書”,“文學(xué)”;興趣是“某個具體事物”,如某本書、某個明星人物;愛好是頻繁是去做的事情,興趣可能只是一時的心血來潮偶爾接觸一次。

一個人如果對某個事物喜愛,便會經(jīng)常提及;如果只是某天一時感興趣了,可能會某一篇文章里會反復(fù)提及此事物,但不會出現(xiàn)頻繁在其他文章中提及。

基于這個理論,我們可以把用戶的所有文章的常用詞中出現(xiàn)的一些關(guān)鍵詞定性,例如他的大部分文章出現(xiàn)了“減肥”這個詞,那么這個用戶應(yīng)該是很在意“減肥”這個事;如果他只是在某1、2篇文章里提及“減肥”,這個詞甚至都有可能不會出現(xiàn)在他的常用詞榜內(nèi)。

構(gòu)建愛好分類

愛好作為分類信息,需要構(gòu)建一個愛好詞典,再使用用戶常用詞進行匹配,最后給用戶打上所匹配的分類標簽。

我整理了一個600多個分類的愛好詞典,常見的愛好都應(yīng)該包含了:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

愛好詞典-example.png

 

〖Tips:亮點自找〗


群體用戶愛好分析

對每個用戶進行愛好分類,可以得到一個用戶愛好排行榜:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶愛好 Top 100排行榜.png


簡單分析下:

“學(xué)習(xí)”在所有愛好中有15%,在用戶中占55.6%,也就說簡書大部分用戶都是愛“學(xué)習(xí)”,學(xué)習(xí)氛圍濃厚,簡書可以組織一些學(xué)習(xí)為主題的交流活動,至少一半用戶會馬上感興趣,至少可優(yōu)先發(fā)郵件通知下;

有27%的用戶愛好“寫作”,符合”二八”定律分布,一個內(nèi)容平臺總得有大量讀者型的用戶來圍觀點贊、打賞,寫作型的用戶才有動力繼續(xù)寫作;

“閱讀”、“讀書”、“電影”、都占了20%以上,這個感覺是要跟豆瓣的目標用戶重疊的節(jié)奏了,所以要從同樣以讀書、電影(影評)為核心的豆瓣上搶用戶,簡書運營者要花不少力氣。

個體用戶愛好分析

現(xiàn)在可以使用愛好標簽來聚合用戶了,比如有什么電影節(jié)活動時,可以打了“愛好:電影” 這樣標簽的用戶發(fā)個早鳥票什么的,用戶會感覺怎么我昨天才看到電影海報的文章今天就收到預(yù)售票通知,其他用戶還沒有,好智能、好貼心、好嗨森。

但只如果是做為簡單的分類標簽,聚合的粒度會比較粗糙,比如說有4個用戶:

“用戶A”喜歡讀書、寫作、作畫,
“用戶B”和“用戶C”也喜歡讀書、寫作,
“用戶D”喜歡讀書、看電影

顯然對于A,他跟用戶B、C的愛好相似度(有2項目重合)會大于 用戶D(只有一項重合),但實際上A、B、C三個人的對讀書的喜愛程度是不一樣,那么對于A,他跟B、C之間,誰的愛好相似會更接近呢?系統(tǒng)要給A推薦時B和C時,首先要推薦哪個?

為了解決這個問題,我引入一個“愛好喜好指數(shù)”(Hobbies Favor Index)的概念,可以給用戶的每個愛好打分,分值范圍是1-10分,10分表示“十分熱愛”,1分表示“一般般”,計算時使用用戶常用詞的詞頻作為輸入,跟他所用的其他詞根據(jù)詞頻做排位進行比較得到分位值再除以10收斂,得到1到10分,結(jié)果使用雷達圖表做數(shù)據(jù)呈現(xiàn),得到一個“用戶愛好雷達圖”,如圖:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶愛好雷達圖-example.png


通過雷達圖我們可以很直觀的了解這個用戶的愛好分布,以及每一項愛好的喜好程度,再與其他用戶做比較也有了基礎(chǔ):重疊面積越多的越表示愛好越相近,被推薦的排名則越靠前,如圖:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

用戶愛好相似推薦-example.png


終于可以知道簡書上誰跟我最臭味相投品味相近了!

至此,我得到了第三份簡書用戶特征數(shù)據(jù)-愛好分類。

關(guān)鍵興趣分析

什么是關(guān)鍵興趣

用戶興趣會很廣泛,要分析每一項興趣十分耗時耗力,特別作為運營平臺,不大可能也不值得花太多時間精力分析一些跟平臺運營方向無關(guān)的數(shù)據(jù)(所以這就是我們要有針對性建模的原因),對于簡書來說,讀書、寫作顯然是最需要關(guān)注的點,因此什么用戶的食物口味、喜歡看什么漫畫類型這些非核心、關(guān)鍵的特征,沒有太多必要去做收集和分析。所以,我們要做的是〖關(guān)鍵〗興趣分析,“簡書”里也有個“書”字,我就以“書籍”作為關(guān)鍵興趣,嘗試進行分析。

獲取書籍?dāng)?shù)據(jù)

書籍?dāng)?shù)據(jù)收集,最簡單,但卻不容易。

“簡單”是說數(shù)據(jù)提取可直接用正則匹配文章正文中用書名號《》包含的內(nèi)容,但事實上從最初提取到的數(shù)據(jù)上發(fā)現(xiàn)書名號內(nèi)的不止是書名,還有電影名、電視節(jié)目、文章標題、app名稱等,甚至有人喜歡用《簡書》這樣來引用簡書,因此需要進行數(shù)據(jù)清洗;有些書名中會包含問號?感嘆號!,寫正則匹配處理也比較麻煩;最保守的做法是使用專用詞典,但詞典的創(chuàng)建和更新也是有些工作量,不夠“智能”。

另外,還有些人喜歡使用“不合法”的標點符號來引用書籍名稱,例如【】、「」、『』、〖〗,我覺得很有必要呼應(yīng)響應(yīng)《標點符號用法 - 中華人民共和國教育部》這個規(guī)范:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

標點符號用法 - 中華人民共和國教育部.png


使用雙書名的正確姿勢應(yīng)該是:

書刊電影名:

已在中國出版發(fā)行的作品(報紙、雜志、圖書、名章、電影、電視節(jié)目、電子游戲、歌曲、戲劇等),請務(wù)必核實官方譯名。上述類型的作品名翻譯為中文時均使用書名號《》,使用外文時斜體、不加書名號,首次在文中出現(xiàn)時,請在譯名的后面加括號注上原文。

例如:電影《黑暗騎士崛起》(The Dark Knight Rises)首映式發(fā)生槍擊案。

為了解決干擾詞問題,我創(chuàng)建了一個書籍專用停用詞庫,內(nèi)容類似 :

簡書
百詞斬
扇貝單詞
首頁投稿
首頁熱門
網(wǎng)易云音樂
網(wǎng)易公開課
簡書連載作品龍虎榜
世界互聯(lián)網(wǎng)大會|xxxxxx

興趣點數(shù)

生活中每個人對某個事物的喜好程度是不一樣的,為了能做量化和計算比較,我定義了一個“興趣點數(shù)”概念,跟之前“愛好喜好指數(shù)”相似,也是1到10分(參考豆瓣的10分制,但10分制有精度問題,在最后的問題章節(jié)里有說明),10分就表示“十分喜愛”,使用書籍名出現(xiàn)的頻率作為輸入值進行換算,這樣能得到每個用戶的“喜愛書籍排行榜”,方便最后做用戶個性化推薦分析。

簡書用戶喜愛書籍 Top 100 排行榜

添加一個Pipeline用于收集用戶文章中出現(xiàn)的書名,運行Pipeline后,得到每個用戶的書籍列表,把興趣點數(shù)用5星條顯示,便可以很直觀的看出用戶對書籍的喜愛程度,如圖:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

興趣點數(shù)-example.png


在數(shù)據(jù)分析框架上能自動將所有用戶的書籍匯總統(tǒng)計比率,便得到了“簡書用戶喜愛書籍 Top 100 排行榜”:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書用戶喜愛書籍 Top 100 排行榜.png


榜首是《紅樓夢》,15%的用戶比率,說明每10個簡書用戶里就有1個人喜歡《紅樓夢》,遇到心儀的女性用戶沒有話題時,說些紅學(xué)關(guān)鍵詞說不定就能引起共鳴;

第2位是《西游記》,這個我相信用戶看的更多是電視劇,國產(chǎn)少有精品;

第3的《歡樂頌》雖說也有書籍(豆瓣上6.7分),但出現(xiàn)在這個排名絕對是因為作為同名電視劇而被用戶提及;

排名4、5、6的《論語》、《圣經(jīng)》、《詩經(jīng)》,也有10%的用戶比率,讓我不得不確認簡書是文青聚集地,國學(xué)當(dāng)?shù)溃?/span>

四大名著除了《水滸傳》其他三本都進了前10;

而我所喜歡的《三體》也進入了前20比較欣慰,硬科幻終于火一把了;

結(jié)合用戶性別,還可以到得出2份報表:

“簡書男性用戶喜愛書籍 Top 100 排行榜”(在這個榜里《三體》進入了前10?。?br /> “簡書女性用戶喜愛書籍 Top 100 排行榜”
〖Tips:榜單不一一貼出了,但這2份數(shù)據(jù)在后面的構(gòu)建網(wǎng)站群體用戶畫像時會用到〗

獲取電影數(shù)據(jù)(未完成)

影評也是寫作的好素材,也容易產(chǎn)生話題效應(yīng),因此也可以作為簡書用戶的關(guān)鍵興趣之一,再說我也很喜歡看電影  。

已經(jīng)使用爬蟲抓取到一些流行電影數(shù)據(jù)(如圖),以后再做分析。

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

電影數(shù)據(jù)-example.png

 

「重點來了」簡書用戶數(shù)據(jù)分析及預(yù)測 - 數(shù)據(jù)可視化、輸出報表、趨勢預(yù)測


構(gòu)建網(wǎng)站群體用戶畫像

簡書整體用戶群體畫像

網(wǎng)站的群體用戶畫像,可以用來表示這個網(wǎng)站的大部分用戶的共同屬性特征、行為特征,對于網(wǎng)站運營者可以直觀的了解自己的用戶群體概括。

使用前面步驟得到的“簡書用戶常用詞 Top 100排行榜”以及“簡書用戶喜愛書籍 Top 100 排行榜” 2份數(shù)據(jù),在分析系統(tǒng)里中創(chuàng)建一個虛擬用戶進行分析,下面是見證奇跡的時刻:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

分析簡書整體用戶群體畫像.gif


得到“簡書整體用戶群體畫像”:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書整體用戶群體畫像.png


從得到的畫像上看,預(yù)測的性別是女性,說明用戶中女性占多,這個跟前面用戶性別比率分析中女性占多這個結(jié)果是一致的;

大部分人的愛好是:閱讀、電影、讀書、寫作、學(xué)習(xí),因此還可以從這幾個愛好進行更細致的建模,采集更多的用戶特征數(shù)據(jù);

用戶最喜愛的書籍是:《西游記》、《小王子》、《紅樓夢》、《歡樂頌》、《論語》、《平凡的世界》等,可以圍繞些做話題活動;

下面再根據(jù)性別特征來細分出2個用戶群體:男性和女性群體用戶畫像。

簡書男性群體用戶畫像:使用 “簡書男性用戶常用詞 Top 100排行榜”,“簡書男性用戶喜愛書籍 Top 100 排行榜”:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書男性群體用戶畫像.png


簡書女性群體用戶畫像::使用 “簡書女性用戶常用詞 Top 100排行榜”,“簡書女性用戶喜愛書籍 Top 100 排行榜”:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

簡書女性群體用戶畫像.png


當(dāng)然還可以按其他屬性如年齡、某類愛好、區(qū)域等,這些都需要建模并收集獲取到輔助分析的特征數(shù)據(jù)。

〖Tips:分析系統(tǒng)在匯總男、女性用戶的關(guān)鍵詞、書籍?dāng)?shù)據(jù)時,會自動忽略每個用戶的詞頻數(shù)據(jù),相當(dāng)于一人一票機制,每個人都對關(guān)鍵詞投票,但一個詞只投一票,這樣得到的詞頻和排名才合理〗

網(wǎng)站個體用戶畫像

男性用戶例子

對整體用戶群體有了印象,現(xiàn)在來看看個體用戶畫像。以簡書上的男性大V用戶“彭小六” 作為例子,看下他的用戶畫像:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

典型男性用戶例子及分析 彭小六.png


他的愛好是:書籍、讀書、寫作、閱讀、學(xué)習(xí);文章提及過500多本書籍,其中比較喜歡的書籍是:《如何閱讀一本書》、《讓未來現(xiàn)在就來》、《影響力》、《這樣讀書就夠了》、《顛覆平庸》

女性用戶例子

再找一個女性用戶畫像例子,大V女性用戶有一位【簡黛玉】:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

典型女性用戶例子及分析 簡黛玉.png


看得到她的愛好相當(dāng)廣泛,但實際上這是個非自然人帳號,專門收錄一些簡書不同作者的精彩文章做推薦,所以表現(xiàn)出來的特征會比較寬泛,這個正好可以代表簡書官方PGC(專業(yè)編輯內(nèi)容)的傾向,可以大概看出簡書官方的內(nèi)容引導(dǎo)傾向是以哪些類型的文章為主。

用戶推薦

為了增加用戶粘性,提高內(nèi)容爆光率,進行營銷活動推廣,網(wǎng)站可以使用一些推薦系統(tǒng),可針對群組推薦,更好的做法是千人千面的個性化推薦,細致到可針對每一個用戶的喜好、關(guān)注點進行推薦。

推薦系統(tǒng)可以使用一些推薦算法如:個性化標簽;協(xié)同過濾(UserCF/ItermCF)等。這里我簡單的使用個性化標簽和基于用戶推薦的理念來演示下可以如何做個性化推薦。

在協(xié)同推薦理論中,要給用戶推薦他感興趣的內(nèi)容,可以從跟他愛好相近的用戶入手。

通過愛好標簽的聚合運算,跟“彭小六”愛好最相近的用戶有這些,如圖中右側(cè)列表:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

典型男性用戶例子及分析-相似用戶列表.png


看下分析系統(tǒng)推薦的第一個用戶“用時間釀酒”跟他的愛好會有多相近:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

典型男性用戶例子及分析-相似用戶雷達圖.png


看得出他們都愛好 書籍、讀書、寫作、閱讀、學(xué)習(xí),而且各項愛好的喜好程度也相近(愛好雷達圖的重疊面積大)。

再看下這個被推薦出來的用戶的自身的用戶畫像:

 

爬取了簡書百萬頁面,發(fā)現(xiàn)簡書用戶畫像竟然是這樣的

典型男性用戶例子及分析-相似用戶首推.png


可以看到兩個人的感興趣的書籍也非常接近。

那么推薦系統(tǒng)在做個性化推薦時,就可以把用戶“用時間釀酒” 比較喜歡的書籍(例如Top1的《哪有沒時間這回事》),推薦給用戶“彭小六”。基于同樣的原理,可以把這個用戶收藏的文章、打賞過的文章,推薦給“彭小六”。

至此,我們從0數(shù)據(jù)開始,通過百萬頁面抓取,到獲取了10000個抽樣用戶數(shù)據(jù),生成了一些用戶特征屬性,構(gòu)建了群體和個體的用戶畫像,大概了解到了簡書整體用戶群體特征,能知道某個具體用戶的興趣愛好特征,也知道要應(yīng)該如何給用戶推薦個性化內(nèi)容。

存在問題

在整個數(shù)據(jù)挖掘過程中,發(fā)現(xiàn)一些問題還有待完善:

性別預(yù)測中發(fā)現(xiàn),存在非自然人帳號,背后實際是多個運營者在發(fā)布文章,產(chǎn)生的內(nèi)容會包含兩性特征,使得到數(shù)據(jù)會影響預(yù)測準確性;性別分類器沒有進行交叉測試,測試評估有過擬合可能

發(fā)現(xiàn)用戶喜愛書籍的興趣指數(shù)使用10分制度精度不夠,使得原本應(yīng)該排第一位的書籍會因為第二位一樣得分(可想象成10.9跟10.1的差距),并因此可能因為相同得分而隨機變成了第二位;豆瓣的得分分數(shù)實際應(yīng)該算是100分制(只是表現(xiàn)出的結(jié)果是除以10,例如《三體》的得分是8.8,在一百分制里就是88分)

有些用戶沒有顯性的愛好、興趣怎么辦?可使用機器學(xué)習(xí),對用戶的興趣愛好進行預(yù)測

如何發(fā)掘用戶隱***好,例如大部分人都喜歡看電影,但不會特意發(fā)文章說“我是電影愛好者”,一般的行為是會經(jīng)常性發(fā)表對某些電影的看法,發(fā)表的內(nèi)容多了,顯然這個用戶是愛好看電影的,這種可以通過電影詞庫來訓(xùn)練分類器學(xué)習(xí)和預(yù)測

涉及工具

題圖中用到的詞云圖使用:wordart.com
其他:所有截圖均為我使用 Ruby 語言獨立開發(fā)的網(wǎng)頁抓取、數(shù)據(jù)分析框架
開發(fā)語言:Ruby(I Love Ruby?。?/span>
本文來源于公眾號中國統(tǒng)計網(wǎng)。
 

【轉(zhuǎn)載說明】   若上述素材出現(xiàn)侵權(quán),請及時聯(lián)系我們刪除及進行處理:[email protected]

評論

相關(guān)文章推薦

SELECT dw_posts.ID,dw_posts.post_title,dw_posts.post_content FROM dw_posts INNER JOIN dw_term_relationships ON (dw_posts.ID = dw_term_relationships.object_id) WHERE 1=1 AND(dw_term_relationships.term_taxonomy_id = 3577 ) AND dw_posts.post_type = 'post' AND (dw_posts.post_status = 'publish') GROUP BY dw_posts.ID ORDER BY RAND() LIMIT 0, 6

京ICP備15063977號-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號