對于當下共享單車在互聯(lián)網(wǎng)界的火熱狀況,筆者想從大數(shù)據(jù)文本挖掘的角度來做一番分析,主要是從海量的文本數(shù)據(jù)中找到有價值的訊息和觀察視角,透過文本挖掘了解共享單車相關(guān)的熱門話題和潛在趨勢。同時,筆者也希望把一些常用的文本挖掘方法介紹給大家,以便大家在做產(chǎn)品和運營的過程中能派上用場。對于文本挖掘的相關(guān)知識在這里就不贅述了,可以參考筆者之前寫的兩篇文章:《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠比數(shù)值型分析重要?。ㄉ希?、《在運營中,為什么文本分析遠比數(shù)值型分析重要?一個實際案例,五點分析(下)》。以下是本文的行文路線圖和所涉及的文本挖掘方法。
1 數(shù)據(jù)采集和預(yù)處理
在數(shù)據(jù)采集部分,筆者想采集跟共享單車關(guān)聯(lián)性強的文本數(shù)據(jù),筆者沒有去寫爬蟲去爬取數(shù)據(jù),而是用到了新浪微輿情“信息監(jiān)測”中的“數(shù)據(jù)導(dǎo)出”功能,根據(jù)設(shè)置的關(guān)鍵詞檢索邏輯,將所有涉及到共享單車的各類媒體文章的標題、發(fā)布時間、媒體名稱、正文及正文分詞等數(shù)據(jù)下載下來,省去文本數(shù)據(jù)的清洗和預(yù)處理過程,直接進行文本挖掘部分。在這里,筆者選取了市場上主流的26個共享單車品牌,再加上關(guān)鍵字“共享單車”,形成如下的關(guān)鍵詞檢索邏輯:共享單車+(永安行 |ofo|小鳴單車 |小藍單車 |智享單車 |北京公共自行車 |騎點 |奇奇出行 |CCbike |7號電單車 |黑鳥單車 |hellobike |酷騎單車 |1步單車 |由你單車 |踏踏 |Funbike單車 |悠悠單車 |騎唄 |熊貓單車 |云單車 |優(yōu)拜單車 |電電Go單車 |小鹿單車 |小白單車 |快兔出行 |摩拜單車 | 綠游GreenBike)
2 常規(guī)描述性數(shù)據(jù)統(tǒng)計
在正式的文本分析之前,筆者再對上述預(yù)處理后的數(shù)據(jù)進行描述性分析,先從表層獲得這些數(shù)據(jù)的直觀印象。首先是這4個月有關(guān)共享單車的文章數(shù)量的分布情況,如下圖所示:3 關(guān)鍵詞提取
在這部分,筆者除了對上述經(jīng)分詞處理的正文文本進行詞頻統(tǒng)計的同時,還用到了信息檢索領(lǐng)域里的TF-IDF(Term Frequency–Inverse Document Frequency)關(guān)鍵詞統(tǒng)計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。由此可見,在提取某段文本的關(guān)鍵信息時,關(guān)鍵詞提取較詞頻統(tǒng)計更為可取,能提取出對某段文本具有重要意義的關(guān)鍵詞。根據(jù)上面的闡述,權(quán)重值大小與詞頻數(shù)不呈正比。對這88,291篇文章的關(guān)鍵詞提取和詞頻統(tǒng)計如下。然后根據(jù)這些詞的詞頻大小制作出共享單車形狀的個性化詞云,顯示如下:
共享單車的品牌及其創(chuàng)始人:“小黃車”(ofo)、“摩拜單車”、“永安行”、“小鳴(單車)”、“胡瑋煒”、“戴威”等。
投融資、資本運作:“資本”、“投資”、“融資”、“戰(zhàn)略”、“資金”、“金融”、“商業(yè)”、“投資人”、“合伙人”等。
政府對共享單車行業(yè)的監(jiān)管:"政府"、"規(guī)范"、"監(jiān)管"、"車管"、'城管“、‘機動車"、"車道”、“秩序"、"政策"等。
共享單車運營相關(guān)(包括其中出現(xiàn)的問題):"投放"、"運營"、"停車"、"支付"、"手機"、"擁堵"、"街頭"、"開鎖"、"地鐵站"、"環(huán)境"等。
4 LDA主題模型
如果小伙伴們覺得上面筆者用關(guān)鍵詞劃分主題的做法有點扯淡,表示不服,那么筆者將拿出LDA主題模型來“回擊”你,操作之前,先來簡單科普下LDA主題模型到底啥玩意。由于LDA屬于概率主題模型的子類,那就先從“概率主題模型”說起:概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,近年來在文本挖掘領(lǐng)域得到了非常廣泛的應(yīng)用,在文本分類、信息檢索等相關(guān)領(lǐng)域取得了非常好的應(yīng)用效果。概率主題模型的基本原理認為文檔是若干主題的混合概率分布,而每個主題又是一個關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項方法當中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。LDA是一種典型的無監(jiān)督(也就是每段文本沒有標簽,我們事先不知道里面說的是啥)、基于統(tǒng)計學(xué)習的詞袋模型,即它認為一篇文檔是由一組詞構(gòu)成的一個集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文檔中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標注的海量電子文檔。類似Kmeans聚類,LDA模型的主題數(shù)也需要人工來確定,筆者在嘗試了多個主題數(shù)之后,確定了最終的主題數(shù),從下面的LDA可視化圖形可以看出,主題數(shù)為6時,很多主題所涵蓋的關(guān)鍵詞出現(xiàn)嚴重的重疊,而分成10個主題后,情況得到好轉(zhuǎn),話題區(qū)分度尚能接受。5 文檔聚類
接下來采用的是基于譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)的文檔聚類,這部分的原理涉及到艱深的數(shù)學(xué)和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結(jié)果。先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)進行雙重聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個關(guān)鍵詞構(gòu)成某個主題。在正式分析前,現(xiàn)將先前Excel中的正文分詞文本按月份進行分類,將其單獨放進所屬的月份文件夾下,操作如下圖所示。Biclusters類別0:共享單車相關(guān)的創(chuàng)投、資本和競爭相關(guān),行業(yè)的視角Biclusters類別1:共享單車相關(guān)的行政監(jiān)管、整治,政府的視角Biclusters類別2:共享單車運營中出現(xiàn)的各種社會問題,社會的視角Biclusters類別3:共享單車方面的負面信息,很多已經(jīng)上升到違法違規(guī),甚至觸犯刑法的層面了,法律的視角由上面的數(shù)據(jù),還可以得到這4個話題在總文本中的占比情況。
6 情感分析
筆者在新浪微輿情“信息監(jiān)測”上觀察到,3~6月間關(guān)于共享單車的負面信息的走勢情況,顯然,這段時間內(nèi)的負面信息一直處于一個較高的水平,平均每天好幾W的負面新聞報道量。7 LSI文本相似度索引
在上面的主題分析和文本聚類分析中,“融資”這個關(guān)鍵詞出現(xiàn)了若干次,它成功的攫取了筆者的眼球。為此,筆者想通過“融資”這個關(guān)鍵詞去找尋與其最相關(guān)的TOP20新聞標題。在這里,筆者不采用直接通過關(guān)鍵詞查找的方法去尋找這些相關(guān)標題,而是通過語義上的關(guān)聯(lián)性去尋找,也就是說,即使這些語句不包含“融資”二字,只要體現(xiàn)這個含義就是我要尋找的目標。鑒于此,筆者采用了基于LSI(Latent Semantic Index,潛在語義索引)的方法去查找文本相似度最高的20個語句,大致上比較文本向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細原理,小伙伴們可以自行Google腦補。經(jīng)過分析,找到了跟“融資”語義最相關(guān)的20條新聞??梢钥吹剑锩婧芏鄾]有包含“融資”二字,但意義上都有體現(xiàn)資本運作,比如“共享單車又掀起新一輪‘互掐’”這條新聞,里面有這樣的論述:“公開資料顯示,截至2017年4月,兩家公司共計融資總額超過10億美元,其中ofo剛剛完成D3輪融資,估值超過16億美元”,第二個“…ofo共享單車獲4.5億美元”,也是講的融資方面的新聞,剩下的相似語句以此類推。從這些新聞標題來看,共享單車領(lǐng)域的競爭不僅出現(xiàn)在用戶獲取和地盤爭奪上,在資本領(lǐng)域也是刀光劍影, 撕得不可開交。由此可以看到,計算機通過LSI算法變得“聰明”了不少,在某種程度上,能“理解”自然語言了!
8 Word2vec
最后進行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓(xùn)練,然后用來進行關(guān)聯(lián)詞分析。Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。類似的例子可以參看筆者之前的文章《用數(shù)據(jù)全方位解讀<歡樂頌2>》、《以<大秦帝國之崛起>為例,來談大數(shù)據(jù)輿情分析和文本挖掘》。首先,筆者對共享單車的2大巨頭---摩拜單車、ofo(小黃車)及其各自CEO的相關(guān)詞匯感興趣,分析結(jié)果如下:從上圖可以看出,跟“胡瑋煒”、“摩拜”最相關(guān)的詞匯是“陳偉鴻”,是中央電視臺的主持人、記者、編輯、制片人,而胡瑋煒畢業(yè)于浙江大學(xué)城市學(xué)院新聞系,在《每日經(jīng)濟新聞》、《新京報》、《商業(yè)價值》等媒體做過記者和報道,也就是說,他們有著類似的從業(yè)經(jīng)歷,而且在6月25日的央視《對話》節(jié)目中,作為主持人的陳偉鴻與作為嘉賓的胡瑋煒有了交集。排在第二位的是她的對手ofo的CEO戴威。值得注意的是,出現(xiàn)在關(guān)聯(lián)詞列表中的 “(王)曉峰”,曾任職Uber上海城市總經(jīng)理,是摩拜單車大股東李斌“邀請”來擔任摩拜CEO一職的,理由是媒體出身的胡瑋煒在經(jīng)營層面缺乏經(jīng)驗,由此業(yè)界傳聞“王曉峰是資本派來的管家”不脛而走?!皶苑濉焙竺婢o隨“昆侖決”,根據(jù)語境來講,這里的“昆侖決”應(yīng)該不是實指青海衛(wèi)視的那項世界職業(yè)搏擊賽事,而是用以隱喻共享單車行業(yè)競爭激烈的現(xiàn)狀,而且這種具有畫面感的語義聯(lián)想在媒體的報道中比較頻繁。
結(jié)語
在上面的各類文本挖掘中,反復(fù)出現(xiàn)一些關(guān)鍵詞和主題,如“亂象”、“監(jiān)管”、“愈演愈烈”等,給筆者一個最直觀的印象是“山雨欲來風滿樓”,共享單車這個行業(yè)已經(jīng)到了“洗牌”的時間了:經(jīng)過幾個月的火熱期,共享單車領(lǐng)域硝煙彌漫,競爭的號角此起彼伏,在共享單車將觸角伸向城市各個角落的同時,各類社會亂象、人性考驗和法治問題接踵而至,政府也被迫由先前的大力倡導(dǎo)到謹慎的規(guī)范引導(dǎo),行業(yè)的集聚特征也越來越明顯,或許可以大膽猜想一下,像之前的團購、拼車和外賣這些領(lǐng)域,由資本推動,從“千帆競過”到“百團大戰(zhàn)”,再是“三足鼎立”,最后“三家歸晉”?欲知后事如何,我們姑且看之。
參考資料及分析工具:
1. 新浪微輿情,信息監(jiān)測、情緒地圖(數(shù)據(jù)采集及來源,情緒分析)2. 易觀千帆(APP用戶數(shù)據(jù))2.Gensim官網(wǎng),https://radimrehurek.com/genism3.PiotrBojanowski,EdouardGrave, Armand Joulin ,TomasMikolov,Enriching Word Vectors with Subword Information4.勞鑫,馬寶君,張楠,萬巖,基于概率主題建模和深度學(xué)習的公眾輿情分析5.YoavGoldberg,wordembeddings---what, how and whither6.AnnaHuang,SimilarityMeasures for Text Document Clustering7.Python(jieba、snownlp、gensim、sklearn、wordcloud)本文由作者 @蘇格蘭折耳喵(g18818233178) 原創(chuàng)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
【轉(zhuǎn)載說明】  若上述素材出現(xiàn)侵權(quán),請及時聯(lián)系我們刪除及進行處理:[email protected]