无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機號

注冊

忘記密碼

用戶協(xié)議

綁定手機號

近期有不法分子打著愛盈利的旗號,制作“愛盈利”名稱的App,并偽造愛盈利證件,騙取用戶信任,以抖音點贊賺錢或其他方式賺錢為名義,過程中以升級會員獲得高傭金為名讓用戶充值。
愛盈利公司鄭重聲明:我司沒有研發(fā)或運營過任何名為“愛盈利”的APP,我司做任務(wù)賺錢類產(chǎn)品從沒有讓任何普通用戶充值升級會員。我公司產(chǎn)品均在本網(wǎng)站可查詢,請將網(wǎng)站拉至底部,點擊“關(guān)于我們”可查看愛盈利相關(guān)產(chǎn)品與服務(wù)。
溫馨提示:當遇到此類問題請撥打官方電話或添加官方微信,以免財產(chǎn)損失。愛盈利官網(wǎng)地址:www.jza6.com。
  • 推廣與合作
X

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

來源:蘇格蘭折耳喵 4612
2016年底以來,國內(nèi)共享單車毫無征兆的就火爆了起來,彼時一張手機截屏躥紅網(wǎng)絡(luò)---在這張截圖上,24個共享單車應(yīng)用的圖標霸滿了整個手機屏幕,昭示著共享單車市場搶奪大戰(zhàn)的激烈和殘酷。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

再看看一組來自易觀千帆的數(shù)據(jù):共享單車領(lǐng)域兩大巨頭---摩拜單車和ofo近一年的客戶端用戶增長數(shù)據(jù),二者的用戶增長曲線別無二致,都是一路高歌猛進,共享單車領(lǐng)域的火爆勢頭在短時間內(nèi)不會遏止。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

同時,在全國各大城市,在街頭巷尾,在居民小區(qū)和創(chuàng)業(yè)園區(qū),排滿了各種顏色的共享單車,仿佛一夜之間,共享單車如“千樹萬樹”的梨花一般,盛開到了泛濫成災(zāi)的地步了。與此同時,各種亂象也是接踵而至,觸目驚心:人為肆意毀壞單車、車身亂貼小廣告、街上隨意停放…

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

對于當下共享單車在互聯(lián)網(wǎng)界的火熱狀況,筆者想從大數(shù)據(jù)文本挖掘的角度來做一番分析,主要是從海量的文本數(shù)據(jù)中找到有價值的訊息和觀察視角,透過文本挖掘了解共享單車相關(guān)的熱門話題和潛在趨勢。
同時,筆者也希望把一些常用的文本挖掘方法介紹給大家,以便大家在做產(chǎn)品和運營的過程中能派上用場。對于文本挖掘的相關(guān)知識在這里就不贅述了,可以參考筆者之前寫的兩篇文章:《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠比數(shù)值型分析重要?。ㄉ希?、《在運營中,為什么文本分析遠比數(shù)值型分析重要?一個實際案例,五點分析(下)》。以下是本文的行文路線圖和所涉及的文本挖掘方法。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

1 數(shù)據(jù)采集和預(yù)處理

在數(shù)據(jù)采集部分,筆者想采集跟共享單車關(guān)聯(lián)性強的文本數(shù)據(jù),筆者沒有去寫爬蟲去爬取數(shù)據(jù),而是用到了新浪微輿情信息監(jiān)測”中的“數(shù)據(jù)導(dǎo)出”功能,根據(jù)設(shè)置的關(guān)鍵詞檢索邏輯,將所有涉及到共享單車的各類媒體文章的標題、發(fā)布時間、媒體名稱、正文及正文分詞等數(shù)據(jù)下載下來,省去文本數(shù)據(jù)的清洗預(yù)處理過程,直接進行文本挖掘部分。在這里,筆者選取了市場上主流的26個共享單車品牌,再加上關(guān)鍵字“共享單車”,形成如下的關(guān)鍵詞檢索邏輯:
共享單車+(永安行 |ofo|小鳴單車 |小藍單車 |智享單車 |北京公共自行車 |騎點 |奇奇出行 |CCbike |7號電單車 |黑鳥單車 |hellobike |酷騎單車 |1步單車 |由你單車 |踏踏 |Funbike單車 |悠悠單車 |騎唄 |熊貓單車 |云單車 |優(yōu)拜單車 |電電Go單車 |小鹿單車 |小白單車 |快兔出行 |摩拜單車 | 綠游GreenBike)

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

筆者選取2017-3-1~2017-6-30之間的數(shù)據(jù),經(jīng)由上面的檢索關(guān)鍵詞,可以得到我們想要的數(shù)據(jù),為節(jié)省時間,筆者僅選取“新聞”這一信息來源的文本數(shù)據(jù)作為分析對象,因為這部分的數(shù)據(jù)比較符合要求,包含的噪音較小。結(jié)果顯示如下:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

導(dǎo)出數(shù)據(jù)之后,結(jié)果如下:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

上面圈紅的字段是比較重要的分析維度,注意,導(dǎo)出的文章正文數(shù)據(jù)已經(jīng)經(jīng)過系統(tǒng)分詞和去停用詞處理,直接省去了文本預(yù)處理所要耗費的時間。筆者再對其中的數(shù)據(jù)進行去重處理---去掉“標題/微博內(nèi)容”和“正文切詞”相同的部分,再從“發(fā)布日期”中提取出“月份”字段(用于后面的按月份分類文本),最終得到如下結(jié)果:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

由此,原先的數(shù)據(jù)量從30W+的數(shù)據(jù)量減少到88,291條數(shù)據(jù)。

2 常規(guī)描述性數(shù)據(jù)統(tǒng)計

在正式的文本分析之前,筆者再對上述預(yù)處理后的數(shù)據(jù)進行描述性分析,先從表層獲得這些數(shù)據(jù)的直觀印象。首先是這4個月有關(guān)共享單車的文章數(shù)量的分布情況,如下圖所示:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

可以看到,中間兩個月的發(fā)布文章數(shù)量最多,3月份的數(shù)量最少。經(jīng)統(tǒng)計,共有4,056個媒體發(fā)布了跟共享單車有關(guān)的文章,在Excel中使用“數(shù)據(jù)分析-描述統(tǒng)計”對這些媒體發(fā)文數(shù)據(jù)進行描述統(tǒng)計,得出如下結(jié)果:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

由此可見,在文章總數(shù)88,291篇、發(fā)文媒體4,056個的情況下,平均每個媒體的發(fā)文數(shù)約為22篇(21.66),其中的中位數(shù)為3篇,眾數(shù)為1篇,最大發(fā)文數(shù)為4,815篇。結(jié)合下面的直方圖,數(shù)量分布呈現(xiàn)明顯的左偏態(tài),主要集中在“0-300篇”這個區(qū)間內(nèi)(其中絕大部分為1篇)。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

再來展示發(fā)文數(shù)量TOP30媒體的情況。排名榜首的是突襲網(wǎng),它是一個信息資訊“大雜燴”(上面有各類轉(zhuǎn)載過來的信息和琳瑯滿目的廣告,而且經(jīng)常不標明信息來源。。。),其次是騰訊新聞、搜狐媒體平臺、新浪和網(wǎng)易這樣的綜合信息門戶網(wǎng)站。有點意外的是,的關(guān)于共享單車的發(fā)文量竟然排在第四位,它原名“開縣新聞網(wǎng)”,原本是一個地方性質(zhì)的媒體,于2010年成立,為把網(wǎng)站建設(shè)為報紙、電視、電臺“三網(wǎng)合一”的網(wǎng)絡(luò)媒體,漢豐網(wǎng)全面整合開縣主流媒體資源,單從發(fā)文信息量這點來說,該網(wǎng)站發(fā)展著實迅猛。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

 對于接下來的文本數(shù)據(jù)挖掘,筆者用到的是Python,以及常用的分析包,如jieba、sklearn、gensim、snownlp等。

3 關(guān)鍵詞提取

在這部分,筆者除了對上述經(jīng)分詞處理的正文文本進行詞頻統(tǒng)計的同時,還用到了信息檢索領(lǐng)域里的TF-IDF(Term Frequency–Inverse Document Frequency)關(guān)鍵詞統(tǒng)計方法:它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。由此可見,在提取某段文本的關(guān)鍵信息時,關(guān)鍵詞提取較詞頻統(tǒng)計更為可取,能提取出對某段文本具有重要意義的關(guān)鍵詞。根據(jù)上面的闡述,權(quán)重值大小與詞頻數(shù)不呈正比。對這88,291篇文章的關(guān)鍵詞提取和詞頻統(tǒng)計如下。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

從上表可以看出,提取出的關(guān)鍵詞跟共享單車的關(guān)聯(lián)性很明顯,大致上有如下幾類:

  • 共享單車的品牌及其創(chuàng)始人:“小黃車”(ofo)、“摩拜單車”、“永安行”、“小鳴(單車)”、“胡瑋煒”、“戴威”等。


  • 投融資、資本運作:“資本”、“投資”、“融資”、“戰(zhàn)略”、“資金”、“金融”、“商業(yè)”、“投資人”、“合伙人”等。


  • 政府對共享單車行業(yè)的監(jiān)管:"政府"、"規(guī)范"、"監(jiān)管"、"車管"、'城管“、‘機動車"、"車道”、“秩序"、"政策"等。


  • 共享單車運營相關(guān)(包括其中出現(xiàn)的問題):"投放"、"運營"、"停車"、"支付"、"手機"、"擁堵"、"街頭"、"開鎖"、"地鐵站"、"環(huán)境"等。

然后根據(jù)這些詞的詞頻大小制作出共享單車形狀的個性化詞云,顯示如下:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

關(guān)鍵詞的提取只是獲取這些文本訊息的“初の印象”,好戲還在后頭!

4 LDA主題模型

如果小伙伴們覺得上面筆者用關(guān)鍵詞劃分主題的做法有點扯淡,表示不服,那么筆者將拿出LDA主題模型來“回擊”你,操作之前,先來簡單科普下LDA主題模型到底啥玩意。由于LDA屬于概率主題模型的子類,那就先從“概率主題模型”說起:概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,近年來在文本挖掘領(lǐng)域得到了非常廣泛的應(yīng)用,在文本分類、信息檢索等相關(guān)領(lǐng)域取得了非常好的應(yīng)用效果。概率主題模型的基本原理認為文檔是若干主題的混合概率分布,而每個主題又是一個關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項方法當中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。LDA是一種典型的無監(jiān)督(也就是每段文本沒有標簽,我們事先不知道里面說的是啥)、基于統(tǒng)計學(xué)習的詞袋模型,即它認為一篇文檔是由一組詞構(gòu)成的一個集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文檔中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標注的海量電子文檔。類似Kmeans聚類,LDA模型的主題數(shù)也需要人工來確定,筆者在嘗試了多個主題數(shù)之后,確定了最終的主題數(shù),從下面的LDA可視化圖形可以看出,主題數(shù)為6時,很多主題所涵蓋的關(guān)鍵詞出現(xiàn)嚴重的重疊,而分成10個主題后,情況得到好轉(zhuǎn),話題區(qū)分度尚能接受。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

下圖“打印”出這10個主題及其下轄的20個關(guān)鍵詞,以“權(quán)重值*詞匯”的累加形式呈現(xiàn),各個權(quán)重值其實是該詞匯在指定主題下出現(xiàn)的概率大小,也可以理解為該詞對該主題的“貢獻”程度,比如TOP0中的“孩子”前的權(quán)重系數(shù)為0.008,表明在TOP0的話題下,“孩子”被“抽中”的概率為0.008。依次類推,各個詞語w在主題T下出現(xiàn)的概率分布稱之為詞分布,這個詞分布也是一個多項分布

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

對于上圖中的主題詞列表(表示與各個潛在主題最為相關(guān)的一些詞語),筆者還進行了可以點擊交互的可視化展示,可以看到每個主題下的關(guān)鍵詞在該話題下及總的文本中的占比情況,從中可以看出某個詞對于該主題的重要程度如何。如下圖中TOP1下的關(guān)鍵詞“摩拜”,在該主題中出現(xiàn)的概率最大,重要性最高,紅色條柱代表它在TOP1下的比重,而藍色條柱的是它在整個文本(88,291篇文章)中的比重。某個詞對該主題重要性最顯著的情況是:藍色條柱更短、紅色條柱越長,這類詞更能對主題進行區(qū)隔。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

將上述TOP及其下轄的主題詞進行整理,排除主題中的“噪音”(明顯跟主題不相關(guān)的詞匯異常點),根據(jù)其中的詞匯構(gòu)成(不僅僅是下列展示的20個關(guān)鍵詞,還包含后續(xù)的若干主題關(guān)鍵詞)及相關(guān)媒體報道,得出這10個主題的大致“內(nèi)涵”:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

主題對應(yīng)的具體內(nèi)容如下表所示:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

 5 文檔聚類

接下來采用的是基于譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)的文檔聚類,這部分的原理涉及到艱深的數(shù)學(xué)和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結(jié)果。先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)進行雙重聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個關(guān)鍵詞構(gòu)成某個主題。在正式分析前,現(xiàn)將先前Excel中的正文分詞文本按月份進行分類,將其單獨放進所屬的月份文件夾下,操作如下圖所示。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

最終的結(jié)果是,系統(tǒng)自動形成的幾個文檔簇群,以及每個簇群下面最重要的TOP30關(guān)鍵詞。結(jié)果如下圖所示:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

翻譯一下,說人話就是:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

上面的每一個Bicluster類別都可以看做是一個話題,這里還可以量化的看到每個話題在總文本中的成分占比(通過文檔數(shù)量或關(guān)鍵詞數(shù)量來判定),也可以了解該話題在這4個月上的成分分布情況。從上圖中可以看到,3-6月這四個月間的若干文本在Biclusters下分為4個話題??梢钥吹剑贐iclusters聚類的話題區(qū)分度明顯要好于上述的LDA主題模型,而且很神奇的是,類別相近的詞匯會自動聚集在一個話題下,橫跨這8W+個文檔!上面四個話題可以很容易的得出:
Biclusters類別0:共享單車相關(guān)的創(chuàng)投、資本和競爭相關(guān),行業(yè)的視角Biclusters類別1:共享單車相關(guān)的行政監(jiān)管、整治,政府的視角Biclusters類別2:共享單車運營中出現(xiàn)的各種社會問題,社會的視角Biclusters類別3:共享單車方面的負面信息,很多已經(jīng)上升到違法違規(guī),甚至觸犯刑法的層面了,法律的視角
由上面的數(shù)據(jù),還可以得到這4個話題在總文本中的占比情況。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

從上圖可以看出,Biclusters類別1的比重最大,也就是4個月間關(guān)于共享單車行政監(jiān)管方面的文章較多,共享單車在市場運營過程中的各類問題已然引起社會和有關(guān)部門的高度重視,各種行業(yè)亂象亟待整治和肅清。將話題和月份進行交叉分析,可以看到每個月份下關(guān)于共享單車報道的話題構(gòu)成情況。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

比如,4月份有關(guān)共享單車的各種社會問題的媒體報道較多,而6月份對共享單車行業(yè)方面的報道居多。剩下的部分請小伙伴們看表說話,自行腦補,我就不廢話咯。

6 情感分析

筆者在新浪微輿情“信息監(jiān)測”上觀察到,3~6月間關(guān)于共享單車的負面信息的走勢情況,顯然,這段時間內(nèi)的負面信息一直處于一個較高的水平,平均每天好幾W的負面新聞報道量。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

緊接著,筆者使用機器學(xué)習的方法,對這8W多條文章的標題進行本地的情感分析,以便獲得媒體對共享單車報道的“情感傾向”的總體情況。這里的“情感傾向”是以一個介于0~1之間的“情感極性值”來表征---如果某條評論的情感極性值越接近于0,說明它的負面情感傾向越明顯,越接近于1,說明它的正面情感傾向越明顯,而取值在0.5左右徘徊,這說明這種情感傾向不明顯,是為“中性”。筆者將情感傾向值的取值區(qū)間0~1細分為3個子區(qū)間,分別對應(yīng)不同的情感傾向。詳細操作請參考《用數(shù)據(jù)全方位解讀<歡樂頌2>》的2.1部分。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

經(jīng)整理,將其制作成直方圖的形式呈現(xiàn):

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

從上面的直方圖可以看出,情感極性值絕大部分在0.2上的分布最多,而這個分值處在負面情感度的左端,很低的水平。根據(jù)上圖顯示,如果要給這段時間內(nèi)共享單車的總體情感傾向評級(5個級別,“極其負面”、“比較負面”、“中性”、“比較正面”、“極其正面”)的話,那么這個評級接近于“極其負面”。以下是關(guān)于共享單車“三元”情感傾向的占比情況。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

由此,再次印證了這段時間內(nèi)關(guān)于共享單車的各類負面報道不斷。不過,話又說回來,這些都是來自媒體的聲音,而媒體有喜好報道負面訊息的傳統(tǒng),缺少了廣大網(wǎng)民發(fā)聲,對共享單車的輿情分析難免會存在信息失真。對此,筆者選擇了社會化媒體中具有重大影響力的新浪微博作為分析對象,對上面的網(wǎng)民情緒進行總覽。關(guān)于社會化媒體方面的大數(shù)據(jù)分析,小伙伴們可以參看《如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》下面幾張圖來自新浪微輿情的“情緒地圖”部分,數(shù)據(jù)來源為新浪微博,為保持時效性,時間區(qū)間為近三日。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

整體上看,與媒體的報道不同,絕大部分網(wǎng)民對于共享單車的“泛濫成災(zāi)”是持“喜悅”情緒的,由上面的LDA主題模型可以了解到,“便利出行”是形成這種贊許態(tài)度的原因之一。

7 LSI文本相似度索引

在上面的主題分析和文本聚類分析中,“融資”這個關(guān)鍵詞出現(xiàn)了若干次,它成功的攫取了筆者的眼球。為此,筆者想通過“融資”這個關(guān)鍵詞去找尋與其最相關(guān)的TOP20新聞標題。在這里,筆者不采用直接通過關(guān)鍵詞查找的方法去尋找這些相關(guān)標題,而是通過語義上的關(guān)聯(lián)性去尋找,也就是說,即使這些語句不包含“融資”二字,只要體現(xiàn)這個含義就是我要尋找的目標。鑒于此,筆者采用了基于LSI(Latent Semantic Index,潛在語義索引)的方法去查找文本相似度最高的20個語句,大致上比較文本向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細原理,小伙伴們可以自行Google腦補。經(jīng)過分析,找到了跟“融資”語義最相關(guān)的20條新聞??梢钥吹剑锩婧芏鄾]有包含“融資”二字,但意義上都有體現(xiàn)資本運作,比如“共享單車又掀起新一輪‘互掐’”這條新聞,里面有這樣的論述:“公開資料顯示,截至2017年4月,兩家公司共計融資總額超過10億美元,其中ofo剛剛完成D3輪融資,估值超過16億美元”,第二個“…ofo共享單車獲4.5億美元”,也是講的融資方面的新聞,剩下的相似語句以此類推。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

從這些新聞標題來看,共享單車領(lǐng)域的競爭不僅出現(xiàn)在用戶獲取和地盤爭奪上,在資本領(lǐng)域也是刀光劍影, 撕得不可開交。
由此可以看到,計算機通過LSI算法變得“聰明”了不少,在某種程度上,能“理解”自然語言了!

8 Word2vec

最后進行的是基于Word EmbeddingWord2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓(xùn)練,然后用來進行關(guān)聯(lián)詞分析。Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。類似的例子可以參看筆者之前的文章《用數(shù)據(jù)全方位解讀<歡樂頌2>》、《以<大秦帝國之崛起>為例,來談大數(shù)據(jù)輿情分析和文本挖掘》。首先,筆者對共享單車的2大巨頭---摩拜單車、ofo(小黃車)及其各自CEO的相關(guān)詞匯感興趣,分析結(jié)果如下:

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

從上圖可以看出,跟“胡瑋煒”、“摩拜”最相關(guān)的詞匯是“陳偉鴻”,是中央電視臺的主持人、記者、編輯、制片人,而胡瑋煒畢業(yè)于浙江大學(xué)城市學(xué)院新聞系,在《每日經(jīng)濟新聞》、《新京報》、《商業(yè)價值》等媒體做過記者和報道,也就是說,他們有著類似的從業(yè)經(jīng)歷,而且在6月25日的央視《對話》節(jié)目中,作為主持人的陳偉鴻與作為嘉賓的胡瑋煒有了交集。排在第二位的是她的對手ofo的CEO戴威。值得注意的是,出現(xiàn)在關(guān)聯(lián)詞列表中的 “(王)曉峰”,曾任職Uber上海城市總經(jīng)理,是摩拜單車大股東李斌“邀請”來擔任摩拜CEO一職的,理由是媒體出身的胡瑋煒在經(jīng)營層面缺乏經(jīng)驗,由此業(yè)界傳聞“王曉峰是資本派來的管家”不脛而走?!皶苑濉焙竺婢o隨“昆侖決”,根據(jù)語境來講,這里的“昆侖決”應(yīng)該不是實指青海衛(wèi)視的那項世界職業(yè)搏擊賽事,而是用以隱喻共享單車行業(yè)競爭激烈的現(xiàn)狀,而且這種具有畫面感的語義聯(lián)想在媒體的報道中比較頻繁。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

而ofo及其創(chuàng)始人最相關(guān)的詞依次是摩拜單車、胡瑋煒、(王)曉峰、CEO、小藍單車、悟空(單車)這些詞,多是對手。也涉及了其海外擴張戰(zhàn)略的相關(guān)詞匯,如“全球”“海外”“投放”等。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

而跟“摩拜”和“ofo”相關(guān)的詞多是反映這個行業(yè)現(xiàn)階段的特征,如“(圈地)投放”“(爭搶)用戶”、“入駐(城市、小區(qū)和國外等)”、“公司”、“數(shù)量”、“市場”和“大戰(zhàn)”等,還有它們的對手“小藍單車”“小鳴(單車)”、“哈羅單車”等。

【干貨】用大數(shù)據(jù)文本挖掘來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

加入“大戰(zhàn)”之后預(yù)測出來的關(guān)聯(lián)詞匯,就更能反映共享單車這個行業(yè)競爭的硝云彈雨了,在用戶和資本領(lǐng)域競爭的火藥味十足。

結(jié)語

在上面的各類文本挖掘中,反復(fù)出現(xiàn)一些關(guān)鍵詞和主題,如“亂象”、“監(jiān)管”、“愈演愈烈”等,給筆者一個最直觀的印象是“山雨欲來風滿樓”,共享單車這個行業(yè)已經(jīng)到了“洗牌”的時間了:
經(jīng)過幾個月的火熱期,共享單車領(lǐng)域硝煙彌漫,競爭的號角此起彼伏,在共享單車將觸角伸向城市各個角落的同時,各類社會亂象、人性考驗和法治問題接踵而至,政府也被迫由先前的大力倡導(dǎo)到謹慎的規(guī)范引導(dǎo),行業(yè)的集聚特征也越來越明顯,或許可以大膽猜想一下,像之前的團購、拼車和外賣這些領(lǐng)域,由資本推動,從“千帆競過”到“百團大戰(zhàn)”,再是“三足鼎立”,最后“三家歸晉”?
欲知后事如何,我們姑且看之。

參考資料及分析工具:

1. 新浪微輿情,信息監(jiān)測、情緒地圖(數(shù)據(jù)采集及來源,情緒分析)2. 易觀千帆(APP用戶數(shù)據(jù))2.Gensim官網(wǎng),https://radimrehurek.com/genism3.PiotrBojanowski,EdouardGrave, Armand Joulin ,TomasMikolov,Enriching Word Vectors with Subword Information4.勞鑫,馬寶君,張楠,萬巖,基于概率主題建模和深度學(xué)習的公眾輿情分析5.YoavGoldberg,wordembeddings---what, how and whither6.AnnaHuang,SimilarityMeasures for Text Document Clustering7.Python(jieba、snownlp、gensim、sklearn、wordcloud)本文由作者 @蘇格蘭折耳喵(g18818233178) 原創(chuàng)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

 

【轉(zhuǎn)載說明】   若上述素材出現(xiàn)侵權(quán),請及時聯(lián)系我們刪除及進行處理:[email protected]

評論

相關(guān)文章推薦

SELECT dw_posts.ID,dw_posts.post_title,dw_posts.post_content FROM dw_posts INNER JOIN dw_term_relationships ON (dw_posts.ID = dw_term_relationships.object_id) WHERE 1=1 AND(dw_term_relationships.term_taxonomy_id = 3413 ) AND dw_posts.post_type = 'post' AND (dw_posts.post_status = 'publish') GROUP BY dw_posts.ID ORDER BY RAND() LIMIT 0, 6

京ICP備15063977號-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號