本演講是2015年10月29日,在CMRA大會上的主題演講。主要探討數(shù)據(jù)科學(xué)的整合與細(xì)分,特別分析了數(shù)據(jù)科學(xué)的七個(gè)危險(xiǎn)趨勢。自從大數(shù)據(jù)這個(gè)詞出來以后,數(shù)據(jù)已經(jīng)成為一個(gè)非常明確的科學(xué)領(lǐng)域。在這當(dāng)中很少有人詳細(xì)地探討數(shù)據(jù)科學(xué)的結(jié)構(gòu)和它面臨的問題。本演講探討了數(shù)據(jù)科學(xué)有三個(gè)非常重要的層次:數(shù)據(jù)的獲取、數(shù)據(jù)的描述和數(shù)據(jù)的分析。
下面是詳細(xì)的PPT及文字:
自從大數(shù)據(jù)這個(gè)詞出來以后,數(shù)據(jù)已經(jīng)成為一個(gè)非常明確的科學(xué)領(lǐng)域。在這當(dāng)中很少有人詳細(xì)地探討數(shù)據(jù)科學(xué)的結(jié)構(gòu)和它面臨的問題,包括我們行業(yè)面臨的問題。
數(shù)據(jù)科學(xué)有三個(gè)非常重要的層次:數(shù)據(jù)的獲取、數(shù)據(jù)的描述和數(shù)據(jù)的分析,這三件事是不同的,不要把它混淆了。
1.數(shù)據(jù)的獲取
以前數(shù)據(jù)的稀缺導(dǎo)致行業(yè)內(nèi)出現(xiàn)非常大的非良性循環(huán)。
在這個(gè)過程當(dāng)中,又正好趕上了一個(gè)新的時(shí)代——機(jī)器化數(shù)據(jù)橫空出世,突然之間,甚至一夜之間數(shù)據(jù)不再稀缺了。單靠獲得數(shù)據(jù),你能拿到高額利潤的可能性微乎其微,這樣就必然導(dǎo)致執(zhí)行公司如果要繼續(xù)作弊必死無疑,未來五年內(nèi)我們可以清楚的看到,研究公司不好好做研究,也照樣是必死無疑,無論你是國際的,還是國內(nèi)的,因?yàn)闀r(shí)代變了。所以數(shù)據(jù)獲取這一塊,要有非常清醒的認(rèn)識。
在這個(gè)時(shí)候大數(shù)據(jù),正常的講叫機(jī)器化數(shù)據(jù)已經(jīng)被神話,而市場研究公司被積壓在這里,市場研究數(shù)據(jù)的結(jié)構(gòu)化,它必須滿足兩個(gè)條件,一是真的,二是價(jià)格是低的,這兩件事造成的后果是什么,我相信業(yè)內(nèi)的所有公司都會有體會。
2.數(shù)據(jù)的描述
再看數(shù)據(jù)的描述,由于整個(gè)社會大環(huán)境巨大的變化,在描述環(huán)節(jié)上出現(xiàn)了非常大的問題,這個(gè)問題中你會發(fā)現(xiàn)形成了新的、不同的非良性循環(huán)。為什么?數(shù)據(jù)不稀缺了。而在這個(gè)時(shí)候,機(jī)器化數(shù)據(jù)出來的東西做點(diǎn)頻率表,做點(diǎn)交互表很簡單。如果數(shù)據(jù)描述能夠替代數(shù)據(jù)分析,這個(gè)世界一定會毀掉,因?yàn)閿?shù)據(jù)想騙人太容易了。
接下來的過程當(dāng)中,機(jī)器化數(shù)據(jù)由于資料收集簡單,整理數(shù)據(jù)的過程非常容易。所以直接面向銷售,這個(gè)面向銷售就出現(xiàn)了充滿荊棘的歷程。
再看研究公司的結(jié)構(gòu)化數(shù)據(jù),大型公司由于沒有應(yīng)對,我在行業(yè)這么多年,一直在這些時(shí)期,有機(jī)會就在呼吁洞察這個(gè)詞。實(shí)際上我們的研究員正在日益變成填數(shù)工具,而不是洞察。數(shù)據(jù)不再稀缺,你在機(jī)器化數(shù)據(jù)面前,你填數(shù)的過程當(dāng)中,數(shù)據(jù)的真假還在存疑,這時(shí)候你不敗誰敗,必然敗。而且別忘了機(jī)器化數(shù)據(jù)的成本趨近于零,所以大中型研究公司的解體、兼并、重組在不遠(yuǎn)的將來一定會頻現(xiàn),這是沒有辦法的趨勢。
現(xiàn)在數(shù)據(jù)科學(xué)有七大危險(xiǎn)趨勢:
3.數(shù)據(jù)的分析
以上七個(gè)危險(xiǎn)趨勢將直接導(dǎo)致數(shù)據(jù)分析中的危險(xiǎn),什么是數(shù)據(jù)分析?我先從最簡單的案例說起。
案例一:簡單表格的危險(xiǎn)
這個(gè)數(shù)據(jù)的結(jié)果,意味著什么?老年人比年輕人更喜歡這個(gè)東西。實(shí)際的結(jié)果呢?老年人和年輕人沒有任何差異。高低文化之間有差別嗎?所有的結(jié)果都顯示高文化程度的比低文化程度的人更喜歡,總體上它就是相同的。
再看一個(gè)更加實(shí)際的案例。我們知道房價(jià)是怎么算的,房價(jià)是加權(quán)算術(shù)平均數(shù)?,F(xiàn)在看一看房價(jià),房子的均價(jià)跟房子的成交價(jià)格沒有關(guān)系,跟銷售結(jié)構(gòu)有關(guān)系。所以在這個(gè)時(shí)候,房價(jià)的均價(jià)大約是這樣的,我告訴大家房價(jià)在下一個(gè)季度全面上漲10%,但是銷售結(jié)構(gòu)略微有一點(diǎn)變化。房價(jià)下跌2.63%,大看清楚定價(jià)了嗎?任何一個(gè)地方都上漲了10%,接下來銷售結(jié)構(gòu)一定會再變,房價(jià)又漲了10%,房價(jià)又下跌了,但是統(tǒng)計(jì)數(shù)字會告訴你下跌4%。
案例二:無關(guān)轉(zhuǎn)相關(guān)系
這是我1998年獲寶潔論文獎的時(shí)候得到的模型,表面上一大堆無差別、無差異的情況,導(dǎo)致了什么情況呢?看起來沒有差異,一個(gè)是男的比女的喜歡,一個(gè)是女的比男的喜歡,整體上沒有差異。但是差別大嗎?規(guī)律性強(qiáng)嗎?
案例三:建模預(yù)測
我們在2011年用的詞叫蘋果熟透了,蘋果在一個(gè)領(lǐng)域發(fā)展。2012年我在互聯(lián)網(wǎng)大會上,在我們這個(gè)會場上我都說過華為將崛起。2013年我說過三星必然下滑,去年2014年也是一樣的,這兩個(gè)大會我都說過小米將面臨問題,我不是神,但是模型能。2015年什么情況?我不想對任何一個(gè)品牌現(xiàn)在來說,大家關(guān)注我們要發(fā)布的手機(jī)人報(bào)告,那個(gè)時(shí)候我再開會,會詳細(xì)地把這個(gè)結(jié)果告訴大家。
我讓大家看一個(gè)結(jié)果,模型的基點(diǎn)預(yù)測點(diǎn)是這張圖:
這個(gè)模型你能不能做出來?我一直在說,中國調(diào)查業(yè)從來不缺數(shù)據(jù),從來不缺所謂的描述,只缺分析。如果被這些互聯(lián)網(wǎng)公司,被碼農(nóng)牽著走,那不是笑話嗎?他們能代表中國的分析能力嗎?中國的分析能力不是他們,而一定是我們。
4.小結(jié)
End.
轉(zhuǎn)載請注明來自36大數(shù)據(jù)(36dsj.com):36大數(shù)據(jù) » 劉德寰:數(shù)據(jù)科學(xué)的整合與細(xì)分 數(shù)據(jù)科學(xué)的七個(gè)危險(xiǎn)趨勢(視頻)
愛盈利-運(yùn)營小咖秀 始終堅(jiān)持研究分享移動互聯(lián)網(wǎng)App數(shù)據(jù)運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識內(nèi)容;是廣大App運(yùn)營從業(yè)者的知識啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺;