无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機(jī)號(hào)

賬號(hào)登錄手機(jī)登錄

立即注冊(cè) 忘記密碼

注冊(cè)

我同意用戶協(xié)議

已有賬號(hào)，立即登錄

忘記密碼

記得密碼，直接登錄

用戶協(xié)議

綁定手機(jī)號(hào)

推廣與合作

X

你的位置：首頁(yè) > 數(shù)據(jù)運(yùn)營(yíng)2 > 本文

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

關(guān)注

來(lái)源： 5923 2017-02-23

愛(ài)盈利（aiyingli.com）移動(dòng)互聯(lián)網(wǎng)最具影響力的盈利指導(dǎo)網(wǎng)站。定位于服務(wù)移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)者，移動(dòng)盈利指導(dǎo)。我們的目標(biāo)是讓盈利目標(biāo)清晰可見！降低門檻，讓缺乏經(jīng)驗(yàn)、資金有限的個(gè)人和團(tuán)隊(duì)獲得經(jīng)驗(yàn)和機(jī)會(huì)，提高熱情，激發(fā)產(chǎn)品。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

文|?林肯公園（拒絕任何不標(biāo)明來(lái)源的轉(zhuǎn)載，轉(zhuǎn)發(fā)請(qǐng)標(biāo)明本文來(lái)源36大數(shù)據(jù)）

接上篇《想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（上）》。

在第一篇文章中，我們?yōu)榇蠹医榻B了大數(shù)據(jù)基礎(chǔ)平臺(tái)架構(gòu)和部分大數(shù)據(jù)工程師所需的技能，其中包括大數(shù)據(jù)通用處理平臺(tái)、分布式存儲(chǔ)、資源調(diào)度、機(jī)器學(xué)習(xí)工具、數(shù)據(jù)分析/數(shù)據(jù)倉(cāng)庫(kù)(SQL類)、消息隊(duì)列、流式計(jì)算、日志收集、編程語(yǔ)言和數(shù)據(jù)分析挖掘等方面需要掌握的技術(shù)。

第一部分介紹完成后，有小伙伴表示要學(xué)這么多知識(shí)才能成為大數(shù)據(jù)工程師，這也太難了。對(duì)此，筆者表示，孩子，你還是太單純了，那只是第一部分。其實(shí)想想我們從小學(xué)到大學(xué)需要學(xué)的課程，這根本就是九牛一毛嘛，萬(wàn)里長(zhǎng)征不是一天走完的，長(zhǎng)城也不是一天能夠建好的。要成為大數(shù)據(jù)工程師，那么就需要循序漸進(jìn)的掌握整個(gè)大數(shù)據(jù)系統(tǒng)里所包含的知識(shí)，你可以一個(gè)系列一個(gè)系列的學(xué)。比如說(shuō)，你先學(xué)了數(shù)據(jù)分析挖掘所需掌握的技能MATLAB、SPSS和SAS后，找到數(shù)據(jù)分析師的工作，然后繼續(xù)學(xué)其他的技能，最后成為大數(shù)據(jù)工程師。

我們想要告訴大家的是成為大數(shù)據(jù)工程師需要掌握的知識(shí)體系，而作為初學(xué)者，你可以先從簡(jiǎn)單的入手，慢慢在學(xué)更深的知識(shí)，拿出高考的恒心和堅(jiān)持來(lái)，肯定能行。

值得一提的是，目前大數(shù)據(jù)工程師的月薪都是20K起，月收入兩萬(wàn)的薪資是不是很誘人？而且大數(shù)據(jù)工程師是非常容易找到工作的，所以……Why not?

不扯犢子了，繼續(xù)說(shuō)要成為大數(shù)據(jù)工程師需要掌握的技能第二部分知識(shí)點(diǎn)，這一部分內(nèi)容主要包括數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)和算法三個(gè)分支。讓我們開始吧。

數(shù)據(jù)可視化

1、R

R不僅是編程語(yǔ)言，同時(shí)也R具有強(qiáng)大的統(tǒng)計(jì)計(jì)算功能和便捷的數(shù)據(jù)可視化系統(tǒng)。在此，推薦大家看一本書，這本書叫做《R數(shù)據(jù)可視化手冊(cè)》。

《R數(shù)據(jù)可視化手冊(cè)》重點(diǎn)講解R的繪圖系統(tǒng)，指導(dǎo)讀者通過(guò)繪圖系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)可視化。書中提供了快速繪制高質(zhì)量圖形的150多種技巧，每個(gè)技巧用來(lái)解決一個(gè)特定的繪圖需求。讀者可以通過(guò)目錄快速定位到自己遇到的問(wèn)題，查閱相應(yīng)的解決方案。同時(shí)，作者在大部分的技巧之后會(huì)進(jìn)行一些討論和延伸，介紹一些總結(jié)出的繪圖技巧。《R數(shù)據(jù)可視化手冊(cè)》側(cè)重于解決具體問(wèn)題，是R數(shù)據(jù)可視化的實(shí)戰(zhàn)秘籍?！禦數(shù)據(jù)可視化手冊(cè)》中絕大多數(shù)的繪圖案例都是以強(qiáng)大、靈活制圖而著稱的R包ggplot2實(shí)現(xiàn)的，充分展現(xiàn)了ggplot2生動(dòng)、翔實(shí)的一面。從如何畫點(diǎn)圖、線圖、柱狀圖，到如何添加注解、修改坐標(biāo)軸和圖例，再到分面的使用和顏色的選取等，本書都有清晰的講解。

此書在網(wǎng)上就可以購(gòu)買得到，當(dāng)然也有電子版。在此，我們放出一張用R做出來(lái)的可視化作品。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

當(dāng)然，36大數(shù)據(jù)也刊登了非常多關(guān)于R可視化的文章，參考：可視化篇：R可視化–map圖?或者36大數(shù)據(jù)數(shù)據(jù)可視化專區(qū)

D3.js

D3 （Data-Driven Documents）是基于數(shù)據(jù)的文檔操作javascript庫(kù)，D3能夠把數(shù)據(jù)和HTML、SVG、CSS結(jié)合起來(lái)，創(chuàng)造出可交互的數(shù)據(jù)圖表。

可參考：D3.js教學(xué)記(上)? ?D3.js教學(xué)記(下)? ? ?挖出小馬哥？利用d3.js對(duì)QQ群大數(shù)據(jù)資料進(jìn)行可視化分析

下面是一張用使用 D3.js 制作漂亮的網(wǎng)頁(yè)地圖

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

ECharts

ECharts是一款數(shù)據(jù)可視化的純JavaScript圖標(biāo)庫(kù)，其擁有混搭圖表、拖拽重計(jì)算、制作數(shù)據(jù)視圖、動(dòng)態(tài)類型切換、圖例開關(guān)、數(shù)據(jù)區(qū)域選擇、值域漫游、多維度堆積等非常豐富的功能。

ECharts (Enterprise Charts 商業(yè)產(chǎn)品圖表庫(kù))是基于HTML5 Canvas的一個(gè)純Javascript圖表庫(kù)，提供直觀，生動(dòng)，可交互，可個(gè)性化定制的數(shù)據(jù)可視化圖表。創(chuàng)新的拖拽重計(jì)算、數(shù)據(jù)視圖、值域漫游等特性大大增強(qiáng)了用戶體驗(yàn)，賦予了用戶對(duì)數(shù)據(jù)進(jìn)行挖掘、整合的能力。

ECharts提供商業(yè)產(chǎn)品常用圖表庫(kù)，底層基于ZRender，創(chuàng)建了坐標(biāo)系，圖例，提示，工具箱等基礎(chǔ)組件，并在此上構(gòu)建出折線圖（區(qū)域圖）、柱狀圖（條狀圖）、散點(diǎn)圖（氣泡圖）、K線圖、餅圖（環(huán)形圖）、地圖、力導(dǎo)向布局圖，同時(shí)支持任意維度的堆積和多圖表混合展現(xiàn)。

關(guān)于ECharts的更多內(nèi)容，請(qǐng)見ECharts官網(wǎng)和ECharts 在36大數(shù)據(jù)的專區(qū)。下面放出一張ECharts可視化的圖例。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

Excel

Excel中大量的公式函數(shù)可以應(yīng)用選擇，使用Microsoft Excel可以執(zhí)行計(jì)算，分析信息并管理電子表格或網(wǎng)頁(yè)中的數(shù)據(jù)信息列表與數(shù)據(jù)資料圖表制作，可以實(shí)現(xiàn)許多方便的功能，帶給使用者方便。與其配套組合的有：Word、PowerPoint、Access、InfoPath及Outlook,Publisher

事實(shí)上，Excel完全可以滿足大家日常工作中圖表制作和數(shù)據(jù)可視化的需求，所以，想要進(jìn)入大數(shù)據(jù)行業(yè)，學(xué)好Excel是基礎(chǔ)。下面是一張用Excel做出來(lái)的可視化圖表。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

Python

Python 的科學(xué)棧相當(dāng)成熟，各種應(yīng)用場(chǎng)景都有相關(guān)的模塊，包括機(jī)器學(xué)習(xí)和數(shù)據(jù)分析。數(shù)據(jù)可視化是發(fā)現(xiàn)數(shù)據(jù)和展示結(jié)果的重要一環(huán)，只不過(guò)過(guò)去以來(lái)，相對(duì)于 R 這樣的工具，發(fā)展還是落后一些。

幸運(yùn)的是，過(guò)去幾年出現(xiàn)了很多新的Python數(shù)據(jù)可視化庫(kù)，彌補(bǔ)了一些這方面的差距。matplotlib 已經(jīng)成為事實(shí)上的數(shù)據(jù)可視化方面最主要的庫(kù)，此外還有很多其他庫(kù)，例如vispy，bokeh， seaborn， pyga， folium 和 networkx，這些庫(kù)有些是構(gòu)建在 matplotlib 之上，還有些有其他一些功能。

用Python做的數(shù)據(jù)可視化圖片：

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)基礎(chǔ)

聚類

將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合，這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似，與其他簇中的對(duì)象相異?！拔镆灶惥?，人以群分”，在自然科學(xué)和社會(huì)科學(xué)中，存在著大量的分類問(wèn)題。聚類分析又稱群分析，它是研究（樣品或指標(biāo)）分類問(wèn)題的一種統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué)，但是聚類不等于分類。聚類與分類的不同在于，聚類所要求劃分的類是未知的。聚類分析內(nèi)容非常豐富，有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。

在數(shù)據(jù)挖掘中，聚類也是很重要的一個(gè)概念。

傳統(tǒng)的聚類分析計(jì)算方法主要有如下幾種：

1、劃分方法(partitioning methods)

2、層次方法(hierarchical methods)

3、基于密度的方法(density-based methods)

4、基于網(wǎng)格的方法(grid-based methods)

5、基于模型的方法(model-based methods)

當(dāng)然聚類方法還有：傳遞閉包法，布爾矩陣法，直接聚類法，相關(guān)性分析聚類，基于統(tǒng)計(jì)的聚類方法等。

參考：R語(yǔ)言的三種聚類方法? ?聚類分析總結(jié) & 實(shí)戰(zhàn)解析? ??基于交易數(shù)據(jù)的信用卡中心商圈聚類研究

時(shí)間序列

時(shí)間序列（或稱動(dòng)態(tài)數(shù)列）是指將同一統(tǒng)計(jì)指標(biāo)的數(shù)值按其發(fā)生的時(shí)間先后順序排列而成的數(shù)列。時(shí)間序列分析的主要目的是根據(jù)已有的歷史數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè)。構(gòu)成要素：長(zhǎng)期趨勢(shì)，季節(jié)變動(dòng)，循環(huán)變動(dòng)，不規(guī)則變動(dòng)。

種類：

絕對(duì)數(shù)時(shí)間序列

時(shí)期序列：由時(shí)期總量指標(biāo)排列而成的時(shí)間序列。

相對(duì)數(shù)時(shí)間序列

把一系列同種相對(duì)數(shù)指標(biāo)按時(shí)間先后順序排列而成的時(shí)間序列叫做相對(duì)數(shù)時(shí)間序列。

平均數(shù)時(shí)間序列

平均數(shù)時(shí)間序列是指由一系列同類平均指標(biāo)按時(shí)間先后順序排列的時(shí)間序列。

保證序列中各期指標(biāo)數(shù)值的可比性

(一)時(shí)期長(zhǎng)短最好一致
(二)總體范圍應(yīng)該一致
(三)指標(biāo)的經(jīng)濟(jì)內(nèi)容應(yīng)該統(tǒng)一
(四)計(jì)算方法應(yīng)該統(tǒng)一
(五)計(jì)算價(jià)格和計(jì)量單位可比

參考文章：時(shí)間序列預(yù)測(cè)全攻略（附帶Python代碼）

推薦系統(tǒng)

定義：它是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議，幫助用戶決定應(yīng)該購(gòu)買什么產(chǎn)品，模擬銷售人員幫助客戶完成購(gòu)買過(guò)程”。

推薦系統(tǒng)有3個(gè)重要的模塊：用戶建模模塊、推薦對(duì)象建模模塊、推薦算法模塊。通用的推薦系統(tǒng)模型流程如圖。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對(duì)象模型中的特征信息匹配，同時(shí)使用相應(yīng)的推薦算法進(jìn)行計(jì)算篩選，找到用戶可能感興趣的推薦對(duì)象，然后推薦給用戶。

參考文章：推薦系統(tǒng)常用的推薦算法? ?用一張動(dòng)圖詮釋效果，深入淺出推薦系統(tǒng)原理? ?個(gè)性化推薦系統(tǒng)實(shí)踐

回歸分析

回歸分析（regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛，回歸分析按照涉及的變量的多少，分為一元回歸和多元回歸分析；在線性回歸中，按照因變量的多少，可分為簡(jiǎn)單回歸分析和多重回歸分析；按照自變量和因變量之間的關(guān)系類型，可分為線性回歸分析和非線性回歸分析。如果在回歸分析中，只包括一個(gè)自變量和一個(gè)因變量，且二者的關(guān)系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量，且自變量之間存在線性相關(guān)，則稱為多元線性回歸分析。

參考文章：統(tǒng)計(jì)挖掘那些事那些情-回歸分析

文本挖掘

文本挖掘有時(shí)也被稱為文字探勘、文本數(shù)據(jù)挖掘等，大致相當(dāng)于文字分析，一般指文本處理過(guò)程中產(chǎn)生高質(zhì)量的信息。高質(zhì)量的信息通常通過(guò)分類和預(yù)測(cè)來(lái)產(chǎn)生，如模式識(shí)別。文本挖掘通常涉及輸入文本的處理過(guò)程（通常進(jìn)行分析，同時(shí)加上一些衍生語(yǔ)言特征以及消除雜音，隨后插入到數(shù)據(jù)庫(kù)中），產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)，并最終評(píng)價(jià)和解釋輸出。’高品質(zhì)’的文本挖掘通常是指某種組合的相關(guān)性，新穎性和趣味性。典型的文本挖掘方法包括文本分類，文本聚類，概念/實(shí)體挖掘，生產(chǎn)精確分類，觀點(diǎn)分析，文檔摘要和實(shí)體關(guān)系模型（即，學(xué)習(xí)已命名實(shí)體之間的關(guān)系）。

參考文章：有關(guān)文本挖掘的14個(gè)概念? ??用文本挖掘和機(jī)器學(xué)習(xí)洞悉數(shù)據(jù)

決策樹

決策樹(Decision Tree）是在已知各種情況發(fā)生概率的基礎(chǔ)上，通過(guò)構(gòu)成決策樹來(lái)求取凈現(xiàn)值的期望值大于等于零的概率，評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn)，判斷其可行性的決策分析方法，是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干，故稱決策樹。在機(jī)器學(xué)習(xí)中，決策樹是一個(gè)預(yù)測(cè)模型，他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度，使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。

決策樹是一種樹形結(jié)構(gòu)，其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試，每個(gè)分支代表一個(gè)測(cè)試輸出，每個(gè)葉節(jié)點(diǎn)代表一種類別。

參考文章：定位目標(biāo)找用戶，分類篩選決策樹? ? ?機(jī)器學(xué)習(xí)算法之決策樹? ? ?決策樹分類和預(yù)測(cè)算法的原理及實(shí)現(xiàn)? ? ?基于 R 語(yǔ)言和 SPSS 的決策樹算法介紹及應(yīng)用

分類樹（決策樹）是一種十分常用的分類方法。他是一種監(jiān)管學(xué)習(xí)，所謂監(jiān)管學(xué)習(xí)就是給定一堆樣本，每個(gè)樣本都有一組屬性和一個(gè)類別，這些類別是事先確定的，那么通過(guò)學(xué)習(xí)得到一個(gè)分類器，這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。

支持向量機(jī)

支持向量機(jī)(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等于1995年首先提出的，它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)，并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。

參考文章：【R】支持向量機(jī)模型實(shí)現(xiàn)? ??支持向量機(jī)實(shí)例講解? ??淺談支持向量機(jī)? ? ?支持向量機(jī)通俗導(dǎo)論（理解SVM的三層境界）

在機(jī)器學(xué)習(xí)中，支持向量機(jī)（SVM，還支持矢量網(wǎng)絡(luò)）是與相關(guān)的學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型，可以分析數(shù)據(jù)，識(shí)別模式，用于分類和回歸分析。

貝葉斯分類

貝葉斯分類是一類分類算法的總稱，這類算法均以貝葉斯定理為基礎(chǔ)，故統(tǒng)稱為貝葉斯分類。貝葉斯分類是統(tǒng)計(jì)學(xué)的分類方法，其分析方法的特點(diǎn)是使用概率來(lái)表示所有形式的不確定性，學(xué)習(xí)或推理都要用概率規(guī)則來(lái)實(shí)現(xiàn)。參考文章：分類算法之樸素貝葉斯(NaiveBayes)

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)可以指向兩種，一個(gè)是生物神經(jīng)網(wǎng)絡(luò)，一個(gè)是人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，簡(jiǎn)寫為ANNs）也簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)（NNs）或稱作連接模型（Connection Model），它是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征，進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度，通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系，從而達(dá)到處理信息的目的。

參考文章：聚焦和增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)? ? ?卷積神經(jīng)網(wǎng)絡(luò)工作原理直觀的解釋？? ?深入研究神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)

人工神經(jīng)網(wǎng)絡(luò)：是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在工程與學(xué)術(shù)界也常直接簡(jiǎn)稱為“神經(jīng)網(wǎng)絡(luò)”或類神經(jīng)網(wǎng)絡(luò)。

機(jī)器學(xué)習(xí)工具

Mahout?

Mahout 是 Apache Software Foundation（ASF）旗下的一個(gè)開源項(xiàng)目，提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn)，包括聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘。此外，通過(guò)使用 Apache Hadoop 庫(kù)，Mahout 可以有效地?cái)U(kuò)展到云中。

Spark Mlib

MLlib是一個(gè)機(jī)器學(xué)習(xí)庫(kù)，它提供了各種各樣的算法，這些算法用來(lái)在集群上針對(duì)分類、回歸、聚類、協(xié)同過(guò)濾等（可以在 Machine learning 上查看Toptal的文章，來(lái)獲取更過(guò)的信息）。其中一些算法也可以應(yīng)用到流數(shù)據(jù)上，例如使用普通最小二乘法或者K均值聚類（還有更多）來(lái)計(jì)算線性回歸。Apache Mahout（一個(gè)針對(duì)Hadoop的機(jī)器學(xué)習(xí)庫(kù)）已經(jīng)脫離MapReduce，轉(zhuǎn)而加入Spark MLlib。

TensorFlow (Google 系)

TensorFlow是谷歌基于DistBelief進(jìn)行研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng)，其命名來(lái)源于本身的運(yùn)行原理。Tensor（張量）意味著N維數(shù)組，F(xiàn)low（流）意味著基于數(shù)據(jù)流圖的計(jì)算，TensorFlow為張量從圖象的一端流動(dòng)到另一端計(jì)算過(guò)程。TensorFlow是將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)傳輸至人工智能神經(jīng)網(wǎng)中進(jìn)行分析和處理過(guò)程的系統(tǒng)。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

參考文章：TensorFlow深度學(xué)習(xí)筆記文本與序列的深度模型? ?分布式TensorFlow集群local server使用詳解

TensorFlow可被用于語(yǔ)音識(shí)別或圖像識(shí)別等多項(xiàng)機(jī)器深度學(xué)習(xí)領(lǐng)域，對(duì)2011年開發(fā)的深度學(xué)習(xí)基礎(chǔ)架構(gòu)DistBelief進(jìn)行了各方面的改進(jìn)，它可在小到一部智能手機(jī)、大到數(shù)千臺(tái)數(shù)據(jù)中心服務(wù)器的各種設(shè)備上運(yùn)行。TensorFlow將完全開源，任何人都可以用。

Amazon Machine Learning

Amazon Machine Learning 是一項(xiàng)面向各個(gè)水平階層開發(fā)人員的服務(wù)，可以幫助他們利用機(jī)器學(xué)習(xí)技術(shù)。Amazon Machine Learning 提供可視化的工具和向?qū)?，指?dǎo)您按部就班地創(chuàng)建機(jī)器學(xué)習(xí)模型，而無(wú)需學(xué)習(xí)復(fù)雜的機(jī)器學(xué)習(xí)算法和技術(shù)。當(dāng)您的模型準(zhǔn)備好以后，Amazon Machine Learning 只要使用簡(jiǎn)單的 API 即可讓您的應(yīng)用程序輕松獲得預(yù)測(cè)能力，而無(wú)需實(shí)現(xiàn)自定義預(yù)測(cè)生成碼或管理任何基礎(chǔ)設(shè)施。

Amazon Machine Learning 采用與 Amazon 內(nèi)部數(shù)據(jù)科學(xué)家社區(qū)多年來(lái)一直使用的機(jī)器學(xué)習(xí)技術(shù)相同的技術(shù)，具有穩(wěn)定可靠、容易擴(kuò)展的特點(diǎn)。此服務(wù)使用強(qiáng)大的算法通過(guò)發(fā)現(xiàn)已有數(shù)據(jù)中的規(guī)律來(lái)創(chuàng)建機(jī)器學(xué)習(xí)模型。然后，Amazon Machine Learning 會(huì)使用這些模型來(lái)處理新數(shù)據(jù)并為應(yīng)用程序生成預(yù)測(cè)結(jié)果。

參考文章：如何使用Amazon Machine Learning構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型

Amazon Machine Learning 具有極強(qiáng)的可擴(kuò)展性，每天可以生成數(shù)十億條預(yù)測(cè)結(jié)果，并以高吞吐量實(shí)時(shí)地將其送出。使用 Amazon Machine Learning 不需要對(duì)硬件或軟件事先投入資金，只需要根據(jù)使用量付費(fèi)，所以不妨先從小規(guī)模做起，然后根據(jù)應(yīng)用程序的發(fā)展情況再酌情進(jìn)行擴(kuò)展。

DMTK (微軟分布式機(jī)器學(xué)習(xí)工具)

DMTK 是微軟分布式機(jī)器學(xué)習(xí)工具包。

DMTK 包括以下幾個(gè)項(xiàng)目：

DMTK framework(Multiverso): 參數(shù)服務(wù)器架構(gòu)的機(jī)器學(xué)習(xí)

LightLDA: 用于大規(guī)模主題模型的可擴(kuò)展、快速、輕量級(jí)系統(tǒng).

Distributed word embedding:文字嵌入分布式算法.

Distributed skipgram mixture: 多義文字嵌入分布式算法

算法

一致性

數(shù)據(jù)一致性通常指關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整。而數(shù)據(jù)存儲(chǔ)的一致性模型則可以認(rèn)為是存儲(chǔ)系統(tǒng)和數(shù)據(jù)使用者之間的一種約定。如果使用者遵循這種約定，則可以得到系統(tǒng)所承諾的訪問(wèn)結(jié)果常用的一致性模型有：

a、嚴(yán)格一致性（linearizability, strict/atomic Consistency）：讀出的數(shù)據(jù)始終為最近寫入的數(shù)據(jù)。這種一致性只有全局時(shí)鐘存在時(shí)才有可能，在分布式網(wǎng)絡(luò)環(huán)境不可能實(shí)現(xiàn)。

b、順序一致性（sequential consistency）：所有使用者以同樣的順序看到對(duì)同一數(shù)據(jù)的操作，但是該順序不一定是實(shí)時(shí)的。

c、因果一致性（causal consistency）：只有存在因果關(guān)系的寫操作才要求所有使用者以相同的次序看到，對(duì)于無(wú)因果關(guān)系的寫入則并行進(jìn)行，無(wú)次序保證。因果一致性可以看做對(duì)順序一致性性能的一種優(yōu)化，但在實(shí)現(xiàn)時(shí)必須建立與維護(hù)因果依賴圖，是相當(dāng)困難的。

d、管道一致性（PRAM/FIFO consistency）：在因果一致性模型上的進(jìn)一步弱化，要求由某一個(gè)使用者完成的寫操作可以被其他所有的使用者按照順序的感知到，而從不同使用者中來(lái)的寫操作則無(wú)需保證順序，就像一個(gè)一個(gè)的管道一樣。相對(duì)來(lái)說(shuō)比較容易實(shí)現(xiàn)。

e、弱一致性（weak consistency）：只要求對(duì)共享數(shù)據(jù)結(jié)構(gòu)的訪問(wèn)保證順序一致性。對(duì)于同步變量的操作具有順序一致性，是全局可見的，且只有當(dāng)沒(méi)有寫操作等待處理時(shí)才可進(jìn)行，以保證對(duì)于臨界區(qū)域的訪問(wèn)順序進(jìn)行。在同步時(shí)點(diǎn)，所有使用者可以看到相同的數(shù)據(jù)。

f、釋放一致性（release consistency）：弱一致性無(wú)法區(qū)分使用者是要進(jìn)入臨界區(qū)還是要出臨界區(qū)，釋放一致性使用兩個(gè)不同的操作語(yǔ)句進(jìn)行了區(qū)分。需要寫入時(shí)使用者acquire該對(duì)象，寫完后release，acquire-release之間形成了一個(gè)臨界區(qū)，提供釋放一致性也就意味著當(dāng)release操作發(fā)生后，所有使用者應(yīng)該可以看到該操作。

g、最終一致性（eventual consistency）：當(dāng)沒(méi)有新更新的情況下，更新最終會(huì)通過(guò)網(wǎng)絡(luò)傳播到所有副本點(diǎn)，所有副本點(diǎn)最終會(huì)一致，也就是說(shuō)使用者在最終某個(gè)時(shí)間點(diǎn)前的中間過(guò)程中無(wú)法保證看到的是新寫入的數(shù)據(jù)。可以采用最終一致性模型有一個(gè)關(guān)鍵要求：讀出陳舊數(shù)據(jù)是可以接受的。

h、delta consistency：系統(tǒng)會(huì)在delta時(shí)間內(nèi)達(dá)到一致。這段時(shí)間內(nèi)會(huì)存在一個(gè)不一致的窗口，該窗口可能是因?yàn)閘og shipping的過(guò)程導(dǎo)致。這是書上的原話。。我也搞不很清楚。。數(shù)據(jù)庫(kù)完整性（Database Integrity）是指數(shù)據(jù)庫(kù)中數(shù)據(jù)的正確性和相容性。數(shù)據(jù)庫(kù)完整性由各種各樣的完整性約束來(lái)保證，因此可以說(shuō)數(shù)據(jù)庫(kù)完整性設(shè)計(jì)就是數(shù)據(jù)庫(kù)完整性約束的設(shè)計(jì)。包括實(shí)體完整性。域完整性。參照完整性。用戶定義完整性?？梢灾麈I。check約束。外鍵來(lái)一一實(shí)現(xiàn)。這個(gè)使用較多

paxos

Paxos算法是萊斯利·蘭伯特（Leslie Lamport，就是 LaTeX 中的”La”，此人現(xiàn)在在微軟研究院）于1990年提出的一種基于消息傳遞的一致性算法。這個(gè)算法被認(rèn)為是類似算法中最有效的。

Paxos 算法解決的問(wèn)題是一個(gè)分布式系統(tǒng)如何就某個(gè)值（決議）達(dá)成一致。一個(gè)典型的場(chǎng)景是，在一個(gè)分布式數(shù)據(jù)庫(kù)系統(tǒng)中，如果各節(jié)點(diǎn)的初始狀態(tài)一致，每個(gè)節(jié)點(diǎn)執(zhí)行相同的操作序列，那么他們最后能得到一個(gè)一致的狀態(tài)。為保證每個(gè)節(jié)點(diǎn)執(zhí)行相同的命令序列，需要在每一條指令上執(zhí)行一個(gè)“一致性算法”以保證每個(gè)節(jié)點(diǎn)看到的指令一致。一個(gè)通用的一致性算法可以應(yīng)用在許多場(chǎng)景中，是分布式計(jì)算中的重要問(wèn)題。因此從20世紀(jì)80年代起對(duì)于一致性算法的研究就沒(méi)有停止過(guò)。節(jié)點(diǎn)通信存在兩種模型：共享內(nèi)存（Shared memory）和消息傳遞（Messages passing）。Paxos 算法就是一種基于消息傳遞模型的一致性算法。

raft

Raft是由Stanford提出的一種更易理解的一致性算法，意在取代目前廣為使用的Paxos算法。目前，在各種主流語(yǔ)言中都有了一些開源實(shí)現(xiàn)，比如本文中將使用的基于JGroups的Raft協(xié)議實(shí)現(xiàn)。

在Raft中，每個(gè)結(jié)點(diǎn)會(huì)處于下面三種狀態(tài)中的一種：

follower：所有結(jié)點(diǎn)都以follower的狀態(tài)開始。如果沒(méi)收到leader消息則會(huì)變成candidate狀態(tài)
candidate：會(huì)向其他結(jié)點(diǎn)“拉選票”，如果得到大部分的票則成為leader。這個(gè)過(guò)程就叫做Leader選舉(Leader Election)
leader：所有對(duì)系統(tǒng)的修改都會(huì)先經(jīng)過(guò)leader。每個(gè)修改都會(huì)寫一條日志(log entry)。leader收到修改請(qǐng)求后的過(guò)程如下，這個(gè)過(guò)程叫做日志復(fù)制(Log Replication)：
- 復(fù)制日志到所有follower結(jié)點(diǎn)(replicate entry)
- 大部分結(jié)點(diǎn)響應(yīng)時(shí)才提交日志
- 通知所有follower結(jié)點(diǎn)日志已提交
- 所有follower也提交日志
- 現(xiàn)在整個(gè)系統(tǒng)處于一致的狀態(tài)

gossip

Gossip算法如其名，靈感來(lái)自辦公室八卦，只要一個(gè)人八卦一下，在有限的時(shí)間內(nèi)所有的人都會(huì)知道該八卦的信息，這種方式也與病毒傳播類似，因此Gossip有眾多的別名“閑話算法”、“疫情傳播算法”、“病毒感染算法”、“謠言傳播算法”。

但Gossip并不是一個(gè)新東西，之前的泛洪查找、路由算法都?xì)w屬于這個(gè)范疇，不同的是Gossip給這類算法提供了明確的語(yǔ)義、具體實(shí)施方法及收斂性證明。

Gossip算法又被稱為反熵（Anti-Entropy），熵是物理學(xué)上的一個(gè)概念，代表雜亂無(wú)章，而反熵就是在雜亂無(wú)章中尋求一致，這充分說(shuō)明了Gossip的特點(diǎn)：在一個(gè)有界網(wǎng)絡(luò)中，每個(gè)節(jié)點(diǎn)都隨機(jī)地與其他節(jié)點(diǎn)通信，經(jīng)過(guò)一番雜亂無(wú)章的通信，最終所有節(jié)點(diǎn)的狀態(tài)都會(huì)達(dá)成一致。每個(gè)節(jié)點(diǎn)可能知道所有其他節(jié)點(diǎn)，也可能僅知道幾個(gè)鄰居節(jié)點(diǎn)，只要這些節(jié)可以通過(guò)網(wǎng)絡(luò)連通，最終他們的狀態(tài)都是一致的，當(dāng)然這也是疫情傳播的特點(diǎn)。

要注意到的一點(diǎn)是，即使有的節(jié)點(diǎn)因宕機(jī)而重啟，有新節(jié)點(diǎn)加入，但經(jīng)過(guò)一段時(shí)間后，這些節(jié)點(diǎn)的狀態(tài)也會(huì)與其他節(jié)點(diǎn)達(dá)成一致，也就是說(shuō)，Gossip天然具有分布式容錯(cuò)的優(yōu)點(diǎn)。

數(shù)據(jù)結(jié)構(gòu)

棧，隊(duì)列，鏈表

棧作為一種數(shù)據(jù)結(jié)構(gòu)，是一種只能在一端進(jìn)行插入和刪除操作的特殊線性表。它按照先進(jìn)后出的原則存儲(chǔ)數(shù)據(jù)，先進(jìn)入的數(shù)據(jù)被壓入棧底，最后的數(shù)據(jù)在棧頂，需要讀數(shù)據(jù)的時(shí)候從棧頂開始彈出數(shù)據(jù)（最后一個(gè)數(shù)據(jù)被第一個(gè)讀出來(lái)）。棧具有記憶作用，對(duì)棧的插入與刪除操作中，不需要改變棧底指針。

棧是允許在同一端進(jìn)行插入和刪除操作的特殊線性表。允許進(jìn)行插入和刪除操作的一端稱為棧頂(top)，另一端為棧底(bottom)；棧底固定，而棧頂浮動(dòng)；棧中元素個(gè)數(shù)為零時(shí)稱為空棧。插入一般稱為進(jìn)棧（PUSH），刪除則稱為退棧（POP）。棧也稱為后進(jìn)先出表。

隊(duì)列是一種特殊的線性表，特殊之處在于它只允許在表的前端（front）進(jìn)行刪除操作，而在表的后端（rear）進(jìn)行插入操作，和棧一樣，隊(duì)列是一種操作受限制的線性表。進(jìn)行插入操作的端稱為隊(duì)尾，進(jìn)行刪除操作的端稱為隊(duì)頭。

鏈表是一種物理存儲(chǔ)單元上非連續(xù)、非順序的存儲(chǔ)結(jié)構(gòu)，數(shù)據(jù)元素的邏輯順序是通過(guò)鏈表中的指針鏈接次序?qū)崿F(xiàn)的。鏈表由一系列結(jié)點(diǎn)（鏈表中每一個(gè)元素稱為結(jié)點(diǎn)）組成，結(jié)點(diǎn)可以在運(yùn)行時(shí)動(dòng)態(tài)生成。每個(gè)結(jié)點(diǎn)包括兩個(gè)部分：一個(gè)是存儲(chǔ)數(shù)據(jù)元素的數(shù)據(jù)域，另一個(gè)是存儲(chǔ)下一個(gè)結(jié)點(diǎn)地址的指針域。相比于線性表順序結(jié)構(gòu)，操作復(fù)雜。由于不必須按順序存儲(chǔ)，鏈表在插入的時(shí)候可以達(dá)到O(1)的復(fù)雜度，比另一種線性表順序表快得多，但是查找一個(gè)節(jié)點(diǎn)或者訪問(wèn)特定編號(hào)的節(jié)點(diǎn)則需要O(n)的時(shí)間，而線性表和順序表相應(yīng)的時(shí)間復(fù)雜度分別是O(logn)和O(1)。

散列表

散列表（Hash table，也叫哈希表），是根據(jù)關(guān)鍵碼值(Key value)而直接進(jìn)行訪問(wèn)的數(shù)據(jù)結(jié)構(gòu)。也就是說(shuō)，它通過(guò)把關(guān)鍵碼值映射到表中一個(gè)位置來(lái)訪問(wèn)記錄，以加快查找的速度。這個(gè)映射函數(shù)叫做散列函數(shù)，存放記錄的數(shù)組叫做散列表。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

給定表M，存在函數(shù)f(key)，對(duì)任意給定的關(guān)鍵字值key，代入函數(shù)后若能得到包含該關(guān)鍵字的記錄在表中的地址，則稱表M為哈希(Hash）表，函數(shù)f(key)為哈希(Hash) 函數(shù)。

二叉樹，紅黑樹，B樹

二叉樹

在計(jì)算機(jī)科學(xué)中，二叉樹是每個(gè)節(jié)點(diǎn)最多有兩個(gè)子樹的樹結(jié)構(gòu)。通常子樹被稱作“左子樹”（left subtree）和“右子樹”（right subtree）。二叉樹常被用于實(shí)現(xiàn)二叉查找樹和二叉堆。

二叉樹的每個(gè)結(jié)點(diǎn)至多只有二棵子樹(不存在度大于2的結(jié)點(diǎn))，二叉樹的子樹有左右之分，次序不能顛倒。二叉樹的第i層至多有2^{i-1}個(gè)結(jié)點(diǎn)；深度為k的二叉樹至多有2^k-1個(gè)結(jié)點(diǎn)；對(duì)任何一棵二叉樹T，如果其終端結(jié)點(diǎn)數(shù)為n_0，度為2的結(jié)點(diǎn)數(shù)為n_2，則n_0=n_2+1。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

一棵深度為k，且有2^k-1個(gè)節(jié)點(diǎn)稱之為滿二叉樹；深度為k，有n個(gè)節(jié)點(diǎn)的二叉樹，當(dāng)且僅當(dāng)其每一個(gè)節(jié)點(diǎn)都與深度為k的滿二叉樹中，序號(hào)為1至n的節(jié)點(diǎn)對(duì)應(yīng)時(shí)，稱之為完全二叉樹。

紅黑樹

紅黑樹（Red Black Tree）是一種自平衡二叉查找樹，是在計(jì)算機(jī)科學(xué)中用到的一種數(shù)據(jù)結(jié)構(gòu)，典型的用途是實(shí)現(xiàn)關(guān)聯(lián)數(shù)組。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

它是在1972年由Rudolf Bayer發(fā)明的，當(dāng)時(shí)被稱為平衡二叉B樹（symmetric binary B-trees）。后來(lái)，在1978年被 Leo J. Guibas 和 Robert Sedgewick 修改為如今的“紅黑樹”。紅黑樹和AVL樹類似，都是在進(jìn)行插入和刪除操作時(shí)通過(guò)特定操作保持二叉查找樹的平衡，從而獲得較高的查找性能。

它雖然是復(fù)雜的，但它的最壞情況運(yùn)行時(shí)間也是非常良好的，并且在實(shí)踐中是高效的：它可以在O(log n)時(shí)間內(nèi)做查找，插入和刪除，這里的n 是樹中元素的數(shù)目。

B樹

在B-樹中查找給定關(guān)鍵字的方法是，首先把根結(jié)點(diǎn)取來(lái)，在根結(jié)點(diǎn)所包含的關(guān)鍵字K1,…,Kn查找給定的關(guān)鍵字（可用順序查找或二分查找法），若找到等于給定值的關(guān)鍵字，則查找成功；否則，一定可以確定要查找的關(guān)鍵字在Ki與Ki+1之間，Pi為指向子樹根節(jié)點(diǎn)的指針，此時(shí)取指針Pi所指的結(jié)點(diǎn)繼續(xù)查找，直至找到，或指針Pi為空時(shí)查找失敗。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

圖

在數(shù)學(xué)中，一個(gè)圖（Graph）是表示物件與物件之間的關(guān)系的數(shù)學(xué)對(duì)象，是圖論的基本研究對(duì)象。

想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

常用算法

1.排序

將雜亂無(wú)章的數(shù)據(jù)元素，通過(guò)一定的方法按關(guān)鍵字順序排列的過(guò)程叫做排序。假定在待排序的記錄序列中，存在多個(gè)具有相同的關(guān)鍵字的記錄，若經(jīng)過(guò)排序，這些記錄的相對(duì)次序保持不變，即在原序列中，ri=rj，且ri在rj之前，而在排序后的序列中，ri仍在rj之前，則稱這種排序算法是穩(wěn)定的；否則稱為不穩(wěn)定的。

插入排序

有一個(gè)已經(jīng)有序的數(shù)據(jù)序列，要求在這個(gè)已經(jīng)排好的數(shù)據(jù)序列中插入一個(gè)數(shù)，但要求插入后此數(shù)據(jù)序列仍然有序，這個(gè)時(shí)候就要用到一種新的排序方法——插入排序法,插入排序的基本操作就是將一個(gè)數(shù)據(jù)插入到已經(jīng)排好序的有序數(shù)據(jù)中，從而得到一個(gè)新的、個(gè)數(shù)加一的有序數(shù)據(jù)，算法適用于少量數(shù)據(jù)的排序，時(shí)間復(fù)雜度為O(n^2)。是穩(wěn)定的排序方法。插入算法把要排序的數(shù)組分成兩部分：第一部分包含了這個(gè)數(shù)組的所有元素，但將最后一個(gè)元素除外（讓數(shù)組多一個(gè)空間才有插入的位置），而第二部分就只包含這一個(gè)元素（即待插入元素）。在第一部分排序完成后，再將這個(gè)最后元素插入到已排好序的第一部分中。

插入排序的基本思想是：每步將一個(gè)待排序的紀(jì)錄，按其關(guān)鍵碼值的大小插入前面已經(jīng)排序的文件中適當(dāng)位置上，直到全部插入完為止。

桶排序

桶排序 (Bucket sort)或所謂的箱排序，是一個(gè)排序算法，工作的原理是將數(shù)組分到有限數(shù)量的桶子里。每個(gè)桶子再個(gè)別排序（有可能再使用別的排序算法或是以遞歸方式繼續(xù)使用桶排序進(jìn)行排序）。桶排序是鴿巢排序的一種歸納結(jié)果。當(dāng)要被排序的數(shù)組內(nèi)的數(shù)值是均勻分配的時(shí)候，桶排序使用線性時(shí)間（Θ（n））。但桶排序并不是比較排序，他不受到 O(n log n) 下限的影響。

堆排序

堆排序(Heapsort)是指利用堆積樹（堆）這種數(shù)據(jù)結(jié)構(gòu)所設(shè)計(jì)的一種排序算法，它是選擇排序的一種?？梢岳脭?shù)組的特點(diǎn)快速定位指定索引的元素。堆分為大根堆和小根堆，是完全二叉樹。大根堆的要求是每個(gè)節(jié)點(diǎn)的值都不大于其父節(jié)點(diǎn)的值，即A[PARENT[i]] >= A[i]。在數(shù)組的非降序排序中，需要使用的就是大根堆，因?yàn)楦鶕?jù)大根堆的要求可知，最大的值一定在堆頂。

2.快速排序

快速排序（Quicksort）是對(duì)冒泡排序的一種改進(jìn)。

快速排序由C. A. R. Hoare在1962年提出。它的基本思想是：通過(guò)一趟排序?qū)⒁判虻臄?shù)據(jù)分割成獨(dú)立的兩部分，其中一部分的所有數(shù)據(jù)都比另外一部分的所有數(shù)據(jù)都要小，然后再按此方法對(duì)這兩部分?jǐn)?shù)據(jù)分別進(jìn)行快速排序，整個(gè)排序過(guò)程可以遞歸進(jìn)行，以此達(dá)到整個(gè)數(shù)據(jù)變成有序序列。

3,最大子數(shù)組

最大和子數(shù)組是數(shù)組中和最大的子數(shù)組，又名最大和子序列。子數(shù)組是數(shù)組中連續(xù)的n個(gè)元素，比如a₂,a₃,a₄就是一個(gè)長(zhǎng)度為3的子數(shù)組。顧名思義求最大和子數(shù)組就是要求取和最大的子數(shù)組。

n個(gè)元素的數(shù)組包含n個(gè)長(zhǎng)度為1的子數(shù)組：{a₀}，{a₁}，…{a_n-1}；

n個(gè)元素的數(shù)組包含n-1個(gè)長(zhǎng)度為2的子數(shù)組：{a₀,a₁}，{a₁,a₂}，{a_n-2,a_n-1}；

………………………………………………………………………………………………

n個(gè)元素的數(shù)組包含1個(gè)長(zhǎng)度為n的子數(shù)組：{a₀,a₁,…,a_n-1}；

所以，一個(gè)長(zhǎng)度為n的數(shù)組包含的子數(shù)組個(gè)數(shù)為n+(n-1)+…+1=n*(n-1)/2。

4.最長(zhǎng)公共子序列

一個(gè)數(shù)列，如果分別是兩個(gè)或多個(gè)已知數(shù)列的子序列，且是所有符合此條件序列中最長(zhǎng)的，則稱為已知序列的最長(zhǎng)公共子序列。

最長(zhǎng)公共子序列，英文縮寫為L(zhǎng)CS（Longest Common Subsequence）。其定義是，一個(gè)序列 S ，如果分別是兩個(gè)或多個(gè)已知序列的子序列，且是所有符合此條件序列中最長(zhǎng)的，則 S 稱為已知序列的最長(zhǎng)公共子序列。而最長(zhǎng)公共子串(要求連續(xù))和最長(zhǎng)公共子序列是不同的。

最長(zhǎng)公共子序列是一個(gè)十分實(shí)用的問(wèn)題，它可以描述兩段文字之間的“相似度”，即它們的雷同程度，從而能夠用來(lái)辨別抄襲。對(duì)一段文字進(jìn)行修改之后，計(jì)算改動(dòng)前后文字的最長(zhǎng)公共子序列，將除此子序列外的部分提取出來(lái)，這種方法判斷修改的部分，往往十分準(zhǔn)確。簡(jiǎn)而言之，百度知道、百度百科都用得上。

5.最小生成樹

一個(gè)有 n 個(gè)結(jié)點(diǎn)的連通圖的生成樹是原圖的極小連通子圖，且包含原圖中的所有 n 個(gè)結(jié)點(diǎn)，并且有保持圖連通的最少的邊。最小生成樹可以用kruskal（克魯斯卡爾）算法或prim（普里姆）算法求出。

最短路徑

用于計(jì)算一個(gè)節(jié)點(diǎn)到其他所有節(jié)點(diǎn)的最短路徑。主要特點(diǎn)是以起始點(diǎn)為中心向外層層擴(kuò)展，直到擴(kuò)展到終點(diǎn)為止。Dijkstra算法能得出最短路徑的最優(yōu)解，但由于它遍歷計(jì)算的節(jié)點(diǎn)很多，所以效率低。

6.矩陣的存儲(chǔ)和運(yùn)算

列矩陣（column major）和行矩陣（row major）是數(shù)學(xué)上的概念，和電腦無(wú)關(guān)，它只是一套約定（convention），按照矢量和矩陣的乘法運(yùn)算時(shí)，矢量是列矢還是行矢命名，這里只說(shuō)4×4矩陣。齊次矢量可以看成是一個(gè)1×4的矩陣，就是行矢；或者4×1的矩陣，就是列矢。

云計(jì)算

云計(jì)算（Cloud Computing）是分布式計(jì)算（Distributed Computing）、并行計(jì)算（Parallel Computing）、效用計(jì)算（Utility Computing）、[5] 網(wǎng)絡(luò)存儲(chǔ)（Network Storage Technologies）、虛擬化（Virtualization）、負(fù)載均衡（Load Balance）、熱備份冗余（High Available）等傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。

云計(jì)算（cloudcomputing）是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式，通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。

云服務(wù)

SaaS

SaaS是Software-as-a-Service（軟件即服務(wù)）的簡(jiǎn)稱，隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和應(yīng)用軟件的成熟，在21世紀(jì)開始興起的一種完全創(chuàng)新的軟件應(yīng)用模式。它與“on-demand software”（按需軟件)，the application service provider(ASP，應(yīng)用服務(wù)提供商)，hosted software(托管軟件)所具有相似的含義。它是一種通過(guò)Internet提供軟件的模式，廠商將應(yīng)用軟件統(tǒng)一部署在自己的服務(wù)器上，客戶可以根據(jù)自己實(shí)際需求，通過(guò)互聯(lián)網(wǎng)向廠商定購(gòu)所需的應(yīng)用軟件服務(wù)，按定購(gòu)的服務(wù)多少和時(shí)間長(zhǎng)短向廠商支付費(fèi)用，并通過(guò)互聯(lián)網(wǎng)獲得廠商提供的服務(wù)。

參考閱讀：企業(yè)管理 SaaS 該怎么做？? ?SaaS從業(yè)者必看!行業(yè)最全面的SaaS投資總結(jié)

SaaS 應(yīng)用軟件的價(jià)格通常為“全包”費(fèi)用，囊括了通常的應(yīng)用軟件許可證費(fèi)、軟件維護(hù)費(fèi)以及技術(shù)支持費(fèi)，將其統(tǒng)一為每個(gè)用戶的月度租用費(fèi)。

PaaS

PaaS是Platform-as-a-Service的縮寫，意思是平臺(tái)即服務(wù)。把服務(wù)器平臺(tái)作為一種服務(wù)提供的商業(yè)模式。通過(guò)網(wǎng)絡(luò)進(jìn)行程序提供的服務(wù)稱之為SaaS(Software as a Service)，而云計(jì)算時(shí)代相應(yīng)的服務(wù)器平臺(tái)或者開發(fā)環(huán)境作為服務(wù)進(jìn)行提供就成為了PaaS(Platform as a Service)。

參考文章：從Google的PaaS平臺(tái)說(shuō)起，解析中美Docker生態(tài)圈? ?PaaS與IaaS在微服務(wù)架構(gòu)實(shí)現(xiàn)方面的6大不同

你應(yīng)該知道的五種開源PaaS方案

所謂PaaS實(shí)際上是指將軟件研發(fā)的平臺(tái)（計(jì)世資訊定義為業(yè)務(wù)基礎(chǔ)平臺(tái)）作為一種服務(wù)，以SaaS的模式提交給用戶。因此，PaaS也是SaaS模式的一種應(yīng)用。但是，PaaS的出現(xiàn)可以加快SaaS的發(fā)展，尤其是加快SaaS應(yīng)用的開發(fā)速度。在2007年國(guó)內(nèi)外SaaS廠商先后推出自己的PAAS平臺(tái)。

IaaS

IaaS（Infrastructure as a Service），即基礎(chǔ)設(shè)施即服務(wù)。

參考文章：詳述從IaaS到PaaS的三種實(shí)現(xiàn)方法

消費(fèi)者通過(guò)Internet 可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施獲得服務(wù)。這類服務(wù)稱為基礎(chǔ)設(shè)施即服務(wù)?；?Internet 的服務(wù)（如存儲(chǔ)和數(shù)據(jù)庫(kù)）是 IaaS的一部分。Internet上其他類型的服務(wù)包括平臺(tái)即服務(wù)（Platform as a Service，PaaS）和軟件即服務(wù)（Software as a Service，SaaS）。PaaS提供了用戶可以訪問(wèn)的完整或部分的應(yīng)用程序開發(fā)，SaaS則提供了完整的可直接使用的應(yīng)用程序，比如通過(guò) Internet管理企業(yè)資源。

Openstack

OpenStack是一個(gè)開源的云計(jì)算管理平臺(tái)項(xiàng)目，由幾個(gè)主要的組件組合起來(lái)完成具體工作。OpenStack支持幾乎所有類型的云環(huán)境，項(xiàng)目目標(biāo)是提供實(shí)施簡(jiǎn)單、可大規(guī)模擴(kuò)展、豐富、標(biāo)準(zhǔn)統(tǒng)一的云計(jì)算管理平臺(tái)。OpenStack通過(guò)各種互補(bǔ)的服務(wù)提供了基礎(chǔ)設(shè)施即服務(wù)（IaaS）的解決方案，每個(gè)服務(wù)提供API以進(jìn)行集成。

OpenStack是IaaS(基礎(chǔ)設(shè)施即服務(wù))組件，讓任何人都可以自行建立和提供云端運(yùn)算服務(wù)。

參考文章：什么是OpenStack？? ??成功部署OpenStack的十大要點(diǎn)

此外，OpenStack也用作建立防火墻內(nèi)的“私有云”（Private Cloud），提供機(jī)構(gòu)或企業(yè)內(nèi)各部門共享資源。

Docker

Docker 是一個(gè)開源的應(yīng)用容器引擎，讓開發(fā)者可以打包他們的應(yīng)用以及依賴包到一個(gè)可移植的容器中，然后發(fā)布到任何流行的 Linux 機(jī)器上，也可以實(shí)現(xiàn)虛擬化。容器是完全使用沙箱機(jī)制，相互之間不會(huì)有任何接口。

參考文章：用 Docker 構(gòu)建 Serverless 應(yīng)用? ??docker存儲(chǔ)驅(qū)動(dòng)知識(shí)歸納總結(jié)? ?管中窺豹：Docker生態(tài)系統(tǒng)一覽

Docker 使用客戶端-服務(wù)器 (C/S) 架構(gòu)模式，使用遠(yuǎn)程API來(lái)管理和創(chuàng)建Docker容器。Docker 容器通過(guò) Docker 鏡像來(lái)創(chuàng)建。容器與鏡像的關(guān)系類似于面向?qū)ο缶幊讨械膶?duì)象與類。

————————————————————————————

整理到此，關(guān)于大數(shù)據(jù)工程師所需技能簡(jiǎn)介和相關(guān)文章就整合完成了。36大數(shù)據(jù)網(wǎng)站上有超多關(guān)于成為大數(shù)據(jù)工程師需要掌握的各個(gè)技能的詳細(xì)介紹，歡迎小伙伴們常來(lái)查閱。

今后，我們也將多多從技能知識(shí)方面進(jìn)行介紹，讓大數(shù)據(jù)行業(yè)從業(yè)人員可以多多獲益，大家一起抱團(tuán)，一起成長(zhǎng)吧！

End.

轉(zhuǎn)載請(qǐng)注明來(lái)自36大數(shù)據(jù)（36dsj.com)：36大數(shù)據(jù) » 想要成為大數(shù)據(jù)工程師？你需要掌握以下知識(shí)（下）

愛(ài)盈利-運(yùn)營(yíng)小咖秀始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App數(shù)據(jù)運(yùn)營(yíng)推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識(shí)內(nèi)容；是廣大App運(yùn)營(yíng)從業(yè)者的知識(shí)啟蒙、成長(zhǎng)指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺(tái)；

上一篇美四大航空公司之一或成為巴菲特收購(gòu)目標(biāo)

下一篇自動(dòng)化機(jī)器學(xué)習(xí)將成為下一個(gè)AI研究主流？聽聽數(shù)據(jù)科學(xué)家怎么說(shuō)

關(guān)注

篇作品

總閱讀量

評(píng)論

相關(guān)文章推薦

數(shù)據(jù)運(yùn)營(yíng)丨美國(guó)市場(chǎng)僅為Chrome一半，Windows S能掀多大的浪

在昨天晚上的發(fā)布會(huì)上，微軟正式發(fā)布了Windows10S操作系統(tǒng)，“S”不是Windows10的升級(jí)，而是代表“Soul”，是未來(lái)Windows發(fā)展的靈魂。從發(fā)布會(huì)開始納德拉講自己爺爺?shù)墓适戮椭?，這個(gè)發(fā)布會(huì)主題講的是教育，搭配微軟黑科技，提供一個(gè)面....
移動(dòng)支付戰(zhàn)火連綿，支付寶、微信支付、云閃付APP或?qū)⑷愣αⅲ?/a>

近日，移動(dòng)支付領(lǐng)域中的“國(guó)家隊(duì)”云閃付APP迎來(lái)了自己的一歲生日，身為中國(guó)銀聯(lián)的掌聲明珠，云閃付在這一年的發(fā)展中出盡了風(fēng)頭。在移動(dòng)支付市場(chǎng)環(huán)境逐漸成熟、寡頭局面日益形成的格局之下，云閃付的平地一聲雷無(wú)疑是將戰(zhàn)役再次打響，而從這一年發(fā)展勢(shì)頭來(lái)看，云閃付....

短視頻社交APP 直播軟件一對(duì)一視頻交友成品源碼支持哪些條件功能？

總結(jié)了直播短視頻一對(duì)一等一系列軟件的系統(tǒng)具備功能的大致框架，想要做好直播平臺(tái)了解這些功能是基本的，找對(duì)軟件開發(fā)公司也是很重要快捷登錄可以利用第三方帳號(hào)進(jìn)行快捷登錄(支持球球快捷登錄,微信快捷登錄).今日首次登錄獎(jiǎng)勵(lì)每天首次登錄都可以獲得相應(yīng)平臺(tái)幣的獎(jiǎng)....
數(shù)據(jù)運(yùn)營(yíng)丨微信支付都進(jìn)了蘋果App Store，ios版微信恢復(fù)打賞還遠(yuǎn)嗎？

8月29日，微信竟然宣布微信支付正式接入蘋果應(yīng)用商店AppStore。只要是iOS10.3以上版本的iPhone、iPad，都可以在中國(guó)大陸的AppStore使用微信支付購(gòu)買app或訂閱AppleMusic。這個(gè)消息很突然，有些讓人找不到北。從今年4....
數(shù)據(jù)運(yùn)營(yíng)丨線上回歸線下，運(yùn)動(dòng)類APP能走多遠(yuǎn)?

導(dǎo)語(yǔ)：2014年誕生的一些運(yùn)動(dòng)類APP如今開始了分化，有些固守互聯(lián)網(wǎng)形態(tài)，然而步履維艱，苦苦探索變現(xiàn)之路，部分早在兩年前已死亡，有些則開始出走互聯(lián)網(wǎng)。運(yùn)動(dòng)是一個(gè)永恒的存在，然而，運(yùn)動(dòng)類APP是近幾年的出現(xiàn)。2014年，伴隨著微信的崛起，在朋友圈秀運(yùn)動(dòng)....
數(shù)據(jù)運(yùn)營(yíng)丨【午報(bào)】CEO言論惹爭(zhēng)議后"沉默"，趣店股價(jià)周一暴跌近20%

導(dǎo)語(yǔ)：趣店CEO羅敏在接受媒體采訪時(shí)稱“過(guò)期不還錢一律不催，就當(dāng)福利送了”，引發(fā)巨大爭(zhēng)議。CEO言論惹爭(zhēng)議后沉默，趣店股價(jià)周一暴跌近20%23日，趣店暴跌19.42%，收?qǐng)?bào)26.59美元。昨天(22日)，趣店CEO羅敏在接受媒體采訪時(shí)稱“過(guò)期不還錢一....

推薦作者

更多

波波關(guān)注

愛(ài)盈利&運(yùn)營(yíng)小咖秀創(chuàng)始人
溪姐關(guān)注

APP推廣/直播短視頻運(yùn)營(yíng)專欄作者
劉瑋冬關(guān)注

運(yùn)營(yíng)的路上你從不孤單，因?yàn)槲視?huì)和你一直站在一起。我是知名運(yùn)營(yíng)專家劉瑋冬，這是我的運(yùn)營(yíng)工作手記，希望你能從這里，讀懂運(yùn)營(yíng)。
出海筆記關(guān)注

海外推廣運(yùn)營(yíng)，實(shí)操干貨聚集地！國(guó)內(nèi)首家出海推廣運(yùn)營(yíng)學(xué)習(xí)交流平臺(tái)。微信公眾號(hào)：chuhaibiji。
半糖關(guān)注

深耕抖音運(yùn)營(yíng)、抖音營(yíng)銷

愛(ài)盈利（aiyingli.com）是以運(yùn)營(yíng)、推廣為核心的學(xué)習(xí)、交流、分享平臺(tái)，集媒體、培訓(xùn)、短視頻數(shù)據(jù)查詢?yōu)橐惑w，全方位服務(wù)于推廣和運(yùn)營(yíng)人，成立7年舉辦線上與線下沙龍300+場(chǎng)，平臺(tái)聚集了眾多知名互聯(lián)網(wǎng)公司運(yùn)營(yíng)大咖，愿大家在這里收獲成長(zhǎng)

關(guān)于我們加入我們網(wǎng)站地圖

合作伙伴

微信公眾號(hào)

愛(ài)盈利服務(wù)號(hào)

運(yùn)營(yíng)小咖秀

京ICP備15063977號(hào)-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號(hào)

<samp id="ocwcu"><tbody id="ocwcu"></tbody></samp>