作者:Rockelbel,兩年互聯(lián)網(wǎng)PM,AI轉(zhuǎn)型學(xué)習(xí)中,偏好NLP方向
上一篇文章介紹了機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等一系列概念,這篇文章將主要對AI的關(guān)鍵技術(shù)及應(yīng)用層面的內(nèi)容做個(gè)簡單的總結(jié)??紤]到篇幅可能過長,本文僅介紹計(jì)算機(jī)視覺相關(guān)技術(shù),其他如自然語言處理、專家系統(tǒng)、知識圖譜等技術(shù)會(huì)在下一篇文章中補(bǔ)充。
本系列其他文章:AI產(chǎn)品經(jīng)理知識系列(1)——AI的背景知識及機(jī)器學(xué)習(xí)
一、AI產(chǎn)業(yè)結(jié)構(gòu)
本來打算把產(chǎn)業(yè)結(jié)構(gòu)放在最后一部分,后來考慮了一秒鐘,這篇文章會(huì)更加偏實(shí)際應(yīng)用,對人工智能產(chǎn)業(yè)鏈有一個(gè)宏觀的認(rèn)識可能更有幫助。下圖是一張關(guān)于人工智能產(chǎn)業(yè)生態(tài)的圖譜,很多機(jī)構(gòu)都做過類似的圖,大同小異。技術(shù)層和應(yīng)用層是本文的主要內(nèi)容,這里先對基礎(chǔ)層的內(nèi)容做個(gè)簡單介紹。
人工智能產(chǎn)業(yè)鏈圖譜
基礎(chǔ)層包括提供算力的高性能芯片、底層開源框架、傳感器等,作為人工智能技術(shù)的底層支持。我們經(jīng)常聽到這樣一種說法,這次人工智能的熱潮很大程度是基于三個(gè)領(lǐng)域的突破:大數(shù)據(jù)支持、算力的提升、算法的突破。這些都屬于基礎(chǔ)層的范疇。
1、高性能處理器
高性能處理器:CPU、GPU、FPGA(半定制化的可編程電路)、TPU(一種ASIC,谷歌專門為機(jī)器學(xué)習(xí)打造的處理器)。這部分的內(nèi)容盡管去百度,找不到算我輸。
下圖展示了CPU和GPU的結(jié)構(gòu)差別,綠色區(qū)域是計(jì)算單元,橙色區(qū)域是儲(chǔ)存單元,“相對CPU而言,為什么GPU更適合用于機(jī)器學(xué)習(xí)”這個(gè)問題大家應(yīng)該能比較直觀的理解了。
CPU和GPU計(jì)算能力區(qū)別
2、云服務(wù)
云服務(wù):Amazon ML、Google Cloud ML、Microsoft Azure ML、Databricks、Haven OnDemand、IBM Watson 和 Predictive Analytics、阿里云 ML、騰訊TML、百度BML
很多大廠都提供了各自的機(jī)器學(xué)習(xí)云平臺服務(wù),國外像Google/Amazon/Microsoft都是布局人工智能比較早的企業(yè),提供的服務(wù)相對更加成熟
相關(guān)閱讀:不可錯(cuò)過的精彩回顧:6種云機(jī)器學(xué)習(xí)服務(wù)
3、開源庫或計(jì)算框架
開源庫或計(jì)算框架:TensorFlow(大名鼎鼎)、Torch(基于Lua語言)、Caffe(Facebook,基于C++)、MXNET(Amazon,很強(qiáng)大)、Keras(易于使用,黑箱子,適合新手)、PaddlePaddle(百度)、Theano、sclikt-learn、Deeplearning4j(基于java語言)、Deepmat、Lasagne、Neon、Pylearn、Chainer、Turicreate(Apple2017年推出)、PyTorch(Facebook)、CNTK (Microsoft)......
專用領(lǐng)域的開源庫:OpenCV、OpenFace(人臉識別)、DarkNet-YOLO(物體檢測)......
各種開源框架數(shù)不勝數(shù),這里列舉了一些比較知名和用戶比較廣泛的框架,實(shí)際的項(xiàng)目也并不一定使用單一的框架。
各個(gè)開源框架gitbuh數(shù)據(jù)對比(數(shù)據(jù)比較舊)
相關(guān)閱讀:主流深度學(xué)習(xí)框架對比
基礎(chǔ)層的內(nèi)容就介紹(搬運(yùn))到這里,其他還有如Decker容器、機(jī)器學(xué)習(xí)中的可視化解決方案等等概念感興趣的可以去了解一下。
二、關(guān)鍵技術(shù)及應(yīng)用領(lǐng)域
人工智能的研究領(lǐng)域包括計(jì)算機(jī)視覺、自然語言處理、機(jī)器人、專家系統(tǒng)等,。根據(jù)AI應(yīng)用范圍或發(fā)展層次可以分為專用人工智能(ANI)、通用人工智能(AGI)、超級人工智能(ASI)三種,目前的AI還停留在專用人工智能的階段,這階段主要是通過感知和記憶存儲(chǔ)來實(shí)現(xiàn)特定領(lǐng)域或特定功能,如計(jì)算機(jī)視覺、語音識別、智能推薦等等,目前這些領(lǐng)域有較為成熟的成果。
通用人工智能,一般指Agent基于認(rèn)知學(xué)習(xí)和決策執(zhí)行的能力,有一定的自我意識,能夠真正理解人類的情緒語言,實(shí)現(xiàn)多個(gè)領(lǐng)域的綜合智能。
超級人工智能,定義為具有完整的自我意識,獨(dú)立的價(jià)值觀世界觀,能夠自我創(chuàng)新,甚至超過人類。這種AI層次僅停留在想象中。
“可以預(yù)見的是,在由專業(yè)領(lǐng)域向通用領(lǐng)域過度的過程中,自然語言處理與計(jì)算機(jī)視覺兩個(gè)方向?qū)?huì)成為人工智能通用應(yīng)用最大的兩個(gè)突破口。”(極客公園)
目前深度學(xué)習(xí)在自然語言處理和計(jì)算機(jī)規(guī)覺領(lǐng)域已取得重大的進(jìn)展,其中語音識別、 圖像識別已達(dá)到商業(yè)化的成都。在各類比賽中,圖像識別和語音識別錯(cuò)誤率達(dá)到甚至超過人類水平。
計(jì)算機(jī)視覺(Computer Vision)
首先對區(qū)分這三個(gè)概念:計(jì)算機(jī)視覺、機(jī)器視覺、圖像處理
計(jì)算機(jī)視覺:指對圖像進(jìn)行數(shù)據(jù)采集后提取出圖像的特征,一般處理的圖像的數(shù)據(jù)量很大,偏軟件層;
機(jī)器視覺:處理的圖像一般不大,采集圖像數(shù)據(jù)后僅進(jìn)行較低數(shù)據(jù)流的計(jì)算,偏硬件層,多用于工業(yè)機(jī)器人、工業(yè)檢測等;
圖像處理:對圖像數(shù)據(jù)進(jìn)行轉(zhuǎn)換變形,方式包括降噪、、傅利葉變換、小波分析等,圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮,增強(qiáng)和復(fù)原,匹配、描述和識別3個(gè)部分。
計(jì)算機(jī)視覺是指利用計(jì)算機(jī)來模擬人的視覺,是人工智能中的“看”。從技術(shù)流程上來說,分為目標(biāo)檢測、目標(biāo)識別、行為識別三個(gè)部分。根據(jù)識別的目標(biāo)種類可以分為圖像識別、物體識別、人臉識別、文字識別等。在智能機(jī)器人領(lǐng)域,計(jì)算機(jī)視覺可以對靜態(tài)圖片或動(dòng)態(tài)視頻中的物體進(jìn)行特征提取、識別和分析,從而為后續(xù)的動(dòng)作和行為提供關(guān)鍵的信息。
近年來,基于計(jì)算機(jī)視覺的智能視頻監(jiān)控和身份識別等市場逐漸成熟擴(kuò)大,計(jì)算機(jī)視覺的技術(shù)和應(yīng)用趨于成熟,廣泛應(yīng)用于制造、 安檢、圖像檢索、醫(yī)療影像分析、人機(jī)交互等領(lǐng)域。
下圖展示了計(jì)算機(jī)視覺的技術(shù)分類,基本上可以分為靜態(tài)內(nèi)容識別和動(dòng)態(tài)內(nèi)容識別兩大類,實(shí)際上在國內(nèi)計(jì)算機(jī)視覺領(lǐng)域,動(dòng)靜態(tài)圖像識別和人臉識別是主要研究和應(yīng)用方向。當(dāng)然很多應(yīng)用需要計(jì)算機(jī)視覺和其他關(guān)鍵AI技術(shù)相結(jié)合,比如AR/VR的主要技術(shù)是人機(jī)交互和計(jì)算機(jī)視覺。
計(jì)算機(jī)視覺應(yīng)用場景
常用技術(shù)分類
1.1圖像特征提取與描述
特征提取是很多CV技術(shù)的前置操作,比如判斷兩幅頭像是否是同一個(gè)人,計(jì)算機(jī)根據(jù)圖像的某些局部特征,如邊緣和線條的特征。
1圖像特征種類
圖像的顏色特征、紋理特征、形狀特征、空間關(guān)系特征(應(yīng)用于機(jī)器人的姿態(tài)識別問題,確定一個(gè)三維物體的方位等)、局部特征
圖像特征描述
圖像特征描述的一個(gè)核心就是魯棒性(robust,這個(gè)詞大家肯定聽過吧,出場率極高)和可區(qū)分性,而這兩點(diǎn)常常是矛盾的。
魯棒性是指一個(gè)特征應(yīng)該適用于不同的圖像變換情況,這就要求這個(gè)特征比較“粗糙”,例如一個(gè)茶杯從上方看和從側(cè)面看都應(yīng)該是同一個(gè)茶杯??蓞^(qū)分性是指,能夠區(qū)分一些比較相似的局部特征,顯然其魯棒性往往比較低。
相關(guān)閱讀:局部圖像特征描述總結(jié)
1.2圖像分類
大家在新聞上肯定看到過這些比賽——ImageNet(李飛飛創(chuàng)立)、Kaggle、MSCOCC、阿里天池等等(以及ILSVRC、PASCAL VOC 2012),這些比賽的常設(shè)項(xiàng)目一般為不同領(lǐng)域下的圖像識別分類與場景分類,此外還有一些物體探測追蹤之類的。(這些比賽一般使用【top-5錯(cuò)誤率】的高低來衡量算法的優(yōu)異,有興趣的可以去了解一下)
常用算法:卷積神經(jīng)網(wǎng)絡(luò)CNN
常用神經(jīng)網(wǎng)絡(luò)模型:AlexNet、 VGG、 GoogLeNet、 ResNet)
1.2.1圖像分類(Image Classification)
根據(jù)圖像正反映出的不同特征,依照特征把圖片分類。顯然分類技術(shù)有基于色彩的、基于紋理的、基于形狀的、基于空間關(guān)系的。
舉個(gè)栗子,錘子手機(jī)的有個(gè)桌面整理的功能,把顏色相似的圖片分類到一屏,這里應(yīng)用了基于顏色的圖像分類技術(shù)。
1.2.2場景分類(Scene Classification)
場景分類:基于對象(根據(jù)場景中出現(xiàn)的對象區(qū)分,例如出現(xiàn)床可能是臥室)、基于區(qū)域、基于上下文、基于Gist特征
推薦一篇相關(guān)文章:基于深度學(xué)習(xí)的場景分類算法
三種場景分類的方法
從上面這張圖可以大概了解場景分類大概的流程,當(dāng)然前提得了解pooling、feature descriptors這些詞的含義(在后續(xù)介紹CNN/RNN的文章里會(huì)詳細(xì)描述)。上圖來源文章:場景分類摘錄
1.3圖像檢測(Image Detection)
圖像檢測是通過獲取和分析圖像特征,從圖像中定位出預(yù)設(shè)的目標(biāo),并準(zhǔn)確判斷目標(biāo)物體的類別,最后給出目標(biāo)的邊界,邊界一般是矩形,不過也有圓形的情況,下圖是一個(gè)人臉檢測的示例。
一個(gè)人臉檢測的示例
常用算法:區(qū)域卷積神經(jīng)網(wǎng)絡(luò)/R-CNN
常用神經(jīng)網(wǎng)絡(luò)模型:SPPnet、Fast R-CNN、Faster R-CNN、R-FCN
圖像檢測應(yīng)用領(lǐng)域:人臉識別、醫(yī)學(xué)影像、智能視頻監(jiān)控、機(jī)器人導(dǎo)航、基于內(nèi)容的圖像檢索、基于圖像的繪制技術(shù)、圖像編輯和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。(百度百科)
1.3.1物體檢測(Object Detection & Localization)
物件檢測分為靜態(tài)物體檢測和動(dòng)態(tài)物體檢測,并且其一般和物體分類算法結(jié)合,多應(yīng)用于安防領(lǐng)域(行人檢測、智能視頻分析、行人跟蹤)、交通領(lǐng)域(交通場景的物體識別、車輛計(jì)數(shù)、逆行檢測、車牌檢測和識別)、互聯(lián)網(wǎng)領(lǐng)域(圖像檢測、相冊自動(dòng)歸類)。
下圖展示了當(dāng)前物體檢測技術(shù)的一些應(yīng)用難點(diǎn),包括圖片的復(fù)雜光照情況、非剛性物體形變(人、動(dòng)物的各種姿勢)、低分辨率、圖片模糊(商湯科技對此有比較好的處理技術(shù))等
物體檢測技術(shù)難點(diǎn)(圖片來自論文:圖像物體分類與檢測算法綜述)
這篇文章較為系統(tǒng)的介紹了一些檢查算法的實(shí)現(xiàn)原理,推薦閱讀:干貨 | 物體檢測算法全概述:從傳統(tǒng)檢測方法到深度神經(jīng)網(wǎng)絡(luò)框架
1.3.2行人檢測(Pedestrian Detection)
行人檢測,顧名思義就是將圖片中的行人檢測出來,并輸出目標(biāo)邊界,并且檢測的常常是多個(gè)行人目標(biāo)。將一個(gè)視頻流中的行人的軌跡關(guān)聯(lián)起來,就是行人跟蹤,多個(gè)目標(biāo)即多人跟蹤。另外一個(gè)應(yīng)用稱為行人檢索,或行人再識別,即給定一個(gè)待檢索行人,從圖集或視頻中找到。(城市里處處攝像頭,天網(wǎng)恢恢?。?/p>
行人檢測應(yīng)用領(lǐng)域:人工智能系統(tǒng)、車輛輔助駕駛系統(tǒng)、智能機(jī)器人、智能視頻監(jiān)控、人體行為分析、智能交通等領(lǐng)域。(百度百科)
相關(guān)閱讀:行人檢測(Pedestrian Detection)資源、行人檢測(看了一圈,還是百科說得最清楚)
1.3.3人臉檢測&人臉識別(Face Detection &Recognition)
人臉檢測是人臉識別中的一個(gè)關(guān)鍵環(huán)節(jié),人臉檢測指對于一副給定的圖像,采用一定的策略對其分析搜索確定其中是否含有人臉,若有人臉則返回人臉邊界,以及大小、姿態(tài)等信息。
應(yīng)用領(lǐng)域:身份認(rèn)證與安全防護(hù)(很多app有實(shí)人認(rèn)證)、媒體娛樂(火過一陣子的小偶app)、圖像搜索等。
實(shí)人認(rèn)證示例圖
小偶app,根據(jù)照片制作一個(gè)3D人偶
人臉檢測是圖像檢測中的一種,方法基本類似,主要分為六個(gè)步驟:預(yù)處理、窗口滑動(dòng)、特征提取、特征選擇、特征分類和后處理(挖個(gè)坑,這部分后續(xù)會(huì)詳細(xì)介紹)
這里插播一句題外話,去年的十月份,CNN的創(chuàng)始人發(fā)了一篇關(guān)于Capsule Networks(膠囊網(wǎng)絡(luò))的論文,大有取代CNN之勢。而目前為止,CNNs仍是圖像檢測分類領(lǐng)域最先進(jìn)的方法,不過有時(shí)候也會(huì)出現(xiàn)一些不可描述的問題,比如下圖:
一個(gè)CNN圖像識別的例子
不用細(xì)說,大家應(yīng)該也大概知道是什么情況了??梢赃@樣(不嚴(yán)謹(jǐn)?shù)模├斫?,CNN是由多層的神經(jīng)網(wǎng)絡(luò)組成,每一層的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)識別一類特征,比如目標(biāo)是識別人臉,可能一層負(fù)責(zé)識別眼睛的特征,一層負(fù)責(zé)識別嘴巴的特征,多層神經(jīng)網(wǎng)絡(luò)累加起來就會(huì)形成一個(gè)整體的特征,但是CNN對多個(gè)特征之間的空間關(guān)系并不能很好的識別,因此就有了上圖這樣的例子。(關(guān)于識別特征這塊,有一個(gè)分類器的概念,感興趣的可以去了解一下Haar特征、VJ模型和adaboost分類器)
人臉識別應(yīng)該是目前計(jì)算機(jī)視覺領(lǐng)域商業(yè)化應(yīng)用落地比較成熟的例子,下面是我搜集到的一張關(guān)于人臉識別的一些應(yīng)用領(lǐng)域情況腦圖,需要的可以收藏。圖不太清楚,找不到來源網(wǎng)站,如果有知道的朋友可以評論留言我再加上。
人臉識別應(yīng)用領(lǐng)域
1.4圖像分割(Image Segmentation)
圖像分割指把圖像分成若干個(gè)特定的、居右獨(dú)特性質(zhì)的的區(qū)域并提出感興趣目標(biāo)的技術(shù)?,F(xiàn)有的圖像分割技術(shù)主要分為以下幾類:基于閾值、基于區(qū)域、基于邊緣和基于特定理論的分割方法。圖像分割是將數(shù)字圖像劃分為幾個(gè)互不相交的區(qū)域,也是一種標(biāo)注的過程,即把屬于同一區(qū)域的像素給與相同的標(biāo)簽。(百度百科)
這么說可能難以理解,下圖是自動(dòng)駕駛領(lǐng)域的一個(gè)應(yīng)用示例,自動(dòng)駕駛系統(tǒng)需要從場景中識別出各類物體,并根據(jù)先驗(yàn)知識,即預(yù)設(shè)好的條件進(jìn)行判斷,如應(yīng)該在road區(qū)域行駛、遇到Pedestrian和Vehicle區(qū)域應(yīng)該減速或停車、識別Traffic Light區(qū)域的含義等等。
圖像分割在自動(dòng)駕駛領(lǐng)域的應(yīng)用
圖像分割技術(shù)下有三個(gè)比較常見的分支——視覺顯著性檢測、物體分割、語義分割。
1.4.1視覺顯著性檢測(Visual Saliency Detection)
視覺顯著性檢測指通過算法模擬人的視覺特點(diǎn),提取圖像中可能是人類感興趣的區(qū)域,及顯著區(qū)域。
這里涉及到另一個(gè)概念,視覺注意機(jī)制(Visual Attention Mechanism),即面對一個(gè)場景時(shí),人類自動(dòng)對感興趣區(qū)域進(jìn)行處理而自動(dòng)忽略不顯著的區(qū)域。
顯著性檢測圖示
人的視覺注意有兩種策略機(jī)制:
自下而上、基于數(shù)據(jù)驅(qū)動(dòng)的注意機(jī)制:收感知數(shù)據(jù)驅(qū)動(dòng),將人的視覺重點(diǎn)引導(dǎo)至場景中的顯著區(qū)域,這些區(qū)域通常與周圍有較強(qiáng)的對比度或與周圍有明顯的區(qū)別,包括顏色、形狀、亮度等特征。比如一副黑色圖片中的一個(gè)白點(diǎn),視覺自然而然的會(huì)被引導(dǎo)至白點(diǎn)。
自上而下、基于任務(wù)驅(qū)動(dòng)的、基于目標(biāo)的注意機(jī)制:有根據(jù)先驗(yàn)知識、預(yù)期和當(dāng)前的目標(biāo)來計(jì)算圖像的顯著性區(qū)域。在視頻中找到人,就是一個(gè)任務(wù)驅(qū)動(dòng)的行為。
關(guān)于認(rèn)知注意模型等內(nèi)容,參考這篇文章:視覺顯著性檢測
關(guān)于注意力流等內(nèi)容,可以去關(guān)注張江博士,他的書《科學(xué)的極致:漫談人工智能》中有幾章對注意力機(jī)制的描述,比較直觀易懂。
1.4.2物體分割(Object Segmentation)
物體分割一般是用于把單張圖片中的一個(gè)或多個(gè)物體分割出來,物體分割常常和物體識別共同使用。相比于物體檢測只能返回一個(gè)矩形邊界,物體分割算法可以精確的描繪出所有物體的輪廓,從像素成眠上把各個(gè)物體分割出來。
常用算法:Mask R-CNN
下圖展示了物體分割的輸出效果,基本上可以實(shí)現(xiàn)把圖片中的物體的輪廓描繪出來。(設(shè)計(jì)師再也不用辛苦的摳圖了...)
物體分割效果圖
1.4.3語義分割/Semantic Segmentation
圖像語義分割,也成為語義標(biāo)注,簡單而言就是給定一張圖片,對圖片上的每一個(gè)像素點(diǎn)分類,不區(qū)分物體,盡關(guān)心像素。
那么它與物體分割有什么不同呢?語義分割重在語義,即圖像中同一個(gè)類別的物體將會(huì)被劃分至同一個(gè)區(qū)域,如下右圖有兩只牛,其都被劃分至cow區(qū)域;而上圖中可以看到,多個(gè)人或摩托車都被單獨(dú)的區(qū)分開來。
語義分割效果圖
1.5圖像描述(Image Captioning)
(圖說)圖像描述也稱為Dense Captioning,其目標(biāo)是在給定一張圖像的情況下,得到圖像中各個(gè)部分的自然語言描述。圖像描述問題融合了計(jì)算機(jī)視覺和自然語言處理兩大方向,是AI解決多模式跨領(lǐng)域問題的典型技術(shù)。與英文相比,中文的描述常常在句法詞法的組合上更加靈活,算法的挑戰(zhàn)也更大。
假設(shè)我們有一個(gè)很大的數(shù)據(jù)庫,每條記錄是圖像以及它對應(yīng)的語句描述。每條語句的詞匯片段其實(shí)對應(yīng)了一些特定的但是未知的圖像區(qū)域。我們的方法是推斷出這些詞匯片段和圖像區(qū)域的對應(yīng)關(guān)系,然后使用他們來生成一個(gè)泛化的語言描述模型。
常用算法:Vanilla-RNN、LSTM、GRU
圖像描述示例
相關(guān)閱讀:【圖像理解】自動(dòng)生成圖像的文本描述
1.5.1圖像標(biāo)注
圖像標(biāo)注是從根據(jù)一幅圖自動(dòng)生成一段描述性的文字,小時(shí)候的“看圖說話”。圖像描述需要把圖像中各個(gè)物體均生成描述,而圖像標(biāo)注只對圖片整體進(jìn)行描述。
圖像標(biāo)注技術(shù)一般分為典型的圖像標(biāo)注和基于注意力的圖像標(biāo)注。
圖像標(biāo)注示例
相關(guān)閱讀:看圖說話的AI小朋友——圖像標(biāo)注趣談(上)、「Show and Tell」——圖像標(biāo)注(Image Caption)任務(wù)技術(shù)綜述
1.6圖像問答(Image Question Answering)
圖像問答即回答與圖片內(nèi)容相關(guān)的問題,輸入圖片及問題,系統(tǒng)輸出答案。15年的時(shí)候有一個(gè)新聞不知道大家知不知道,李彥宏首次向世界展示百度最新Image QA圖文問答技術(shù),也就是下圖。新聞鏈接
圖像問答示例
圖像問答結(jié)合了注意力機(jī)制及外部知識庫后,識別能力能夠有顯著的提升。
與圖像描述類似,圖像問答同樣是結(jié)合計(jì)算機(jī)視覺與自然語言處理技術(shù)的一種應(yīng)用,下圖展示了兩者之間的差異。
圖像問答和圖像描述
1.7圖像生成(Image Generation)
這大概是這篇文章最好理解的概念了,圖像生成——根據(jù)一定的條件生成圖像。比如上篇文章提到的prisma,根據(jù)預(yù)設(shè)的風(fēng)格和圖片生成一張全新的圖片,這中間就是應(yīng)用了圖像生成的技術(shù)。
使用GAN(對抗生成網(wǎng)絡(luò))來做圖像生成,目前是最流行也是最熱門的領(lǐng)域。當(dāng)然,也可以使用MRF(馬爾科夫隨機(jī)場)、CNN來進(jìn)行圖像生成。
GAN也可以用于根據(jù)一段文本描述來生成圖像,或根據(jù)一段簡筆畫來生成圖像等等。
相關(guān)閱讀:GAN之根據(jù)文本描述生成圖像、【實(shí)戰(zhàn)】GAN網(wǎng)絡(luò)圖像翻譯機(jī):圖像復(fù)原、模糊變清晰、素描變彩圖
注意啦?。?!推薦大家一個(gè)好玩的網(wǎng)站(Demo),大家可以體驗(yàn)一下,通過一副簡筆畫來生成一幅完整的圖像。
簡筆畫生成一只貓🐱
模糊圖像復(fù)原也是圖像生成領(lǐng)域的重要應(yīng)用,對于各種原因造成的模糊,均有較好的恢復(fù)效果,如運(yùn)動(dòng)模糊、抖動(dòng)模糊等。
從左到右:原圖像、模糊化后的圖像和通過模型清晰化的圖像
1.8圖像檢索(Content-based Image Retrieval)
圖像檢索大概也是大家用得很多的功能吧,google、百度這些搜索引擎基本都支持以圖搜圖。圖像檢索的研究始于上世紀(jì)70年代,當(dāng)時(shí)主要是基于文本的圖像檢索技術(shù)(Text-based Image Retrieval),而目前則是基于內(nèi)容檢索(Content-based Retrieval)。
在檢索原理上,無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索,主要包括三方面:一方面對用戶需求的分析和轉(zhuǎn)化,形成可以檢索索引數(shù)據(jù)庫的提問;另一方面,收集和加工圖像資源,提取特征,分析并進(jìn)行標(biāo)引,建立圖像的索引數(shù)據(jù)庫;最后一方面是根據(jù)相似度算法,計(jì)算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小,提取出滿足閾值的記錄作為結(jié)果,按照相似度降序的方式輸出。(百度百科)
ps:這次文章整理得很頭疼,后面都快不想寫了,里面可能有一些疏漏之處,如果有問題或者有補(bǔ)充可以在評論區(qū)留言,我會(huì)及時(shí)修正,希望同大家一起進(jìn)步,感謝閱讀。
感謝閱讀,文中不嚴(yán)謹(jǐn)或疏漏之處還請見諒,歡迎討論。
有共同興趣的可以加我的微信(ID:Bernando2014)或者關(guān)注我的簡書主頁:蒲公英
轉(zhuǎn)載請注明文章來源,本文首次發(fā)布于簡書-蒲公英。
特別說明:本章節(jié)中部分未說明來源的示例圖片摘選自coldyan的博客或網(wǎng)絡(luò)
愛盈利-運(yùn)營小咖秀(www.jza6.com) 始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識內(nèi)容;是廣大App運(yùn)營從業(yè)者的知識啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺;
想了解更多移動(dòng)互聯(lián)網(wǎng)干貨知識,請關(guān)注微信公眾號運(yùn)營小咖秀(ID: yunyingshow)
【轉(zhuǎn)載說明】  若上述素材出現(xiàn)侵權(quán),請及時(shí)聯(lián)系我們刪除及進(jìn)行處理:[email protected]