這是AIPM認(rèn)知系列的第二篇內(nèi)容,如需了解第一篇《從0開始搭建產(chǎn)品的AI認(rèn)知體系》可以「點(diǎn)擊這里」查看,整篇內(nèi)容3000+字,速讀需要5分鐘
這幾年紅遍網(wǎng)絡(luò)的「FaceU激萌」APP,特斯拉自動(dòng)駕駛,iPhoneX的FaceID …大家都有所耳聞,而這些都和今天的「計(jì)算機(jī)視覺」有著密不可分的關(guān)系。
從PM的視角出發(fā),本篇內(nèi)容我會(huì)圍繞這4塊內(nèi)容來跟大家交流:
- 什么是計(jì)算機(jī)視覺
- 現(xiàn)階段有哪些應(yīng)用技術(shù)
- 落地中會(huì)遇到哪些問題和挑戰(zhàn)
- 產(chǎn)品方向一些思考
1.什么是計(jì)算機(jī)視覺?
計(jì)算機(jī)視覺(Computer Vision),可以理解是「讓計(jì)算機(jī)怎么去看?」,相當(dāng)于人類視覺的功能。
「以下案例為了確保更好理解,犧牲一定的嚴(yán)謹(jǐn)性」
拿人類來舉例,你正在駕駛一輛汽車,突然前面出現(xiàn)一個(gè)人,你會(huì)怎么辦?
剎車或打方向盤避開是不是 ?看似這個(gè)好簡(jiǎn)單的問題,實(shí)際是要經(jīng)過一系列復(fù)雜的處理
- 首先眼前突然出現(xiàn)物體會(huì)進(jìn)入到你的視網(wǎng)膜,經(jīng)過分析之后,把這信息發(fā)給你的大腦。
- 你的大腦會(huì)處理這些信息,跟你大腦里所有存儲(chǔ)的信息做比較后,進(jìn)行物體和緯度的歸類。
- 通過的信息歸類,給出理解我正在開車,正前方出現(xiàn)這個(gè)是人,距離越來越近了,我不能撞到他的判斷。
- 然后大腦通過神經(jīng)系統(tǒng)作出反應(yīng),控制你的腳踩剎車,或者手控制方向盤避開。
「這一系列的動(dòng)作只發(fā)生在零點(diǎn)幾秒」
如果這些動(dòng)作由計(jì)算機(jī)來完成,就可以初步理解為這個(gè)就是計(jì)算機(jī)視覺在于AI領(lǐng)域的應(yīng)用。
再舉個(gè)例子,看看N年前的FaceU是怎么使用計(jì)算機(jī)視覺這個(gè)技術(shù)的:
- 通過手機(jī)的攝像頭傳感器,把眼前的物體傳遞給某處理器。
- 處理器通過多項(xiàng)技術(shù)來理解眼前物體,識(shí)別出圖像中哪個(gè)是人臉,哪些是背景。
- 給人臉進(jìn)行處理,分辨出人臉上的各個(gè)器官,并在關(guān)鍵器官上打上特殊標(biāo)記。
- 制作好的素材和這些特殊標(biāo)記結(jié)合,并且通過手機(jī)屏幕展示出來給你。
「注:上圖為原始圖和人臉打標(biāo),下圖為根據(jù)標(biāo)記作出的處理,很有趣是不是」
2.現(xiàn)階段有哪些技術(shù)服務(wù)
目前計(jì)算機(jī)視覺主要應(yīng)用的技術(shù)有哪些:
- 基于人臉識(shí)別:人臉檢測(cè),人臉對(duì)比,人臉查找…
- 基于文字識(shí)別:通用文字,網(wǎng)絡(luò)圖片,卡證文字…
- 基于圖像識(shí)別:圖片審核,圖像識(shí)別,圖像搜索…
2.1?人臉識(shí)別
剛才FaceU激萌例子,想必大家對(duì)人臉識(shí)別有了一點(diǎn)概念,接下來我們看一看有人臉識(shí)別的應(yīng)用技術(shù)。
人臉檢測(cè):想要做人臉識(shí)別,首先得讓計(jì)算機(jī)知道哪些是人臉,所以人臉的檢測(cè)是對(duì)后續(xù)人臉分析和處理的基礎(chǔ)。通過對(duì)圖片掃描和判斷,在圖片用藍(lán)色的矩形標(biāo)示出來。
人臉配準(zhǔn):定位并返回人臉五官與輪廓的關(guān)鍵點(diǎn)坐標(biāo)位置,關(guān)鍵點(diǎn)包括人臉輪廓、眼睛、眉毛、嘴唇以及鼻子輪廓,最多會(huì)返回106個(gè)點(diǎn)。
人臉屬性:對(duì)圖像的一系列基礎(chǔ)處理之后,通過一系列的算法,來識(shí)別人臉的屬性,例如:
這部分是我覺得最有意思的一部分,可以給我們?cè)O(shè)計(jì)產(chǎn)品和服務(wù)很多想象空間。
目前針對(duì)人臉屬性的識(shí)別可以提供以下這些參數(shù)供大家使用:
雖然目前提供有意思的參數(shù)很多,但很多的屬性識(shí)別的準(zhǔn)確性還有待提高。
但這并不影響一部分商用價(jià)值或產(chǎn)品化,重點(diǎn)是我要為誰解決什么問題,容錯(cuò)程度是多少。
后續(xù)我們來再來仔細(xì)聊一聊這個(gè)話題。
人臉特征提取, 人臉驗(yàn)證,人臉檢索,人臉活體檢測(cè)
因?yàn)檫@些是一個(gè)系列的解決方案,所以這一部分我放在一起來說明。
現(xiàn)在AI市場(chǎng)上最熱的幾個(gè)領(lǐng)域:智慧安防,智慧金融,智慧商業(yè),都是運(yùn)用這一系列的解決方案。
最基礎(chǔ)的是人臉特征提取,將人臉轉(zhuǎn)化為一段固定長度的數(shù)值。
人臉的驗(yàn)證就是把兩個(gè)人臉的數(shù)值,做比較,然后計(jì)算出一個(gè)相似度。
人臉檢索就是根據(jù)人臉特征的數(shù)值,在大量的數(shù)據(jù)庫里檢索,找出最相似的人。
活體識(shí)別是一個(gè)提高安全性的機(jī)制,用于遠(yuǎn)程識(shí)別攝像頭的對(duì)象是真人,而不是一張照片。
2.2?文字識(shí)別
文字識(shí)別的就很好理解了,識(shí)別圖中的文字信息,并且返回文字所在的位置,語言,內(nèi)容,目前正常場(chǎng)景的識(shí)別率可以達(dá)到90%。
應(yīng)對(duì)不同的場(chǎng)景,又延伸出了很多服務(wù),比如:
- 證件識(shí)別:身份證,駕駛證,護(hù)照等等,格式化之后可以直接利用其中的信息。
- 網(wǎng)絡(luò)圖片文字識(shí)別:針對(duì)那些藝術(shù)字,特殊設(shè)計(jì)的文字。
- 其他:表格文字識(shí)別,票據(jù)文字識(shí)別,可以根據(jù)圖片內(nèi)的格式輸出。
2.3?圖像識(shí)別
圖像識(shí)別這個(gè)范圍很大了,需要看具體有價(jià)值應(yīng)用場(chǎng)景,通常識(shí)別物體:家居物品,動(dòng)物,植物,品牌Logo,菜品…等等。
識(shí)別的邏輯跟人臉識(shí)別類似,但是需要龐大的訓(xùn)練數(shù)據(jù),來教計(jì)算機(jī)認(rèn)識(shí)這些物體,學(xué)習(xí)的越多,識(shí)別率會(huì)越高,但目前可以提供服務(wù)就是一些好理解的,特征明顯的:貓,狗,電視,沙發(fā),玫瑰,汽車,火車…等等。
但如果需要一些特殊場(chǎng)景下的識(shí)別,比如車輛的定損,奢侈品包包的真假判斷,需要再一個(gè)垂直領(lǐng)域進(jìn)行深度學(xué)習(xí)和特殊數(shù)據(jù)的大量訓(xùn)練了。
3.?落地中會(huì)遇到哪些問題和挑戰(zhàn)
前面介紹了很多計(jì)算視覺在于應(yīng)用上的技術(shù)實(shí)現(xiàn),但想闡述一些核心觀點(diǎn):
- 對(duì)于PM來講,人工智能也只是工具,最終要的還是是理解行業(yè),理解用戶,理解痛點(diǎn)。
- 對(duì)于技術(shù)本身,我們更多是理解技術(shù)邊界,在自己應(yīng)用場(chǎng)景之下,知道什么可行,什么不可行。
- 另外就是項(xiàng)目中的實(shí)戰(zhàn)經(jīng)驗(yàn),確保產(chǎn)品可以落地,并且真的可以產(chǎn)生價(jià)值的策略。
3.1?應(yīng)用場(chǎng)景不同,技術(shù)成熟度也不同
對(duì)于不同的應(yīng)用場(chǎng)景來說,所需技術(shù)成熟是不同的,舉個(gè)例子:
- 像FaceU激萌,分析視頻物體推薦購買,當(dāng)前的技術(shù)就比較“成熟”。
- 而自動(dòng)駕駛,智慧醫(yī)療,當(dāng)前的技術(shù)就“不夠成熟”
其一因?yàn)?b>標(biāo)準(zhǔn)不一樣,人工智能本身是一個(gè)概率學(xué)的事情:
- 就算FaceU人臉的坐標(biāo)有偏差,拍攝環(huán)境惡劣,用戶也可以接受并配合調(diào)整。
- 就算視頻里的物體識(shí)別不夠精準(zhǔn),推薦錯(cuò)了品牌,廣告投放商和服務(wù)商也可以接受,因?yàn)橐呀?jīng)有較大幅度提升。
- 但是如果自動(dòng)駕駛在某種沒有被訓(xùn)練的惡劣環(huán)境下,出了嚴(yán)重的交通事故,是不能接受的。
- 醫(yī)療也一樣,計(jì)算機(jī)推薦通過影像識(shí)別腫瘤在這個(gè)位置,從這里下刀后發(fā)現(xiàn)計(jì)算機(jī)判斷的并不正確,也是不能被接受的。
3.2?準(zhǔn)確率提升依賴大量的數(shù)據(jù),但光數(shù)據(jù)量大是不夠的
產(chǎn)品要開始落地之前,首先考慮圖像一類相關(guān)數(shù)據(jù)是否是打通的,是否可供機(jī)器訓(xùn)練,因?yàn)闄C(jī)器學(xué)習(xí)的數(shù)據(jù)越多準(zhǔn)確率越高。
但是只是提供訓(xùn)練數(shù)據(jù)就可以了嗎?實(shí)際的情況并不是的,因?yàn)椋?b>訓(xùn)練的數(shù)據(jù)未必真實(shí)符合情況的數(shù)據(jù)
舉個(gè)例子你就明白了:
而且準(zhǔn)確率并不是產(chǎn)品落地的唯一評(píng)價(jià)指標(biāo),還有誤報(bào)率,實(shí)時(shí)監(jiān)控尋找某個(gè)罪犯。
結(jié)果在同一個(gè)時(shí)間,多個(gè)地點(diǎn)都發(fā)現(xiàn)了這個(gè)“罪犯”,這顯然是不夠“成熟”的。
3.3?實(shí)際場(chǎng)景還會(huì)有諸多問題
等產(chǎn)品進(jìn)入到實(shí)際場(chǎng)景中測(cè)試時(shí)候,就會(huì)發(fā)現(xiàn)還有很多無法預(yù)料的事情。
- 真實(shí)場(chǎng)景硬件的性能是否可以達(dá)到訓(xùn)練時(shí)候的效果?攝像頭清晰度?硬件計(jì)算能力?網(wǎng)絡(luò)信號(hào)和速度?
- 識(shí)別算法是否可以應(yīng)用到所有場(chǎng)景?信噪比?對(duì)比度?是否遮擋?運(yùn)動(dòng)狀態(tài)的會(huì)模糊?不同天氣的光線差異?角度不同產(chǎn)生影響?
- 還有就是非?,F(xiàn)實(shí)的成本問題,也就是看ROI,想用機(jī)器人通過圖像識(shí)別來替代人,那要看投入產(chǎn)出比,還得是否可以規(guī)模化。
綜上所述,這里就需要PM 的能力,比如MVP,A/B test模型,數(shù)據(jù)分析,以及對(duì)于自己的行業(yè)以及用戶深刻理解,洞察行業(yè)的本質(zhì)。
4.?產(chǎn)品落地方向的一些思路
PM+ AI +X的落地方向上的話,借助這幾個(gè)點(diǎn)來思考:
- 哪些可以大幅提升效率,減少人工成本,且可以規(guī)模化。
- 哪些是剛需,但是用戶體驗(yàn)很差,尤其是時(shí)效性有很大要求的。
- 哪些是以前做不到的事情,但是AI可以做到的,比如:自動(dòng)駕駛。
目前計(jì)算機(jī)視覺的應(yīng)用和方向:
但具體要做什么產(chǎn)品,就沒必要在這了YY了,是否可落地是需要每個(gè)PM對(duì)于行業(yè)的深刻洞察,歡迎你隨時(shí)帶著行業(yè)的痛點(diǎn)和經(jīng)驗(yàn)來一起討論AI具體落地方法。
目前計(jì)算機(jī)視覺在技術(shù)上僅是在部分領(lǐng)域識(shí)別具有產(chǎn)品落地和商用的價(jià)值,但是對(duì)于圖像的理解和描述還處于研究階段,是一個(gè)需要突破的瓶頸,讓AI可以更深的正確的理解圖像內(nèi)容后,才能產(chǎn)生正確有效的行為,才真的“智能”,這也是我目前最感興趣的,也是最有價(jià)值的地方。
以上就是我的「產(chǎn)品經(jīng)理的人工智能認(rèn)知體系」系列的第二篇學(xué)習(xí)筆記,歡迎留言交流。
作者:蘭楓「微信公號(hào):藍(lán)風(fēng)GO @LanFengTalk」,前騰訊游戲,新浪微博PM,Elex產(chǎn)品總監(jiān),8年的游戲,社交,O2O等產(chǎn)品相關(guān)經(jīng)驗(yàn),連續(xù)創(chuàng)業(yè)者。
本文由 @蘭楓 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自PEXELS,基于CC0協(xié)議
愛盈利-運(yùn)營小咖秀 始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識(shí)內(nèi)容;是廣大App運(yùn)營從業(yè)者的知識(shí)啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺(tái);