无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機號

賬號登錄手機登錄

立即注冊忘記密碼

注冊

我同意用戶協(xié)議

已有賬號，立即登錄

忘記密碼

記得密碼，直接登錄

用戶協(xié)議

綁定手機號

推廣與合作

X

你的位置：首頁 > 發(fā)現(xiàn) > 本文

重磅干貨 | AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

關(guān)注

來源： 2666 2017-11-24

最近，在飯團“AI產(chǎn)品經(jīng)理大本營”里，有團員提問：如何制定針對自然語言語音交互系統(tǒng)的評價體系？有沒有通用的標準？例如在車載環(huán)境中，站在用戶角度，從客觀，主觀角度的評價指標？

上周，我在專屬微信群內(nèi)拋出了這個問題，當晚，胡含、我偏笑、艷龍等朋友就分享了不少干貨心得；最近幾天，在飛艷同學的協(xié)助整理下，我又補充了一些信息，最終形成這篇文章，以饗大家。

重磅干貨 | AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

本文，具體介紹了下面5大方面的行業(yè)實戰(zhàn)評價指標：

一、語音識別

二、自然語言處理

三、語音合成

四、對話系統(tǒng)

五、整體用戶數(shù)據(jù)指標

一、語音識別ASR

語音識別（Automatic Speech Recognition），一般簡稱ASR，是將聲音轉(zhuǎn)化為文字的過程，相當于人類的耳朵。

1、識別率

看純引擎的識別率，以及不同信噪比狀態(tài)下的識別率（信噪比模擬不同車速、車窗、空調(diào)狀態(tài)等），還有在線/離線識別的區(qū)別。

實際工作中，一般識別率的直接指標是“WER（詞錯誤率，Word Error Rate）”

定義：為了使識別出來的詞序列和標準的詞序列之間保持一致，需要進行替換、刪除或者插入某些詞，這些插入、替換或刪除的詞的總個數(shù)，除以標準的詞序列中詞的總個數(shù)的百分比，即為WER。

公式為：

重磅干貨 | AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

Substitution——替換
Deletion——刪除
Insertion——插入
N——單詞數(shù)目

3點說明

1）WER可以分男女、快慢、口音、數(shù)字/英文/中文等情況，分別來看。

2）因為有插入詞，所以理論上WER有可能大于100%，但實際中、特別是大樣本量的時候，是不可能的，否則就太差了，不可能被商用。

3）站在純產(chǎn)品體驗角度，很多人會以為識別率應(yīng)該等于“句子識別正確的個數(shù)/總的句子個數(shù)”，即“識別（正確）率等于96%”這種，實際工作中，這個應(yīng)該指向“SER（句錯誤率，Sentence Error Rate）”，即“句子識別錯誤的個數(shù)/總的句子個數(shù)”。不過據(jù)說在實際工作中，一般句錯誤率是字錯誤率的2~3倍，所以可能就不怎么看了。

2、語音喚醒相關(guān)的指標

先需要介紹下語音喚醒（Voice Trigger，VT）的相關(guān)信息。

A）語音喚醒的需求背景：近場識別時，比如使用語音輸入法時，用戶可以按住手機上siri的語音按鈕，直接說話（結(jié)束之后松開）；近場情況下信噪比（Signal to Noise Ratio, SNR）比較高，信號清晰，簡單算法也能做到有效可靠。

但是在遠場識別時，比如在智能音箱場景，用戶不能用手接觸設(shè)備，需要進行語音喚醒，相當于叫這個AI（機器人）的名字，引起ta的注意，比如蘋果的“Hey Siri”，Google的“OK Google”，亞馬遜Echo的“Alexa”等。

B）語音喚醒的含義：簡單來說是“喊名字，引起聽者（AI）的注意”。如果語音喚醒判斷結(jié)果是正確的喚醒（激活）詞，那后續(xù)的語音就應(yīng)該被識別；否則，不進行識別。

C）語音喚醒的相關(guān)指標

a）喚醒率。叫AI的時候，ta成功被喚醒的比率。

b）誤喚醒率。沒叫AI的時候，ta自己跳出來講話的比率。如果誤喚醒比較多，特別比如半夜時，智能音箱突然開始唱歌或講故事，會特別嚇人的……

c）喚醒詞的音節(jié)長度。一般技術(shù)上要求，最少3個音節(jié)，比如“OK Google”和“Alexa”有四個音節(jié)，“Hey Siri”有三個音節(jié)；國內(nèi)的智能音箱，比如小雅，喚醒詞是“小雅小雅”，而不能用“小雅”——如果音節(jié)太短，一般誤喚醒率會比較高。

d）喚醒響應(yīng)時間。之前看過傅盛的文章，說世界上所有的音箱，除了Echo和他們做的小雅智能音箱能達到1.5秒，其他的都在3秒以上。

e）功耗（要低）?？催^報道，說iPhone 4s出現(xiàn)Siri，但直到iPhone 6s之后才允許不接電源的情況下直接喊“Hey Siri”進行語音喚醒；這是因為有6s上有一顆專門進行語音激活的低功耗芯片，當然算法和硬件要進行配合，算法也要進行優(yōu)化。

以上a、b、d相對更重要。

D）其他

涉及AEC（語音自適應(yīng)回聲消除，Automatic Echo Cancellation）的，還要考察WER相對改善情況。

二、自然語言處理NLP

自然語言處理（Natural Language Processing），一般簡稱NLP，通俗理解就是“讓計算機能夠理解和生成人類語言”。

1、準確率、召回率

附上之前文章《AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標注工作入門》中，分享過的一段解釋：

準確率：識別為正確的樣本數(shù)/識別出來的樣本數(shù)

召回率：識別為正確的樣本數(shù)/所有樣本中正確的數(shù)

舉個栗子：全班一共30名男生、20名女生。需要機器識別出男生的數(shù)量。本次機器一共識別出20名目標對象，其中18名為男性，2名為女性。則

精確率=18/（18+2）=0.9
召回率=18/30=0.6

再補充一個圖來解釋：

重磅干貨 | AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

2、F1值（精準率和召回率的調(diào)和平均數(shù)）

模型調(diào)優(yōu)后追求F1值提升，準確率召回率單獨下降在一個小區(qū)間內(nèi)，整體F1值的增量也是分區(qū)間看（F1值在60%內(nèi)，與60%以上肯定是不一樣的，90%以上可能只追求1%的提升）。

P是精準率，R是召回率，F(xiàn)a是在F1基礎(chǔ)上做了賦權(quán)處理：Fa=（a^2+1）PR/（a^2P+R）

三、語音合成TTS

語音合成（Text-To-Speech），一般簡稱TTS，是將文字轉(zhuǎn)化為聲音（朗讀出來），類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音，都是由TTS來生成的，并不是真人在說話。

主觀測試（自然度），以MOS為主：

1、MOS（Mean Opinion Scores），專家級評測（主觀）；1-5分，5分最好。

2、ABX，普通用戶評測（主觀）。讓用戶來視聽兩個TTS系統(tǒng)，進行對比，看哪個好。

客觀測試：

1、對聲學參數(shù)進行評估，一般是計算歐式距離等（RMSE，LSD）。

2、對工程上的測試：實時率（合成耗時/語音時長），流式分首包、尾包，非流式不考察首包；首包響應(yīng)時間（用戶發(fā)出請求到用戶感知到的第一包到達時間）、內(nèi)存占用、CPU占用、3*24小時crash率等。

四、對話系統(tǒng)

對話系統(tǒng)（Dialogue System），簡單可以理解為Siri或各種Chatbot所能支持的聊天對話體驗。

1、用戶任務(wù)達成率（表征產(chǎn)品功能是否有用以及功能覆蓋度）

1）比如智能客服，如果這個Session最終是以接入人工為結(jié)束的，那基本就說明機器的回答有問題。或者重復(fù)提供給用戶相同答案等等。

2）分專項或分意圖的統(tǒng)計就更多了，不展開了。

2、對話交互效率，比如用戶完成一個任務(wù)的耗時、回復(fù)語對信息傳遞和動作引導的效率、用戶進行語音輸入的效率等（可能和打斷，One-shot等功能相關(guān)）；具體定義，各個產(chǎn)品自己決定。

3、根據(jù)對話系統(tǒng)的類型分類，有些區(qū)別。

1）閑聊型

A）CPS（Conversations Per Session，平均單次對話輪數(shù)）。這算是微軟小冰最早期提出的指標，并且是小冰內(nèi)部的（唯一）最重要指標；

B）相關(guān)性和新穎性。與原話題要有一定的相關(guān)性，但又不能是非常相似的話；

C）話題終結(jié)者。如果機器說過這句話之后，通常用戶都不會繼續(xù)接了，那這句話就會給個負分。

2）任務(wù)型

A）留存率。雖然是傳統(tǒng)的指標，但是能夠發(fā)現(xiàn)用戶有沒有形成這樣的使用習慣；留存的計算甚至可以精確到每個功能，然后進一步根據(jù)功能區(qū)做歸類，看看用戶對哪類任務(wù)的接受程度較高，還可以從用戶的問句之中分析發(fā)出指令的習慣去針對性的優(yōu)化解析和對話過程；到后面積累的特征多了，評價機制建立起來了，就可以上強化學習；比如：之前百度高考，教考生填報志愿，就是這么弄的；

B）完成度（即，前文提過的“用戶任務(wù)達成率”）。由于任務(wù)型最后總要去調(diào)一個接口或者觸發(fā)什么東西來完成任務(wù)，所以可以計算多少人進入了這個對話單元，其中有多少人最后調(diào)了接口；

C）相關(guān)的，還有（每個任務(wù)）平均slot填入輪數(shù)或填充完整度。即，完成一個任務(wù)，平均需要多少輪，平均填寫了百分之多少的槽位slot。對于槽位的基礎(chǔ)知識介紹，可詳見《填槽與多輪對話 | AI產(chǎn)品經(jīng)理需要了解的AI技術(shù)概念》。

3）問答型

A）最終求助人工的比例（即，前文提過的“用戶任務(wù)達成率”相關(guān)）；

B）重復(fù)問同樣問題的比例；

C）“沒答案”之類的比例。

整體來說，行業(yè)一般PR宣傳時，會更多的提CPS。其他指標看起來可能相對太瑣碎或不夠高大上，但是，實際工作中，可能CPS更多是面向閑聊型對話系統(tǒng)，而其他的場景，可能更應(yīng)該從“效果”出發(fā)。比如，如果小孩子哭了，機器人能夠“哭聲安慰”，沒必要對話那么多輪次，反而應(yīng)該越少越好。

4、語料自然度和人性化的程度

目前對于這類問題，一般是使用人工評估的方式進行。這里的語料，通常不是單個句子，而是分為單輪的問答對或多輪的一個session。一般來講，評分范圍是1~5分：

1分或2分：完全答非所問，以及含有不友好內(nèi)容或不適合語音播報的特殊內(nèi)容；
3分：基本可用，問答邏輯正確；
4分：能解決用戶問題且足夠精煉；
5分：在4分基礎(chǔ)上，能讓人感受到情感及人設(shè)。

另外，為了消除主觀偏差，采用多人標注、去掉極端值的方式，是當前普遍的做法。

五、整體用戶數(shù)據(jù)指標

常規(guī)互聯(lián)網(wǎng)產(chǎn)品，都會有整體的用戶指標；AI產(chǎn)品，一般也會有這個角度的考量。

1、DAU（Daily Active User，日活躍用戶數(shù)，簡稱“日活”）

在特殊場景會有變化，比如在車載場景，會統(tǒng)計“DAU占比（占車機DAU的比例）”。

2、被使用的意圖豐富度（使用率>X%的意圖個數(shù)）。

3、可嘗試通過用戶語音的情緒信息和語義的情緒分類評估滿意度。

尤其對于生氣的情緒檢測，這些對話樣本是可以挑選出來分析的。比如，有公司會統(tǒng)計語音中有多少是罵人的，以此大概了解用戶情緒。還比如，在同花順手機客戶端中，拉到最底下，有個一站式問答功能，用戶對它說“怎么登錄不上去”和說“怎么老是登錄不上去”，返回結(jié)果是不一樣的——后者，系統(tǒng)檢測到負面情緒，會提示轉(zhuǎn)接人工。

結(jié)語

本篇分享，介紹了現(xiàn)在行業(yè)內(nèi)對語音交互系統(tǒng)的常見評價指標，一方面，是提供給各位AI產(chǎn)品經(jīng)理以最接地氣的相關(guān)信息；另一方面，也是希望大家基于這些指標，打造出更好的產(chǎn)品體驗效果。

注：飯團“AI產(chǎn)品經(jīng)理大本營” ，是黃釗hanniman建立的、行業(yè)內(nèi)第一個“AI產(chǎn)品經(jīng)理成長交流社區(qū)”，通過每天干貨分享、每月線下交流、每季職位內(nèi)推等方式，幫助大家完成“AI產(chǎn)品經(jīng)理成長的實操路徑”，詳情可見 http://fantuan.guokr.net/groups/219/ 。

---------------------

作者：黃釗hanniman，圖靈機器人-人才戰(zhàn)略官，前騰訊產(chǎn)品經(jīng)理，5年AI實戰(zhàn)經(jīng)驗，8年互聯(lián)網(wǎng)背景，微信公眾號/知乎/在行ID“hanniman”，飯團“AI產(chǎn)品經(jīng)理大本營”，分享人工智能相關(guān)原創(chuàng)干貨，200頁PPT《人工智能產(chǎn)品經(jīng)理的新起點》被業(yè)內(nèi)廣泛好評，下載量1萬+。

愛盈利-運營小咖秀(www.jza6.com) 始終堅持研究分享移動互聯(lián)網(wǎng)App運營推廣經(jīng)驗、策略、全案、渠道等純干貨知識內(nèi)容；是廣大App運營從業(yè)者的知識啟蒙、成長指導、進階學習的集聚平臺；

想了解更多干貨知識，請關(guān)注公眾號運營小咖秀（ID: yunyingshow）

上一篇小程序丨【已解決】蘋果端可打電話，安桌端不可以

下一篇小程序丨【已解決】審核被拒，沒寫原因

關(guān)注

篇作品

總閱讀量

評論

相關(guān)文章推薦

女同應(yīng)用：這里的商業(yè)機會也許會更多

在國內(nèi)，Zank、Blued、G友等同志社交應(yīng)用最近拿到了大筆融資，這種粉紅經(jīng)濟正在帶動一個新的商業(yè)世界。在國外，男同性戀者也有自己的約會應(yīng)用Grindr、Jackd等。還有全球最大的同志媒體集團HereMedia旗下一系列同志網(wǎng)站或應(yīng)用等。猶太教的....
傳統(tǒng)日本游戲廠商是如何應(yīng)對手游浪潮的？

日本游戲廠商任天堂，從花牌做起，經(jīng)歷幾度沉浮，旗下有多經(jīng)典款游戲形象，包括馬里奧、大金剛、皮卡丘、林克等。由于在傳統(tǒng)游戲行業(yè)少有的長期保持著盈利，尤其霸占著掌機市場，所以在移動互聯(lián)網(wǎng)和手游興起之后，社長巖田聰仍然公開表示任天堂不會加入手游市場，這讓眾....
移動互聯(lián)網(wǎng)時代直播成電商營銷新趨勢

習慣于造節(jié)營銷的電商，在促銷乏力的時候，開始挖掘新的工具直播。從剛剛過去的618以及8月連環(huán)促銷看，直播幾乎成為電商促銷的標配。蘇寧在即將啟動的818發(fā)燒節(jié)期間，不僅要玩直播，還要通過粉絲經(jīng)濟打造新產(chǎn)業(yè)生態(tài)鏈條。電商大促商品來自天南地北，怎么匯聚在網(wǎng)....
盤點丨2019短視頻關(guān)鍵詞：新賽道、差異化、意料之外

在這一年不同平臺都在探索適合自身的發(fā)展路線，并盡可能地做到差異化，而這些探索或許也從根本改變目前的短視頻形態(tài)。2020年的新春假期，迎來了短視頻的集體爆發(fā)。前有快手與央視春晚合作、微視發(fā)放大額紅包，換來除夕夜產(chǎn)品下載量飆升，后有頭條系短視頻產(chǎn)品上線《....
微信小程序行業(yè)生態(tài)白皮書

微信小程序行業(yè)生態(tài)白皮書咫尺網(wǎng)絡(luò)-2017-08-1016:25摘要:雖然微信官方火力全開，不斷地更新開放微信小程序的各項功能權(quán)限，推動小程序的發(fā)展，但還是有很多人還是會問，微信小程序究竟有哪些應(yīng)用場景？哪些行業(yè)適合做小程序？開發(fā)和運營小程序可以使用....
WhatsApp等社交軟件到底怎么賺錢

當WhatsApp還在堅持著它的信息服務(wù)和免費廣告時，它的對手如Line，KakaoTalk和微信已經(jīng)在通過提供手機游戲以及公眾賬戶等方式，來爭奪著更多盈利的機會了。但要如何保證這種盈利的拓展不會減少它們作為社交媒體的吸引力，這無疑是一個重要的挑戰(zhàn)。....

推薦作者

更多

波波關(guān)注

愛盈利&運營小咖秀創(chuàng)始人
溪姐關(guān)注

APP推廣/直播短視頻運營專欄作者
劉瑋冬關(guān)注

運營的路上你從不孤單，因為我會和你一直站在一起。我是知名運營專家劉瑋冬，這是我的運營工作手記，希望你能從這里，讀懂運營。
出海筆記關(guān)注

海外推廣運營，實操干貨聚集地！國內(nèi)首家出海推廣運營學習交流平臺。微信公眾號：chuhaibiji。
半糖關(guān)注

深耕抖音運營、抖音營銷

愛盈利（aiyingli.com）是以運營、推廣為核心的學習、交流、分享平臺，集媒體、培訓、短視頻數(shù)據(jù)查詢?yōu)橐惑w，全方位服務(wù)于推廣和運營人，成立7年舉辦線上與線下沙龍300+場，平臺聚集了眾多知名互聯(lián)網(wǎng)公司運營大咖，愿大家在這里收獲成長

關(guān)于我們加入我們網(wǎng)站地圖

合作伙伴

微信公眾號

愛盈利服務(wù)號

運營小咖秀

京ICP備15063977號-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號