无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機(jī)號(hào)

注冊(cè)

忘記密碼

用戶協(xié)議

綁定手機(jī)號(hào)

近期有不法分子打著愛盈利的旗號(hào),制作“愛盈利”名稱的App,并偽造愛盈利證件,騙取用戶信任,以抖音點(diǎn)贊賺錢或其他方式賺錢為名義,過程中以升級(jí)會(huì)員獲得高傭金為名讓用戶充值。
愛盈利公司鄭重聲明:我司沒有研發(fā)或運(yùn)營過任何名為“愛盈利”的APP,我司做任務(wù)賺錢類產(chǎn)品從沒有讓任何普通用戶充值升級(jí)會(huì)員。我公司產(chǎn)品均在本網(wǎng)站可查詢,請(qǐng)將網(wǎng)站拉至底部,點(diǎn)擊“關(guān)于我們”可查看愛盈利相關(guān)產(chǎn)品與服務(wù)。
溫馨提示:當(dāng)遇到此類問題請(qǐng)撥打官方電話或添加官方微信,以免財(cái)產(chǎn)損失。愛盈利官網(wǎng)地址:www.jza6.com。
  • 推廣與合作
X

AI產(chǎn)品經(jīng)理必修課:NLP技術(shù)原理與應(yīng)用

來源:人人都是產(chǎn)品經(jīng)理 333645

本文簡單介紹了NLP的主要技術(shù)以及應(yīng)用領(lǐng)域,適合希望成為人工智能產(chǎn)品經(jīng)理的產(chǎn)品新人閱讀。

AI產(chǎn)品經(jīng)理必修課:NLP技術(shù)原理與應(yīng)用


一、前言
 

Google 2018年10月11日提出的BERT模型在11個(gè)NLP任務(wù)上的表現(xiàn)刷新了記錄(下圖),其中包括斯坦福大學(xué)著名的測(cè)試Question Answering(SQuAD v1.1),BERT在SQuAD全部兩個(gè)衡量指標(biāo)上超越了人類表現(xiàn)。

有人說這是自然語言理解領(lǐng)域幾個(gè)月來最重大的事件。Google BERT的出現(xiàn),被一些人認(rèn)為將改變NLP的研究模式。“這不是NLP的結(jié)束,甚至不是結(jié)束的開始。這可能是開始的結(jié)束。”有人借用丘吉爾的《The End of the Beginning》來形容這一突破的意義。

那么,什么是NLP,NLP又涉及了哪些技術(shù)?

AI產(chǎn)品經(jīng)理必修課:NLP技術(shù)原理與應(yīng)用

圖片來源:https://rajpurkar.github.io/SQuAD-explorer/


二、什么是NLP?
 

1. 什么是語言?

語言是指生物同類之間由于溝通需要而制定的指令系統(tǒng),語言與邏輯相關(guān),目前只有人類才能使用體系完整的語言進(jìn)行溝通和思想交流。

2. 什么是自然語言?

自然語言通常會(huì)自然地隨文化發(fā)生演化,英語、漢語、日語都是具體種類的自然語言,這些自然語言履行著語言最原始的作用:人們進(jìn)行交互和思想交流的媒介性工具。

  • 語音:與發(fā)音有關(guān)的學(xué)問,主要在語音技術(shù)中發(fā)揮作用。

  • 音韻:由語音組合起來的讀音,即漢語拼音和四聲調(diào)。

  • 詞態(tài):封裝了可用于自然語言理解的有用信息,其中信息量的大小取決于具體的語言種類。中文沒有太多的詞態(tài)變換,僅存在不同的偏旁,導(dǎo)致出現(xiàn)詞的性別轉(zhuǎn)換的情況。

  • 句法:主要研究詞語如何組成合乎語法的句子,句法提供單詞組成句子的約束條件,為語義的合成提供框架。

  • 語義和語用:自然語言所包含和表達(dá)的意思。

3. 什么是自然語言處理?

自然語言處理(Natural Language Processing,NLP):是計(jì)算機(jī)科學(xué),人工智能和語言學(xué)的交叉領(lǐng)域。目標(biāo)是讓計(jì)算機(jī)處理或“理解”自然語言,以執(zhí)行語言翻譯和問題回答等任務(wù)。

NLP包含自然語言理解(Natural Language Understanding,NLU) 和自然語言生成(Natural Language Generation, NLG)兩個(gè)重要方向,如下圖所示。

  • 自然語言理解NLU旨在將人的語言形式轉(zhuǎn)化為機(jī)器可理解的、結(jié)構(gòu)化的、完整的語義表示,通俗來講就是讓計(jì)算機(jī)能夠理解和生成人類語言。

  • 自然語言生成NLG旨在讓機(jī)器根據(jù)確定的結(jié)構(gòu)化數(shù)據(jù)、文本、音視頻等生成人類可以理解的自然語言形式的文本。

AI產(chǎn)品經(jīng)理必修課:NLP技術(shù)原理與應(yīng)用

4. 自然語言處理的難度

  • 自然語言千變?nèi)f化,沒有固定格式。同樣的意思可以使用多種句式來表達(dá),同樣的句子調(diào)整一個(gè)字、調(diào)整語調(diào)或者調(diào)整語序,表達(dá)的意思可能相差很多。

  • 不斷有新的詞匯出現(xiàn),計(jì)算機(jī)需要不斷學(xué)習(xí)新的詞匯。

  • 受語音識(shí)別準(zhǔn)確率的影響。

  • 自然語言所表達(dá)的語義本身存在一定的不確定性,同一句話在不同場景/語境下的語義可能完全不同。

  • 人類講話時(shí)往往出現(xiàn)不流暢、錯(cuò)誤、重復(fù)等現(xiàn)象,而對(duì)機(jī)器來說,在它理解一句話時(shí),這句話整體所表達(dá)的意思比其中每個(gè)詞的確切含義更加重要。
     

三、自然語言理解技術(shù)概述
 

1. 含義

自然語言理解以語言學(xué)為基礎(chǔ),融合邏輯學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科,通過對(duì)語法、語義、語用的分析,獲取自然語言的語義表示。

2. 自然語言理解技術(shù)概述

2.1 基于規(guī)則的方法

(1)指利用規(guī)則定義如何如何從文本中提取語義。大致思路是人工定義很多語法規(guī)則,它們是表達(dá)某種特定語義的具體方式,然后自然語言理解模塊根據(jù)這些規(guī)則解析輸入該模塊的文本。

(2)優(yōu)點(diǎn):靈活,可以定義各種各樣的規(guī)則,而且不依賴訓(xùn)練數(shù)據(jù);

(3)缺點(diǎn):需要大量的、覆蓋不同場景的規(guī)則,且隨著規(guī)則數(shù)量的增長,對(duì)規(guī)則進(jìn)行人工維護(hù)的難度也會(huì)增加。

(4)結(jié)論:只適合用在相對(duì)簡單的場景,其優(yōu)勢(shì)在于可以快速實(shí)現(xiàn)一個(gè)簡單可用的語義理解模塊。

2.2 基于統(tǒng)計(jì)的方法

(1)通常使用大量的數(shù)據(jù)訓(xùn)練模型,并使用訓(xùn)練所得的模型執(zhí)行各種上層語義任務(wù)。

(2)優(yōu)點(diǎn):數(shù)據(jù)驅(qū)動(dòng)且健壯性較好;

(3)缺點(diǎn):訓(xùn)練數(shù)據(jù)難以獲得且模型難以解釋和調(diào)參;

(4)通常使用數(shù)據(jù)驅(qū)動(dòng)的方法解決分類和序列標(biāo)注方法。

2.3 在具體實(shí)踐中,通常將這兩種方法結(jié)合起來使用

(1)沒有數(shù)據(jù)及數(shù)據(jù)較少時(shí)先采取基于規(guī)則的方法,當(dāng)數(shù)據(jù)積累到一定規(guī)模時(shí)轉(zhuǎn)為使用基于統(tǒng)計(jì)的方法。

(2)在一些基于統(tǒng)計(jì)的方法可以覆蓋絕大多數(shù)場景,在一些其覆蓋不到的場景中使用基于規(guī)則的方法兜底,以此來保證自然語言理解的效果。

2.4 應(yīng)用

(1)意圖識(shí)別

  • 實(shí)質(zhì):分類問題

  • 輸入:句子的文本特征

  • 輸出:句子文本特征所屬的意圖分類

  • 算法:SVM、AdaBoost算法等

(2)實(shí)體抽取

  • 實(shí)質(zhì):序列標(biāo)注

  • 輸入:句子的文本特征

  • 輸出:文本特征中的每個(gè)詞或每個(gè)字屬于某一實(shí)體的概率

  • 算法:隱馬爾可夫模型(hidden Markov model,HMM),條件隨機(jī)場(conditional random field,CRF)

注:當(dāng)數(shù)據(jù)量足夠大時(shí),使用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法處理意圖識(shí)別和實(shí)體抽取任務(wù)可以取得更好的效果。
 

四、自然語言理解基本技術(shù)
 

自然語言理解基本技術(shù)分為詞法分析、句法分析、語義分析三類。

1. 詞法分析

詞法分析包括分詞和詞性標(biāo)注。

1.1 分詞 word segmentation

(1)含義:中文不同于英文,其沒有自然分隔符(明顯的空格標(biāo)記),因此漢語自然語言處理的首要工作就是將輸入的字串切分為單獨(dú)的詞語。

(2)分詞方法:

A、基于詞表匹配的方法:會(huì)逐字對(duì)字符串進(jìn)行掃描,發(fā)現(xiàn)字符串的子串和詞表中的詞相同就算匹配。

常見方法:有正向最大匹配法、逆向最大匹配法、雙向掃描法和逐詞遍歷法。

常見的基于詞表的分詞工具:IKAnalyzer、庖丁解牛等。

B、基于統(tǒng)計(jì)模型的方法:根據(jù)人工標(biāo)注的詞性和統(tǒng)計(jì)特征對(duì)中文進(jìn)行建模,通過模型計(jì)算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。

常見算法:HMM、CRF

常見的基于統(tǒng)計(jì)模型的分詞工具:ICTCLAS、Stanford word segmenter等。深度學(xué)習(xí)興起后,長短期記憶網(wǎng)絡(luò)LSTM結(jié)合CRF的方法得到了快速發(fā)展。

1.2 詞性標(biāo)注

(1)含義:詞性是詞語最基礎(chǔ)的語法屬性之一,因此詞性標(biāo)注Part-Of-Speech Tagging,POS Tagging是詞法分析的一部分。

(2)目的是為句子中的每個(gè)詞賦予一個(gè)特定的類別,即為分詞結(jié)果中的每個(gè)單詞標(biāo)注詞性。

(3)最重要的詞性為名詞、動(dòng)詞、形容詞和副詞。

(4)模型:最初隱馬爾可夫、之后最大熵模型、支持向量機(jī)模型

(5)兩種方法:基于規(guī)則的方法、基于統(tǒng)計(jì)模型的方法

基于規(guī)則的詞性標(biāo)注:兼類詞搭配關(guān)系和上下文語境建造詞類消歧規(guī)則;

基于統(tǒng)計(jì)模型的詞性標(biāo)注:通過模型計(jì)算各類詞性出現(xiàn)的概率,將概率最大的詞性作為最終結(jié)果。

(6)常見方法:結(jié)構(gòu)感知器模型和條件隨機(jī)場模型。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,也提出了基于深層神經(jīng)網(wǎng)絡(luò)的詞性標(biāo)注方法。

(7)工具:standford log-linear part-of-speech tagger、哈工大的LTP工具等。

2. 句法分析

(1)含義:句法分析syntactic parsing的主要任務(wù)是對(duì)輸入的文本句子(字符串)進(jìn)行分析以得到句子句法結(jié)構(gòu)syntactic structure。

(2)原因:一方面是nlu任務(wù)自身的需求,另一方面可以為其他nlu任務(wù)提供支持。

(3)分類:根據(jù)句法結(jié)構(gòu)的不同表示形式,任務(wù)分為以下3類:

  • 依存句法分析dependency syntactic parsing,主要任務(wù)是識(shí)別句子中詞匯之間的相互依存關(guān)系。

  • 短語結(jié)構(gòu)句法分析phrase-structure syntactic parsing,也稱作為分句法分析constituent syntactic parsing,主要任務(wù)是識(shí)別句子中短語結(jié)構(gòu)和短語之間的層次句法關(guān)系。

  • 深層文法句法分析,主要任務(wù)是利用深層文法,對(duì)句子進(jìn)行深層的句法及語義分析,這些深層文法包括詞匯化樹鄰接文法、詞匯功能文法、組合范疇文法等。

3. 語義分析

(1)語義,指的是自然語言所包含的意義,在計(jì)算機(jī)科學(xué)領(lǐng)域,可以將語義理解為數(shù)據(jù)對(duì)應(yīng)的現(xiàn)實(shí)世界中的事物所代表概念的含義。

(2)語義分析semantic analysis,指運(yùn)用各種機(jī)器學(xué)習(xí)方法,讓機(jī)器學(xué)習(xí)與理解一段文本所表示的語義內(nèi)容。任何對(duì)語言的理解都可以歸為語義分析的范疇,涉及語言學(xué)、計(jì)算語言學(xué)、人工智能、機(jī)器學(xué)習(xí),甚至認(rèn)知語言。

(3)語義分析的最終目的是理解句子表達(dá)的真實(shí)含義。

  • 語義分析在機(jī)器翻譯任務(wù)中有重要應(yīng)用。

  • 基于語義的搜索一直是搜索追求的目標(biāo)。

  • 語義分析是實(shí)現(xiàn)大數(shù)據(jù)的理解與價(jià)值發(fā)現(xiàn)的有效手段。
     

五、三種常用的自然語言表示模型
 

1. 詞袋模型,bag of words,BOW

(1)含義:詞袋模型認(rèn)為文檔中任意位置出現(xiàn)的任何單詞,都與該文檔的語義無關(guān)。通過詞袋模型,一個(gè)文檔可以轉(zhuǎn)化為一個(gè)向量,向量中的每個(gè)元素表示詞典中相應(yīng)元素在文檔中出現(xiàn)的次數(shù)。

(2)優(yōu)點(diǎn):便于將源文檔模型化。

(3)缺點(diǎn):并沒有表達(dá)單詞在原來句子中出現(xiàn)的次序。

2. TF-IDF(term frequency-inverse document frequency,詞頻-逆文檔頻率)

(1)含義:是一種基于統(tǒng)計(jì)的加權(quán)方法,常用于信息檢索領(lǐng)域,用具體詞匯在文檔中出現(xiàn)的次數(shù)和該詞匯在語料中出現(xiàn)的次數(shù)兩個(gè)值評(píng)估該詞匯對(duì)相關(guān)文檔的重要程度。TF指某詞語在該文檔中出現(xiàn)的次數(shù),IDF是詞語普遍重要性的度量。

(2)用途:常被搜索引擎用來評(píng)估文檔與用戶查詢之間的相關(guān)程度。

(3)核心思想:在一篇文檔中出現(xiàn)頻率高且在其他文檔中很少出現(xiàn)的詞匯有較好的類別區(qū)分能力,適用于分檔分類。

3. 詞嵌入word embedding

(1)用詞嵌入表示單詞是將深度學(xué)習(xí)引入自然語言處理的核心技術(shù)之一。

(2)來源:欲在自然語言理解領(lǐng)域使用機(jī)器學(xué)習(xí)技術(shù),則需要找到一種合適的、將自然語言數(shù)學(xué)化的方法。

(3)方法:最初使用獨(dú)熱表示one hot representation,即使用詞表大小維度的向量描述單詞,每個(gè)向量中多數(shù)元素為0,只有該詞匯在詞表中對(duì)應(yīng)位置的維度為1。獨(dú)熱表示難以發(fā)現(xiàn)同義、反義等關(guān)系。

(4)詞嵌入法在基于獨(dú)熱表示法的基本思想的同時(shí),增加了單詞間的語義聯(lián)系,并降低了詞向量維度以避免維度災(zāi)難。
 

六、基于知識(shí)圖譜的自然語言理解
 

知識(shí)圖譜是知識(shí)表示與推理、數(shù)據(jù)庫、信息檢索、自然語言處理等多種技術(shù)發(fā)展和融合的產(chǎn)物。

更多關(guān)于知識(shí)圖譜的介紹可以查看筆者的另一篇文章:AI產(chǎn)品經(jīng)理必修課:知識(shí)圖譜的入門與應(yīng)用
 

七、自然語言生成NLG
 

1. 含義

自然語言生成作為人工智能和計(jì)算語言學(xué)的分支,其對(duì)應(yīng)的語言生成系統(tǒng)可以被看作基于語言信息處理的計(jì)算機(jī)模型,該模型從抽象的概念層次開始,通過選擇并執(zhí)行一定的語法和語義規(guī)則生成自然語言文本。

2. 自然語言生成和自然語言理解的異同

2.1 差異點(diǎn):

自然語言理解實(shí)際上是被分析的文本的結(jié)構(gòu)和語義逐步清晰的過程;自然語言生成的研究重點(diǎn)是確定哪些內(nèi)容是滿足用戶需要必須生成的,哪些內(nèi)容是冗余的。

2.2 相同點(diǎn):

(1)二者都需要利用詞典;

(2)二者都需要利用語法規(guī)則;

(3)二者都要解決指代、省略等語用問題。

3. 兩種架構(gòu)類型

3.1 流線型 pipeline

(1)含義:流線型的自然語言生成系統(tǒng)由幾個(gè)不同的模塊組成,每個(gè)模塊之間的交互僅限于輸入輸出,各模塊之間不透明、相互獨(dú)立。

(2)系統(tǒng)架構(gòu)

流線型的自然語言生成系統(tǒng)包括文本規(guī)劃、句子規(guī)劃、句法實(shí)現(xiàn)3個(gè)模塊。文本規(guī)劃決定說什么,句法實(shí)現(xiàn)決定怎么說,句子規(guī)劃負(fù)責(zé)讓句子更加連貫。

流程:文本規(guī)劃(交際目的、知識(shí)庫、規(guī)劃庫、用戶模型、話語歷史)、話語計(jì)劃、句子規(guī)劃(話語歷史、句子規(guī)劃規(guī)則)、句子計(jì)劃、句法實(shí)現(xiàn)(語法規(guī)則、詞典)、文本。

3.2 一體化型integrated

一體化型的自然語言生成系統(tǒng)是相互作用的,當(dāng)一個(gè)模塊內(nèi)部無法作出決策時(shí),后續(xù)模塊可以參與該模塊的決策。

3.3 兩類架構(gòu)的差異

一體化型的自然語言生成系統(tǒng)更符合人腦的思維過程,但是實(shí)現(xiàn)較為困難,現(xiàn)實(shí)中較常用的是流線型的自然語言生成系統(tǒng)。

4. 兩種對(duì)話生成技術(shù)

4.1 檢索式對(duì)話生成技術(shù)

通過排序技術(shù)和深度匹配技術(shù)在已有的對(duì)話語料庫中找到適合當(dāng)前輸入的最佳回復(fù)。局限性:僅能以固定的語言模式對(duì)用戶輸入進(jìn)行回復(fù),而無法實(shí)現(xiàn)詞語的多樣性組合,因此無法滿足回復(fù)多樣性要求。

4.2 生成式對(duì)話生成技術(shù)

代表性技術(shù)是從已有的“人-人”對(duì)話中學(xué)習(xí)語言的組合模式,是在一種類似機(jī)器翻譯中常用的“編碼-解碼”的過程中逐字或逐詞地生成回復(fù),生成的回復(fù)有可能是從未在語料庫中出現(xiàn)的、由聊天機(jī)器人自己“創(chuàng)造”的句子。

5. 自然語言生成的挑戰(zhàn)

  1. 涉及文法開發(fā),需要將文法結(jié)構(gòu)和應(yīng)用特有的語義表征相關(guān)聯(lián),但由于自然語言中存在海量的文法結(jié)構(gòu),造成搜索空間巨大,如何避免生成有歧義輸出成了一個(gè)有挑戰(zhàn)的問題。

  2. 由于語言的上下文敏感性,生成語言時(shí)如何整合包括時(shí)間、地點(diǎn)、位置、用戶信息等在內(nèi)的上下文信息也是一個(gè)難題。

  3. 基于深度學(xué)習(xí)技術(shù)生成回復(fù)的對(duì)話模型很難解釋,也很難被人類理解,只能通過更好的語料和參數(shù)調(diào)整來改善對(duì)話模型。

6. 三種自然語言生成方式

6.1 基于檢索的自然語言生成

基于檢索的自然語言生成并不是如字面意思一樣生成自然語言,更多是在已有的對(duì)話語料中檢索出合適的回復(fù)。

優(yōu)點(diǎn):實(shí)現(xiàn)相對(duì)簡單、容易部署美因茨在實(shí)際工程中得到了大量的應(yīng)用。

缺點(diǎn):依賴于對(duì)話庫、回復(fù)不夠靈活等

6.2 基于模板的自然語言生成

自然語言生成模板由句子sentence模板,詞匯word模版組成。句子模版包含若干個(gè)含有變量的句子,詞匯模板則是句子模塊中的變量對(duì)應(yīng)的所有可能的值。

6.3 基于深度學(xué)習(xí)的自然語言生成
 

八、NLP在聊天機(jī)器人中的應(yīng)用
 

1. NLP應(yīng)用概覽

NLP作為人工智能的核心技術(shù),在機(jī)器翻譯、聊天機(jī)器人、語音識(shí)別等領(lǐng)域都有重要的應(yīng)用。

機(jī)器翻譯的代表如科大訊飛的翻譯機(jī);聊天機(jī)器人例如微軟小冰、Amazon Alexa;語音識(shí)別如各種智能音箱。

AI產(chǎn)品經(jīng)理必修課:NLP技術(shù)原理與應(yīng)用

NLP主要應(yīng)用領(lǐng)域,圖片來源:stateoftheart.ai

2. 聊天機(jī)器人的分類與應(yīng)用場景

聊天機(jī)器人作為NLP應(yīng)用的重點(diǎn)產(chǎn)品之一,可以按不同維度進(jìn)行細(xì)分。

  1. 基于應(yīng)用場景的聊天機(jī)器人分類:在線客服、娛樂、教育、個(gè)人助理、智能問答類。

  2. 基于實(shí)現(xiàn)方式的聊天機(jī)器人分類:檢索式和生成式。

  3. 基于功能的聊天機(jī)器人分類:問答系統(tǒng)、面向任務(wù)的對(duì)話系統(tǒng)、閑聊系統(tǒng)和主動(dòng)推薦系統(tǒng)。

3. 聊天機(jī)器人系統(tǒng)框架

一個(gè)完整聊天機(jī)器人的系統(tǒng)架構(gòu)主要由語言識(shí)別、自然語言理解、對(duì)話管理、自然語言生成、語音合成等5個(gè)部分組成。

  1. 自動(dòng)語音識(shí)別automatic speech recognition,ASR,負(fù)責(zé)將原始的語音信號(hào)轉(zhuǎn)換成文本信息。

  2. 自然語言理解natural language understanding,NLU,負(fù)責(zé)將識(shí)別到的文本信息轉(zhuǎn)換為機(jī)器可以理解的語義表示。

  3. 對(duì)話管理dialogue management,DM,負(fù)責(zé)基于當(dāng)前對(duì)話的狀態(tài)判斷系統(tǒng)應(yīng)該采取怎樣的動(dòng)作。

  4. 自然語言生成natural language generation,NLG,負(fù)責(zé)將系統(tǒng)動(dòng)作/系統(tǒng)回復(fù)轉(zhuǎn)變成自然語言文本。

  5. 語音合成text-to-speech,TTS,負(fù)責(zé)將自然語言文本轉(zhuǎn)變成語音信號(hào)輸出給用戶。

4. 聊天機(jī)器人的典型代表

  1. 硬件形態(tài):amazon echo、公子小白。

  2. 軟件形態(tài):Apple Siri、微軟小冰、微軟cortana、IBM watson、Google Now。

  3. 平臺(tái):谷歌、微軟等公司對(duì)外提供聊天機(jī)器人框架bot framework,以sdk或saas服務(wù)的方式像第三方公司或個(gè)人開發(fā)者提供可以用于構(gòu)建特定應(yīng)用和領(lǐng)域的聊天機(jī)器人。代表:amazon Alexa(服務(wù)amazon lex)、微軟luis with bot(認(rèn)知服務(wù)cognitive services)、谷歌api.ai、Facebook wit.ai。

5. 聊天機(jī)器人的技術(shù)原理

常見的聊天機(jī)器人系統(tǒng)包括問答系統(tǒng)、面向任務(wù)的對(duì)話系統(tǒng)、閑聊系統(tǒng)、主動(dòng)推薦系統(tǒng)。

問答系統(tǒng)

QA問答系統(tǒng)偏重于問句分析,旨在獲取問句的主題詞、問題詞、中心動(dòng)詞。主要采取模板匹配和語義理解兩種方式。

面向任務(wù)的對(duì)話系統(tǒng)

通過對(duì)話管理(重點(diǎn))和跟蹤當(dāng)前的對(duì)話狀態(tài),進(jìn)而明確用戶的目的和需求。聚焦于將用戶輸入的自然語言映射為用戶的意圖和相應(yīng)的槽位值。

閑聊系統(tǒng)

針對(duì)用戶沒有特定目的、沒有具體需求情況下的多輪人機(jī)對(duì)話,重點(diǎn)是對(duì)話管理(上下多輪交互)和自然語言理解兩個(gè)模塊。

主動(dòng)推薦系統(tǒng)

處于起步階段,是人機(jī)自然交互的關(guān)鍵一環(huán),其作用更多是體現(xiàn)聊天機(jī)器人的認(rèn)知能力。

6. 聊天機(jī)器人系統(tǒng)中的自然語言理解模塊

聊天機(jī)器人系統(tǒng)中的自然語言理解模塊主要包括:實(shí)體識(shí)別named entity recognition、用戶意圖識(shí)別、用戶情感識(shí)別、指代消解、省略恢復(fù)、回復(fù)確認(rèn)及拒識(shí)判斷等。

  1. 實(shí)體識(shí)別:指識(shí)別自然語言中具有特定意義的實(shí)體,如人名、時(shí)間、地名及各種專有名詞。

  2. 用戶意圖識(shí)別:包括顯式意圖和隱式意圖,前者通常對(duì)應(yīng)一個(gè)明確的用戶需求,后者較難判斷。

  3. 情感識(shí)別:與用戶意圖類似,也分為顯式和隱式。

  4. 指代消解:指聊天主題背景一致的情況下,人們?cè)趯?duì)話過程中通常會(huì)習(xí)慣性地使用代詞指代出現(xiàn)過的某個(gè)實(shí)體或事件,或者為了方便表述省略句子部分成分的情況。

  5. 省略恢復(fù):自然語言理解模塊需要明確代詞指代的成分和句子中的省略的成分,唯有如此,聊天機(jī)器人才能正確理解用戶的輸入,給出合乎上下文語義的回復(fù)。

  6. 回復(fù)確認(rèn):當(dāng)用戶意圖、聊天信息等帶有一定的模糊性時(shí),需要聊天機(jī)器人主動(dòng)向用戶詢問,確認(rèn)用戶的意圖。

  7. 拒識(shí)判斷:指聊天機(jī)器人系統(tǒng)應(yīng)當(dāng)具備一定的拒識(shí)能力,主動(dòng)拒絕識(shí)別及回復(fù)超出自身理解/回復(fù)范圍或者涉及敏感話題的用戶輸入。


參考資料:

1、參考書籍:

《自然語言處理實(shí)踐—聊天機(jī)器人技術(shù)原理與應(yīng)用》,王昊奮,邵浩等

《人工智能產(chǎn)品經(jīng)理:人機(jī)對(duì)話系統(tǒng)設(shè)計(jì)邏輯探究》,朱鵬臻

2、NLP相關(guān)重要會(huì)議:

ACL、COLING、LREC、AAAI

3、相關(guān)網(wǎng)址:

中國科學(xué)院計(jì)算技術(shù)研究所·數(shù)字化室&軟件室:http://www.nlp.org.cn/

北大計(jì)算語言所:http://icl.pku.edu.cn/

麻省理工人工智能實(shí)驗(yàn)室:http://www.csail.mit.edu/index.php

哈工大:http://ltp.ai/

復(fù)旦知識(shí)工廠:http://kw.fudan.edu.cn/

 

本文由 @Alan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

愛盈利-運(yùn)營小咖秀(www.jza6.com) 始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識(shí)內(nèi)容;是廣大App運(yùn)營從業(yè)者的知識(shí)啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺(tái);

想了解更多移動(dòng)互聯(lián)網(wǎng)干貨知識(shí),請(qǐng)關(guān)注微信公眾號(hào)運(yùn)營小咖秀(ID: yunyingshow)

【轉(zhuǎn)載說明】   若上述素材出現(xiàn)侵權(quán),請(qǐng)及時(shí)聯(lián)系我們刪除及進(jìn)行處理:[email protected]

評(píng)論

相關(guān)文章推薦

SELECT dw_posts.ID,dw_posts.post_title,dw_posts.post_content FROM dw_posts INNER JOIN dw_term_relationships ON (dw_posts.ID = dw_term_relationships.object_id) WHERE 1=1 AND(dw_term_relationships.term_taxonomy_id = 3083 ) AND dw_posts.post_type = 'post' AND (dw_posts.post_status = 'publish') GROUP BY dw_posts.ID ORDER BY RAND() LIMIT 0, 6

京ICP備15063977號(hào)-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號(hào)