无码日韩精品一区二区三区浪潮_99国产精品久久久久9999高清_亚洲熟妇无码久久观看_亚洲a∨无码一区二区猫咪

微信掃碼登錄

其他登錄方式

綁定手機(jī)號(hào)

注冊(cè)

忘記密碼

用戶協(xié)議

綁定手機(jī)號(hào)

近期有不法分子打著愛(ài)盈利的旗號(hào),制作“愛(ài)盈利”名稱的App,并偽造愛(ài)盈利證件,騙取用戶信任,以抖音點(diǎn)贊賺錢(qián)或其他方式賺錢(qián)為名義,過(guò)程中以升級(jí)會(huì)員獲得高傭金為名讓用戶充值。
愛(ài)盈利公司鄭重聲明:我司沒(méi)有研發(fā)或運(yùn)營(yíng)過(guò)任何名為“愛(ài)盈利”的APP,我司做任務(wù)賺錢(qián)類產(chǎn)品從沒(méi)有讓任何普通用戶充值升級(jí)會(huì)員。我公司產(chǎn)品均在本網(wǎng)站可查詢,請(qǐng)將網(wǎng)站拉至底部,點(diǎn)擊“關(guān)于我們”可查看愛(ài)盈利相關(guān)產(chǎn)品與服務(wù)。
溫馨提示:當(dāng)遇到此類問(wèn)題請(qǐng)撥打官方電話或添加官方微信,以免財(cái)產(chǎn)損失。愛(ài)盈利官網(wǎng)地址:www.jza6.com。
  • 推廣與合作
X

AI產(chǎn)品經(jīng)理,如何從零開(kāi)始打造專業(yè)領(lǐng)域的停用詞庫(kù)

來(lái)源:老張 331249
在SEO中,為節(jié)省存儲(chǔ)空間和提高搜索效率,搜索引擎在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略某些字或詞,這些字或詞即被稱為停用詞。那么對(duì)于AI產(chǎn)品經(jīng)理來(lái)說(shuō),要如何從零開(kāi)始打造專業(yè)領(lǐng)域的停用詞庫(kù)?
人工智能領(lǐng)域有三大基礎(chǔ):數(shù)據(jù)、計(jì)算力和算法,只有有了數(shù)據(jù),才會(huì)有數(shù)據(jù)智能,有了數(shù)據(jù)才能描繪用戶精準(zhǔn)畫(huà)像,從而進(jìn)行豐富的個(gè)性化推薦、精準(zhǔn)營(yíng)銷。計(jì)算力現(xiàn)在各家體力相當(dāng),沒(méi)有多大差別,而好的算法卻能夠讓你的AI產(chǎn)品更加智能。 在智能客服、垂直行業(yè)的AI助手:法律、金融、體育、醫(yī)療健康、智能語(yǔ)音助手領(lǐng)域,如何從零打造自己的停用詞庫(kù)是一個(gè)產(chǎn)品經(jīng)理必備技能?

什么是停用詞

停用詞(Stop Words) ,詞典譯為“電腦檢索中的虛字、非檢索用字”。在SEO中,為節(jié)省存儲(chǔ)空間和提高搜索效率,搜索引擎在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。 停用詞一定程度上相當(dāng)于過(guò)濾詞(Filter Words),不過(guò)過(guò)濾詞的范圍更大一些,包含黃色、政治等敏感信息的關(guān)鍵詞都會(huì)被視做過(guò)濾詞加以處理,停用詞本身則沒(méi)有這個(gè)限制。通常意義上,停用詞(Stop Words)大致可分為如下兩類: (1)使用十分廣泛,甚至是過(guò)于頻繁的一些單詞。比如英文的“i”、“is”、“what”,中文的“我”、“就”之類詞幾乎在每個(gè)文檔上均會(huì)出現(xiàn),查詢這樣的詞搜索引擎就無(wú)法保證能夠給出真正相關(guān)的搜索結(jié)果,難于縮小搜索范圍提高搜索結(jié)果的準(zhǔn)確性,同時(shí)還會(huì)降低搜索的效率。 因此,在真正的工作中,Google和百度等搜索引擎會(huì)忽略掉特定的常用詞,在搜索的時(shí)候,如果我們使用了太多的停用詞,也同樣有可能無(wú)法得到非常精確的結(jié)果,甚至是可能大量毫不相關(guān)的搜索結(jié)果。 (2)文本中出現(xiàn)頻率很高,但實(shí)際意義又不大的詞。這一類主要包括了語(yǔ)氣助詞、副詞、介詞、連詞等,通常自身并無(wú)明確意義,只有將其放入一個(gè)完整的句子中才有一定作用的詞語(yǔ)。如常見(jiàn)的“的”、“在”、“和”、“接著”之類,比如:“AI產(chǎn)品經(jīng)理總舵是AI產(chǎn)品經(jīng)理的匯集地”這句話中的“是”、“的”就是兩個(gè)停用詞。

為什么要建停用詞庫(kù)

文本中如果大量使用停用詞容易對(duì)聊天對(duì)話中的有效信息造成噪音干擾,所以QA搜索引擎在運(yùn)算之前都要對(duì)所索引的信息進(jìn)行消除噪音的處理。了解了停用詞,在對(duì)話語(yǔ)料內(nèi)容中適當(dāng)?shù)販p少停用詞出現(xiàn)的頻率,可以有效地提高關(guān)鍵詞密度,使得自然語(yǔ)言理解過(guò)程中的意圖識(shí)別和語(yǔ)義匹配更加準(zhǔn)確。 所以搭建專業(yè)領(lǐng)域的停用詞庫(kù),對(duì)處理專業(yè)語(yǔ)料庫(kù)及用戶問(wèn)題的意圖識(shí)別及語(yǔ)義匹配的準(zhǔn)確性會(huì)有很大提高。

如何搭建專業(yè)停用詞庫(kù)

1. 匯總通用停用詞庫(kù)

  • 標(biāo)點(diǎn)符號(hào):,。、?“”等
  • 語(yǔ)氣詞:呵呵 嗚嗚 哈 呸等
  • 指代詞:我 你 各位等
  • 連接詞:即使 即便 卻 或等
  • 總結(jié)詞:總的來(lái)說(shuō) 再者說(shuō) 何樂(lè)不為等
  • 英文詞:yourself?yes?who等
現(xiàn)在網(wǎng)上有一些通用停用詞庫(kù),例如:百度停用詞列表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)、哈工大停用詞表等,整理去重后有2428條。但是每個(gè)領(lǐng)域有專業(yè)語(yǔ)言特色,特別是金融領(lǐng)域醫(yī)藥領(lǐng)域和法律領(lǐng)域,如果能夠加上專業(yè)停用詞做補(bǔ)充,那樣識(shí)別和匹配結(jié)果效果會(huì)更好。

2. 篩選行業(yè)專有停用詞

以保險(xiǎn)行業(yè)為例,首先通過(guò)網(wǎng)絡(luò)搜集保險(xiǎn)行業(yè)問(wèn)答QA語(yǔ)料,如下圖所示: AI產(chǎn)品經(jīng)理,如何從零開(kāi)始打造專業(yè)領(lǐng)域的停用詞庫(kù) 將QA分別做分詞處理,然后統(tǒng)計(jì)詞頻按數(shù)量排序,如下圖所示: AI產(chǎn)品經(jīng)理,如何從零開(kāi)始打造專業(yè)領(lǐng)域的停用詞庫(kù) 將該數(shù)據(jù)和通用停用詞做去重后,人工篩選行業(yè)專有停用詞。將篩選完成的專業(yè)專有停用詞和通用停用詞合并,就構(gòu)成了保險(xiǎn)行業(yè)的專有停用詞庫(kù)了。

AI產(chǎn)品經(jīng)理的極致理論

AI產(chǎn)品已經(jīng)進(jìn)入精細(xì)化設(shè)計(jì)階段,因?yàn)閷?duì)話型機(jī)器人產(chǎn)品特性原因,輸入輸出的極度簡(jiǎn)單,也就造成了處理過(guò)程的極度復(fù)雜。一個(gè)對(duì)話型機(jī)器人系統(tǒng)包含了近二十項(xiàng)技術(shù)模塊,每個(gè)模塊都會(huì)影響最終輸出的結(jié)果,只有把顆粒度分的足夠細(xì)小,在每一個(gè)顆粒度上做到“好一點(diǎn)”,才能使得最終結(jié)有明顯提升。 小米產(chǎn)品里有一個(gè)極致思維,估計(jì)大家都聽(tīng)過(guò)木桶理論,說(shuō)是一個(gè)木桶,能裝多少水,取決于拼湊這個(gè)木桶所有的木板最短的那塊。然而在AI產(chǎn)品已經(jīng)普及(例如智能音箱),避免出現(xiàn)短板,已經(jīng)不是最大的難題了。 難題是什么呢? 如何提高每一塊板的高度,這時(shí)候就需要用到極致思維。就是說(shuō)怎么在每一塊板子上下功夫,把每一塊板子都做到極致。 舉個(gè)例子:IPod剛出來(lái)的時(shí)候和其他MP3最大的區(qū)別是什么呢?是在機(jī)器里面加了一個(gè)小硬盤(pán),能存上千首歌。連續(xù)播放幾天集不重樣,就因?yàn)檫@一點(diǎn)做到了極致,迅速占領(lǐng)了音樂(lè)播放器市場(chǎng)。小米產(chǎn)品能夠迅速占領(lǐng)市場(chǎng),是因?yàn)樗麅?yōu)化了整個(gè)供應(yīng)鏈系統(tǒng),才有了物美價(jià)廉的產(chǎn)品。

AI產(chǎn)品經(jīng)理要有數(shù)據(jù)信仰

AI產(chǎn)品要堅(jiān)信,未來(lái)的技術(shù)及產(chǎn)品的底層智能是數(shù)據(jù)智能,數(shù)據(jù)是一切運(yùn)算及邏輯的本質(zhì)基礎(chǔ),具備數(shù)據(jù)信仰才能做好AI產(chǎn)品。數(shù)據(jù)是基礎(chǔ),算法是路徑,具備了足夠干凈的數(shù)據(jù)和合適的算法,才會(huì)有更準(zhǔn)確的結(jié)果。 這里說(shuō)的算法不僅僅指的工程師寫(xiě)出來(lái)的算法,那只是狹義的算法,我所說(shuō)的是廣義的算法,既包括產(chǎn)品經(jīng)理的做事的前后順序及做事方法,一切選擇都會(huì)對(duì)結(jié)果造成影響,一切影響都會(huì)左右最終結(jié)果,這里不做價(jià)值判斷。 AI產(chǎn)品經(jīng)理在工作中要有數(shù)據(jù)信仰,多做數(shù)據(jù)判斷,少做主觀判斷,這樣最終結(jié)果才不會(huì)和預(yù)期有太大偏差。 雷軍曾經(jīng)說(shuō)過(guò),要想知道產(chǎn)品的迭代方向,不是產(chǎn)品經(jīng)理拍腦門(mén)想出來(lái)的,也不是通過(guò)客服反映出來(lái)的,客服反映的只是愿意表達(dá)的那部分用戶的需求,而不是全部用戶的需求,就像是現(xiàn)在的一些論壇,看帖的用戶數(shù)是發(fā)帖用戶數(shù)的十倍以上,所有帖子中熱帖數(shù)量只占到所有帖子數(shù)量的1%。 也就是說(shuō)論壇其實(shí)是1000個(gè)人在聽(tīng)1個(gè)人講話,甚至更低,而這一個(gè)人根本不能代表1000個(gè)人的需求。 數(shù)據(jù)信仰就是要去看數(shù)據(jù)的本質(zhì),透過(guò)數(shù)據(jù)本質(zhì)才能找到更好的算法。中國(guó)漢字有4萬(wàn)個(gè),常用的只有3500個(gè),常用對(duì)話句式有10W條,但是抽離出來(lái)的停用詞也就不到2500個(gè)。   作者:老張,宜信集團(tuán)保險(xiǎn)事業(yè)部智能保險(xiǎn)產(chǎn)品負(fù)責(zé)人,運(yùn)營(yíng)軍師聯(lián)盟創(chuàng)始人之一,《運(yùn)營(yíng)實(shí)戰(zhàn)手冊(cè)》作者之一。  

愛(ài)盈利-運(yùn)營(yíng)小咖秀(www.jza6.com) 始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App運(yùn)營(yíng)推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識(shí)內(nèi)容;是廣大App運(yùn)營(yíng)從業(yè)者的知識(shí)啟蒙、成長(zhǎng)指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺(tái);

想了解更多移動(dòng)互聯(lián)網(wǎng)干貨知識(shí),請(qǐng)關(guān)注微信公眾號(hào)運(yùn)營(yíng)小咖秀(ID: yunyingshow)

【轉(zhuǎn)載說(shuō)明】   若上述素材出現(xiàn)侵權(quán),請(qǐng)及時(shí)聯(lián)系我們刪除及進(jìn)行處理:[email protected]

評(píng)論

相關(guān)文章推薦

SELECT dw_posts.ID,dw_posts.post_title,dw_posts.post_content FROM dw_posts INNER JOIN dw_term_relationships ON (dw_posts.ID = dw_term_relationships.object_id) WHERE 1=1 AND(dw_term_relationships.term_taxonomy_id = 6593 ) AND dw_posts.post_type = 'post' AND (dw_posts.post_status = 'publish') GROUP BY dw_posts.ID ORDER BY RAND() LIMIT 0, 6

京ICP備15063977號(hào)-2 ? 2012-2018 aiyingli.com. All Rights Reserved. 京公網(wǎng)安備 11010102003938號(hào)