色欲香天天综合网站,亚洲AV优女天堂熟女,色一情一乱一伦一区二区三欧美,日本久久综合久久综合

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探

導(dǎo)讀 隨著AI技術(shù)的發(fā)展,智能語(yǔ)音交互技術(shù)也得到了巨大的發(fā)展和應(yīng)用。由于語(yǔ)音是最自然的交互形態(tài)之一,有著輸入效率高、門(mén)檻低、方便解放雙手以及能有效進(jìn)行情感交流的優(yōu)勢(shì),使得智能音箱成為語(yǔ)音交互...

導(dǎo)讀

隨著AI技術(shù)的發(fā)展,智能語(yǔ)音交互技術(shù)也得到了巨大的發(fā)展和應(yīng)用。由于語(yǔ)音是最自然的交互形態(tài)之一,有著輸入效率高、門(mén)檻低、方便解放雙手以及能有效進(jìn)行情感交流的優(yōu)勢(shì),使得智能音箱成為語(yǔ)音交互的典型應(yīng)用產(chǎn)品。智能音箱的背后是一套智能語(yǔ)音交互系統(tǒng)平臺(tái),由于筆者最近參與了公司內(nèi)的智能語(yǔ)義平臺(tái)與智能音箱的測(cè)試開(kāi)發(fā)項(xiàng)目,對(duì)這一系統(tǒng)有了基本的認(rèn)知和理解,本文就語(yǔ)音交互平臺(tái)的相關(guān)概念和基本測(cè)試指標(biāo)進(jìn)行一下講解和介紹。

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖

一個(gè)完整的語(yǔ)音交互流程

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖1
智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖2

如下圖所示,一次完整的語(yǔ)音交互,包含:?jiǎn)拘选鶤SR→NLP→TTS→Skill的流程。

下面主要對(duì)系統(tǒng)中的主要流程進(jìn)行講解。

喚醒

喚醒即激活音箱設(shè)備,智能音箱有別于智能手機(jī)的語(yǔ)音交互,需要先激活音箱,激活的辦法有兩類。

傳統(tǒng)的方式是**:**通過(guò)按鍵激活,例如:錘子的大衛(wèi)和Siri音箱,增加了外設(shè)的按鈕,可以點(diǎn)擊按鈕激活音箱進(jìn)行說(shuō)話。

業(yè)界的普遍做法是**:**通過(guò)設(shè)置激活詞來(lái)喚醒音箱,例如:“小寶小寶”,“小愛(ài)同學(xué)”,“小雅小雅”。

為什么喚醒詞普遍是4音節(jié),而不是中國(guó)人更習(xí)慣的3音節(jié)或者2音節(jié)?

這是因?yàn)橐艄?jié)越短,誤喚醒的問(wèn)題就會(huì)越嚴(yán)重。

**誤喚醒是指:**設(shè)備被環(huán)境音錯(cuò)誤激活。

誤喚醒的壓制是行業(yè)難題,除了模型優(yōu)化,還有幾種普遍的做法:

01

云端2次校驗(yàn)——即將用戶的語(yǔ)音上傳到云端進(jìn)行2次確認(rèn),再?zèng)Q定本地是否響應(yīng),但是帶來(lái)的弊端就是喚醒響應(yīng)時(shí)間被拉長(zhǎng)。

一般設(shè)備的喚醒檢測(cè)模塊都是放在本地的,這是為了可以快速響應(yīng),本地響應(yīng)可以將響應(yīng)時(shí)間控制在300-700ms之間。如果進(jìn)行云端2次確認(rèn),這個(gè)識(shí)別降低喚醒的響應(yīng)時(shí)長(zhǎng),會(huì)被延長(zhǎng)到900ms~1.2S之間,如果網(wǎng)絡(luò)環(huán)境差,這個(gè)時(shí)間可能更久。

02

從產(chǎn)品策略入手。一般白天偶爾的誤喚醒用戶都是可以理解的,或者說(shuō)習(xí)以為常了。但是,如果是晚上睡覺(jué)時(shí)發(fā)生誤喚醒,用戶都是零容忍。

因此,一種做法是壓制晚上的誤喚醒,帶來(lái)的問(wèn)題是晚上喚醒的敏感度也同步降低,但是整體來(lái)看還是可以接受的。

喚醒詞還承載了另外一個(gè)功能那就是聲紋檢測(cè)。業(yè)內(nèi)的普遍做法是基于喚醒詞的校對(duì)來(lái)判斷用戶身份,當(dāng)然也有基于用戶指令語(yǔ)句來(lái)識(shí)別的。

但是,目前業(yè)內(nèi)普遍聲紋識(shí)別的準(zhǔn)確率不是特別高,當(dāng)用戶感冒、變音調(diào),聲紋識(shí)別就會(huì)失效,因此聲紋在智能音箱的應(yīng)用就非常受限。除了聲紋支付,只能應(yīng)用于對(duì)召回率要求不高的應(yīng)用場(chǎng)景。

首先紹下語(yǔ)音喚醒(Voice Trigger,VT)的相關(guān)信息。

A、語(yǔ)音喚醒的需求背景

近場(chǎng)識(shí)別時(shí),比如使用語(yǔ)音輸入法時(shí),用戶可以按住手機(jī)上siri的語(yǔ)音按鈕,直接說(shuō)話(結(jié)束之后松開(kāi));近場(chǎng)情況下信噪比(Signal to Noise Ratio, SNR)比較高,信號(hào)清晰,簡(jiǎn)單算法也能做到有效可靠。

但是在遠(yuǎn)場(chǎng)識(shí)別時(shí),比如在智能音箱場(chǎng)景,用戶不能用手接觸設(shè)備,需要進(jìn)行語(yǔ)音喚醒,相當(dāng)于叫這個(gè)AI(機(jī)器人)的名字,引起ta的注意,比如蘋(píng)果的“Hey Siri”,Google的“OK Google”,亞馬遜Echo的“Alexa”等。

B、語(yǔ)音喚醒的含義

簡(jiǎn)單來(lái)說(shuō)是“喊名字,引起聽(tīng)者(AI)的注意”。如果語(yǔ)音喚醒判斷結(jié)果是正確的喚醒(激活)詞,那后續(xù)的語(yǔ)音就應(yīng)該被識(shí)別;否則,不進(jìn)行識(shí)別。

C、語(yǔ)音喚醒的相關(guān)指標(biāo)

1.喚醒率。叫AI的時(shí)候,ta成功被喚醒的比率。

2.誤喚醒率。沒(méi)叫AI的時(shí)候,ta自己跳出來(lái)講話的比率。如果誤喚醒比較多,特別是比如半夜時(shí),智能音箱突然開(kāi)始唱歌或講故事,會(huì)特別嚇人的……

3.喚醒詞的音節(jié)長(zhǎng)度。一般技術(shù)上要求,最少3個(gè)音節(jié),比如“OK Google”和“Alexa”有四個(gè)音節(jié),“Hey Siri”有三個(gè)音節(jié);國(guó)內(nèi)的智能音箱,比如小雅,喚醒詞是“小雅小雅”,而不能用“小雅”——如果音節(jié)太短,一般誤喚醒率會(huì)比較高。

4.喚醒響應(yīng)時(shí)間。一般1.5s到3s。超過(guò)3s就不能容忍了。

5.功耗(要低)。看過(guò)報(bào)道,說(shuō)iPhone 4s出現(xiàn)Siri,但直到iPhone 6s之后才允許不接電源的情況下直接喊“Hey Siri”進(jìn)行語(yǔ)音喚醒;這是因?yàn)橛?s上有一顆專門(mén)進(jìn)行語(yǔ)音激活的低功耗芯片,當(dāng)然算法和硬件要進(jìn)行配合,算法也要進(jìn)行優(yōu)化。

以上1、2、3相對(duì)更重要

D、其他

涉及AEC(語(yǔ)音自適應(yīng)回聲消除,Automatic Echo Cancellation)的,還要考察WER(詞錯(cuò)誤率,Word Error Rate)相對(duì)改善情況。

語(yǔ)音識(shí)別ASR

語(yǔ)音識(shí)別ASR(Automatic Speech Recognition)一般簡(jiǎn)稱ASR,是將聲音轉(zhuǎn)化為文字的過(guò)程,相當(dāng)于人類的耳朵。用于將聲學(xué)語(yǔ)音進(jìn)行分析,并得到對(duì)應(yīng)的文字或拼音信息。

語(yǔ)音識(shí)別系統(tǒng)一般分為:訓(xùn)練和解碼兩階段。

訓(xùn)練

通過(guò)大量標(biāo)注的語(yǔ)音數(shù)據(jù)訓(xùn)練數(shù)學(xué)模型,通過(guò)大量標(biāo)注的文本數(shù)據(jù)訓(xùn)練語(yǔ)言模型。

市場(chǎng)上主流的聲學(xué)訓(xùn)練模型有:時(shí)序連接分類(CTC)和卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN)。

解碼

通過(guò)聲學(xué)和語(yǔ)言模型將語(yǔ)音數(shù)據(jù)識(shí)別成文字。

聲學(xué)模型可以理解為是對(duì)發(fā)生的建模,它能夠把語(yǔ)音輸入轉(zhuǎn)換成聲學(xué)表示的輸入,更準(zhǔn)確的說(shuō)是給出語(yǔ)音屬于某個(gè)聲學(xué)符號(hào)的概率。

語(yǔ)言模型的作用可以簡(jiǎn)單理解為消解多音字問(wèn)題,在聲學(xué)模型給出發(fā)音序列之后,從候選的文字序列中找出概率最大的字符串序列。

為了提供特定內(nèi)容的識(shí)別率,一般都會(huì)提供熱詞服務(wù),配置的熱詞內(nèi)容實(shí)時(shí)生效,并且會(huì)提升ASR結(jié)果的識(shí)別權(quán)重,在一定程度上提高ASR識(shí)別的準(zhǔn)確率。

ASR還有一些其他的技術(shù)細(xì)節(jié)在實(shí)際應(yīng)用中起著關(guān)鍵作用:

**尋向/聲源定位:**一般音箱的設(shè)計(jì)都是多麥克風(fēng),例如:4麥、6麥,呈線性或環(huán)形布局。尋向的作用就是判斷用戶方向,然后用用戶方向的麥克風(fēng)采集語(yǔ)音數(shù)據(jù),保證語(yǔ)音的數(shù)據(jù)是最清晰的。

**降噪:**當(dāng)有環(huán)境音時(shí),需要對(duì)環(huán)境音進(jìn)行消除,提高算法識(shí)別準(zhǔn)確率。

**AEC:**回音消除,如果當(dāng)前設(shè)備既在使用Player進(jìn)行播放,同時(shí)又使用Mic進(jìn)行拾音,那Mic就會(huì)將自己播放出去的聲音給重拾回來(lái)。這時(shí)為了避免影響算法識(shí)別結(jié)果,需要對(duì)回音進(jìn)行消除。

**VAD:**語(yǔ)音端點(diǎn)檢查,使用音頻特征等進(jìn)行分析,確定人聲的開(kāi)始和結(jié)束時(shí)間點(diǎn)。

自然語(yǔ)言處理(理解)NLP(NLU)

自然語(yǔ)言理解就是將人的語(yǔ)言形式轉(zhuǎn)化為機(jī)器可理解的、結(jié)構(gòu)化的、完整的語(yǔ)義表示,通俗來(lái)講就是讓計(jì)算機(jī)能夠理解和生成人類語(yǔ)言。

將用戶的指令進(jìn)行Domain(領(lǐng)域)→Intent(意圖)→Slot(詞槽)三級(jí)拆分。

以“幫我設(shè)置一個(gè)明天早上8點(diǎn)的鬧鐘”為例:該指令命中的領(lǐng)域是“鬧鐘”,意圖是“新建鬧鐘”,詞槽是“明天8點(diǎn)”。

這樣,就將用戶的意圖拆分成機(jī)器可以處理的語(yǔ)言。

在NLU領(lǐng)域中涉及到兩個(gè)重要概念,也是評(píng)測(cè)系統(tǒng)好壞的重要指標(biāo)。

在這里簡(jiǎn)單介紹一下:準(zhǔn)確率和召回率。

**準(zhǔn)確率:**識(shí)別為正確的樣本數(shù)/識(shí)別出來(lái)的樣本數(shù)

**召回率:**識(shí)別為正確的樣本數(shù)/所有樣本中正確的數(shù)

舉個(gè)栗子:全班一共30名男生、20名女生。需要機(jī)器識(shí)別出男生的數(shù)量。本次機(jī)器一共識(shí)別出20名目標(biāo)對(duì)象,其中18名為男性,2名為女性。則

準(zhǔn)確率=18/(18+2)=0.9

召回率=18/30=0.6

再補(bǔ)充一個(gè)圖來(lái)解釋

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖3

技能Skill

Skiil,技能,也即AI時(shí)代的APP。

Skill的作用就是:處理NLP界定的用戶意圖,做出符合用戶預(yù)期的反饋。

語(yǔ)音skill的設(shè)計(jì)與產(chǎn)品APP差別很大,筆者經(jīng)過(guò)一段時(shí)間的積累,總結(jié)了一下測(cè)試原則供參考:

測(cè)試

原則

1

增加回復(fù)的多樣性——高頻的指令盡可能增加多的回復(fù)TTS語(yǔ)句,避免用戶反復(fù)聽(tīng)到相同的回復(fù);

2

重要信息后置——一般語(yǔ)音回復(fù)尤其是當(dāng)用戶在開(kāi)車的過(guò)程中,需要將重要信息放在后面,因?yàn)樾睦韺W(xué)上有個(gè)“時(shí)近效應(yīng)”,聽(tīng)覺(jué)刺激往往排在后面的影響力更大;

3

合理的簡(jiǎn)潔——用戶可感知時(shí)簡(jiǎn)潔回復(fù),用戶不可感知時(shí)完整回復(fù)。;

假如用戶指令“停止播放”,這時(shí)候只需一個(gè)提示音或者一個(gè)簡(jiǎn)答的回復(fù)“好的”。但是,如果用戶的指令是“幫我設(shè)置一個(gè)明天早上8點(diǎn)的鬧鐘”,回復(fù)就需要是完整的,例如:“已幫你設(shè)置好明天早上8點(diǎn)的鬧鐘”,否則用戶會(huì)沒(méi)安全感,不知道你設(shè)置的到底對(duì)不對(duì),如果不對(duì),那帶來(lái)的風(fēng)險(xiǎn)是很大的,所以一定要完整回復(fù)。

語(yǔ)音合成TTS

語(yǔ)音合成(Text-To-Speech),一般簡(jiǎn)稱TTS,是將文字轉(zhuǎn)化為聲音(朗讀出來(lái)),類比于人類的嘴巴。大家在Siri等各種語(yǔ)音助手中聽(tīng)到的聲音,都是由TTS來(lái)生成的,并不是真人在說(shuō)話。

TTS業(yè)內(nèi)普遍使用兩種做法:一種是拼接法,一種是參數(shù)法。

拼接法

從事先錄制的大量語(yǔ)音中,選擇所需的基本發(fā)音單位拼接而成。

**優(yōu)點(diǎn):**語(yǔ)音的自然度很好。

**缺點(diǎn):**成本太高,費(fèi)用成本要上百萬(wàn)。

參數(shù)法

使用統(tǒng)計(jì)模型來(lái)產(chǎn)生語(yǔ)音參數(shù)并轉(zhuǎn)化成波形。

**優(yōu)點(diǎn):**成本低,一般價(jià)格在20萬(wàn)~60萬(wàn)不等。

**缺點(diǎn):**發(fā)音的自然度沒(méi)有拼接法好。

但是隨著模型的不斷優(yōu)化,現(xiàn)在參數(shù)法的效果已經(jīng)非常好了,因此業(yè)內(nèi)使用參數(shù)法的越來(lái)越多。

對(duì)TTS的測(cè)試主要分主觀測(cè)試和客觀測(cè)試:

主觀測(cè)試

1.MOS(Mean Opinion Scores),專家級(jí)評(píng)測(cè)(主觀);1-5分,5分最好。

2.ABX,普通用戶評(píng)測(cè)(主觀)。讓用戶來(lái)視聽(tīng)兩個(gè)TTS系統(tǒng),進(jìn)行對(duì)比,看哪個(gè)好。

主觀測(cè)試以MOS為主。

客觀測(cè)試

1.對(duì)聲學(xué)參數(shù)進(jìn)行評(píng)估,一般是計(jì)算歐式距離等(RMSE,LSD)。

2.對(duì)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng)),流式分首包、尾包,非流式不考察首包;首包響應(yīng)時(shí)間(用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間)、內(nèi)存占用、CPU占用、3*24小時(shí)crash率等。

以上便是對(duì)智能音箱系統(tǒng)交互流程和測(cè)試指標(biāo)的簡(jiǎn)單介紹,希望對(duì)大家有所幫助。

聯(lián)系我們

聯(lián)系我們

0769-81627526

在線咨詢: QQ交談

郵箱: info@kingpo.hk

工作時(shí)間:周一至周五,9:00-17:30,節(jié)假日休息
關(guān)注微信
微信掃一掃關(guān)注我們

微信掃一掃關(guān)注我們

手機(jī)訪問(wèn)
手機(jī)掃一掃打開(kāi)網(wǎng)站

手機(jī)掃一掃打開(kāi)網(wǎng)站

返回頂部
宁蒗| 井陉县| 石嘴山市| 敦化市| 南华县| 昌黎县| 汪清县| 银川市| 法库县| 永登县| 温泉县| 永定县| 大竹县| 高平市|