色欲香天天综合网站,亚洲AV优女天堂熟女,色一情一乱一伦一区二区三欧美,日本久久综合久久综合

首頁(yè) 新聞智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探

admin • 2024年4月9日 • 61閱讀

導(dǎo)讀隨著AI技術(shù)的發(fā)展，智能語(yǔ)音交互技術(shù)也得到了巨大的發(fā)展和應(yīng)用。由于語(yǔ)音是最自然的交互形態(tài)之一，有著輸入效率高、門檻低、方便解放雙手以及能有效進(jìn)行情感交流的優(yōu)勢(shì)，使得智能音箱成為語(yǔ)音交互...

導(dǎo)讀

隨著AI技術(shù)的發(fā)展，智能語(yǔ)音交互技術(shù)也得到了巨大的發(fā)展和應(yīng)用。由于語(yǔ)音是最自然的交互形態(tài)之一，有著輸入效率高、門檻低、方便解放雙手以及能有效進(jìn)行情感交流的優(yōu)勢(shì)，使得智能音箱成為語(yǔ)音交互的典型應(yīng)用產(chǎn)品。智能音箱的背后是一套智能語(yǔ)音交互系統(tǒng)平臺(tái)，由于筆者最近參與了公司內(nèi)的智能語(yǔ)義平臺(tái)與智能音箱的測(cè)試開發(fā)項(xiàng)目，對(duì)這一系統(tǒng)有了基本的認(rèn)知和理解，本文就語(yǔ)音交互平臺(tái)的相關(guān)概念和基本測(cè)試指標(biāo)進(jìn)行一下講解和介紹。

一個(gè)完整的語(yǔ)音交互流程

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖1

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖2

如下圖所示，一次完整的語(yǔ)音交互，包含：?jiǎn)拘选鶤SR→NLP→TTS→Skill的流程。

下面主要對(duì)系統(tǒng)中的主要流程進(jìn)行講解。

喚醒

喚醒即激活音箱設(shè)備，智能音箱有別于智能手機(jī)的語(yǔ)音交互，需要先激活音箱，激活的辦法有兩類。

傳統(tǒng)的方式是**：**通過按鍵激活，例如:錘子的大衛(wèi)和Siri音箱，增加了外設(shè)的按鈕，可以點(diǎn)擊按鈕激活音箱進(jìn)行說話。

業(yè)界的普遍做法是**：**通過設(shè)置激活詞來喚醒音箱，例如:“小寶小寶”，“小愛同學(xué)”，“小雅小雅”。

為什么喚醒詞普遍是4音節(jié)，而不是中國(guó)人更習(xí)慣的3音節(jié)或者2音節(jié)？

這是因?yàn)橐艄?jié)越短，誤喚醒的問題就會(huì)越嚴(yán)重。

**誤喚醒是指：**設(shè)備被環(huán)境音錯(cuò)誤激活。

誤喚醒的壓制是行業(yè)難題，除了模型優(yōu)化，還有幾種普遍的做法：

云端2次校驗(yàn)——即將用戶的語(yǔ)音上傳到云端進(jìn)行2次確認(rèn)，再?zèng)Q定本地是否響應(yīng)，但是帶來的弊端就是喚醒響應(yīng)時(shí)間被拉長(zhǎng)。

一般設(shè)備的喚醒檢測(cè)模塊都是放在本地的，這是為了可以快速響應(yīng)，本地響應(yīng)可以將響應(yīng)時(shí)間控制在300-700ms之間。如果進(jìn)行云端2次確認(rèn)，這個(gè)識(shí)別降低喚醒的響應(yīng)時(shí)長(zhǎng)，會(huì)被延長(zhǎng)到900ms~1.2S之間，如果網(wǎng)絡(luò)環(huán)境差，這個(gè)時(shí)間可能更久。

從產(chǎn)品策略入手。一般白天偶爾的誤喚醒用戶都是可以理解的，或者說習(xí)以為常了。但是，如果是晚上睡覺時(shí)發(fā)生誤喚醒，用戶都是零容忍。

因此，一種做法是壓制晚上的誤喚醒，帶來的問題是晚上喚醒的敏感度也同步降低，但是整體來看還是可以接受的。

喚醒詞還承載了另外一個(gè)功能那就是聲紋檢測(cè)。業(yè)內(nèi)的普遍做法是基于喚醒詞的校對(duì)來判斷用戶身份，當(dāng)然也有基于用戶指令語(yǔ)句來識(shí)別的。

但是，目前業(yè)內(nèi)普遍聲紋識(shí)別的準(zhǔn)確率不是特別高，當(dāng)用戶感冒、變音調(diào)，聲紋識(shí)別就會(huì)失效，因此聲紋在智能音箱的應(yīng)用就非常受限。除了聲紋支付，只能應(yīng)用于對(duì)召回率要求不高的應(yīng)用場(chǎng)景。

首先紹下語(yǔ)音喚醒（Voice Trigger，VT）的相關(guān)信息。

A、語(yǔ)音喚醒的需求背景

近場(chǎng)識(shí)別時(shí)，比如使用語(yǔ)音輸入法時(shí)，用戶可以按住手機(jī)上siri的語(yǔ)音按鈕，直接說話（結(jié)束之后松開）；近場(chǎng)情況下信噪比（Signal to Noise Ratio, SNR）比較高，信號(hào)清晰，簡(jiǎn)單算法也能做到有效可靠。

但是在遠(yuǎn)場(chǎng)識(shí)別時(shí)，比如在智能音箱場(chǎng)景，用戶不能用手接觸設(shè)備，需要進(jìn)行語(yǔ)音喚醒，相當(dāng)于叫這個(gè)AI（機(jī)器人）的名字，引起ta的注意，比如蘋果的“Hey Siri”，Google的“OK Google”，亞馬遜Echo的“Alexa”等。

B、語(yǔ)音喚醒的含義

簡(jiǎn)單來說是“喊名字，引起聽者（AI）的注意”。如果語(yǔ)音喚醒判斷結(jié)果是正確的喚醒（激活）詞，那后續(xù)的語(yǔ)音就應(yīng)該被識(shí)別；否則，不進(jìn)行識(shí)別。

C、語(yǔ)音喚醒的相關(guān)指標(biāo)

1.喚醒率。叫AI的時(shí)候，ta成功被喚醒的比率。

2.誤喚醒率。沒叫AI的時(shí)候，ta自己跳出來講話的比率。如果誤喚醒比較多，特別是比如半夜時(shí)，智能音箱突然開始唱歌或講故事，會(huì)特別嚇人的……

3.喚醒詞的音節(jié)長(zhǎng)度。一般技術(shù)上要求，最少3個(gè)音節(jié)，比如“OK Google”和“Alexa”有四個(gè)音節(jié)，“Hey Siri”有三個(gè)音節(jié)；國(guó)內(nèi)的智能音箱，比如小雅，喚醒詞是“小雅小雅”，而不能用“小雅”——如果音節(jié)太短，一般誤喚醒率會(huì)比較高。

4.喚醒響應(yīng)時(shí)間。一般1.5s到3s。超過3s就不能容忍了。

5.功耗（要低）?？催^報(bào)道，說iPhone 4s出現(xiàn)Siri，但直到iPhone 6s之后才允許不接電源的情況下直接喊“Hey Siri”進(jìn)行語(yǔ)音喚醒；這是因?yàn)橛?s上有一顆專門進(jìn)行語(yǔ)音激活的低功耗芯片，當(dāng)然算法和硬件要進(jìn)行配合，算法也要進(jìn)行優(yōu)化。

以上1、2、3相對(duì)更重要

D、其他

涉及AEC（語(yǔ)音自適應(yīng)回聲消除，Automatic Echo Cancellation）的，還要考察WER（詞錯(cuò)誤率，Word Error Rate）相對(duì)改善情況。

語(yǔ)音識(shí)別ASR

語(yǔ)音識(shí)別ASR（Automatic Speech Recognition）一般簡(jiǎn)稱ASR，是將聲音轉(zhuǎn)化為文字的過程，相當(dāng)于人類的耳朵。用于將聲學(xué)語(yǔ)音進(jìn)行分析，并得到對(duì)應(yīng)的文字或拼音信息。

語(yǔ)音識(shí)別系統(tǒng)一般分為：訓(xùn)練和解碼兩階段。

訓(xùn)練

通過大量標(biāo)注的語(yǔ)音數(shù)據(jù)訓(xùn)練數(shù)學(xué)模型，通過大量標(biāo)注的文本數(shù)據(jù)訓(xùn)練語(yǔ)言模型。

市場(chǎng)上主流的聲學(xué)訓(xùn)練模型有：時(shí)序連接分類(CTC)和卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN)。

解碼

通過聲學(xué)和語(yǔ)言模型將語(yǔ)音數(shù)據(jù)識(shí)別成文字。

聲學(xué)模型可以理解為是對(duì)發(fā)生的建模，它能夠把語(yǔ)音輸入轉(zhuǎn)換成聲學(xué)表示的輸入，更準(zhǔn)確的說是給出語(yǔ)音屬于某個(gè)聲學(xué)符號(hào)的概率。

語(yǔ)言模型的作用可以簡(jiǎn)單理解為消解多音字問題，在聲學(xué)模型給出發(fā)音序列之后，從候選的文字序列中找出概率最大的字符串序列。

為了提供特定內(nèi)容的識(shí)別率，一般都會(huì)提供熱詞服務(wù)，配置的熱詞內(nèi)容實(shí)時(shí)生效，并且會(huì)提升ASR結(jié)果的識(shí)別權(quán)重，在一定程度上提高ASR識(shí)別的準(zhǔn)確率。

ASR還有一些其他的技術(shù)細(xì)節(jié)在實(shí)際應(yīng)用中起著關(guān)鍵作用：

**尋向/聲源定位：**一般音箱的設(shè)計(jì)都是多麥克風(fēng)，例如：4麥、6麥，呈線性或環(huán)形布局。尋向的作用就是判斷用戶方向，然后用用戶方向的麥克風(fēng)采集語(yǔ)音數(shù)據(jù)，保證語(yǔ)音的數(shù)據(jù)是最清晰的。

**降噪：**當(dāng)有環(huán)境音時(shí)，需要對(duì)環(huán)境音進(jìn)行消除，提高算法識(shí)別準(zhǔn)確率。

**AEC：**回音消除，如果當(dāng)前設(shè)備既在使用Player進(jìn)行播放，同時(shí)又使用Mic進(jìn)行拾音，那Mic就會(huì)將自己播放出去的聲音給重拾回來。這時(shí)為了避免影響算法識(shí)別結(jié)果，需要對(duì)回音進(jìn)行消除。

**VAD：**語(yǔ)音端點(diǎn)檢查，使用音頻特征等進(jìn)行分析，確定人聲的開始和結(jié)束時(shí)間點(diǎn)。

自然語(yǔ)言處理(理解)NLP(NLU)

自然語(yǔ)言理解就是將人的語(yǔ)言形式轉(zhuǎn)化為機(jī)器可理解的、結(jié)構(gòu)化的、完整的語(yǔ)義表示，通俗來講就是讓計(jì)算機(jī)能夠理解和生成人類語(yǔ)言。

將用戶的指令進(jìn)行Domain(領(lǐng)域)→Intent(意圖)→Slot(詞槽)三級(jí)拆分。

以“幫我設(shè)置一個(gè)明天早上8點(diǎn)的鬧鐘”為例：該指令命中的領(lǐng)域是“鬧鐘”，意圖是“新建鬧鐘”，詞槽是“明天8點(diǎn)”。

這樣，就將用戶的意圖拆分成機(jī)器可以處理的語(yǔ)言。

在NLU領(lǐng)域中涉及到兩個(gè)重要概念，也是評(píng)測(cè)系統(tǒng)好壞的重要指標(biāo)。

在這里簡(jiǎn)單介紹一下：準(zhǔn)確率和召回率。

**準(zhǔn)確率：**識(shí)別為正確的樣本數(shù)/識(shí)別出來的樣本數(shù)

**召回率：**識(shí)別為正確的樣本數(shù)/所有樣本中正確的數(shù)

舉個(gè)栗子：全班一共30名男生、20名女生。需要機(jī)器識(shí)別出男生的數(shù)量。本次機(jī)器一共識(shí)別出20名目標(biāo)對(duì)象，其中18名為男性，2名為女性。則

準(zhǔn)確率=18/（18+2）=0.9

召回率=18/30=0.6

再補(bǔ)充一個(gè)圖來解釋

智能音箱語(yǔ)音交互系統(tǒng)簡(jiǎn)介與測(cè)試初探插圖3

技能Skill

Skiil，技能，也即AI時(shí)代的APP。

Skill的作用就是：處理NLP界定的用戶意圖，做出符合用戶預(yù)期的反饋。

語(yǔ)音skill的設(shè)計(jì)與產(chǎn)品APP差別很大，筆者經(jīng)過一段時(shí)間的積累，總結(jié)了一下測(cè)試原則供參考：

測(cè)試

原則

增加回復(fù)的多樣性——高頻的指令盡可能增加多的回復(fù)TTS語(yǔ)句，避免用戶反復(fù)聽到相同的回復(fù)；

重要信息后置——一般語(yǔ)音回復(fù)尤其是當(dāng)用戶在開車的過程中，需要將重要信息放在后面，因?yàn)樾睦韺W(xué)上有個(gè)“時(shí)近效應(yīng)”，聽覺刺激往往排在后面的影響力更大；

合理的簡(jiǎn)潔——用戶可感知時(shí)簡(jiǎn)潔回復(fù)，用戶不可感知時(shí)完整回復(fù)。；

假如用戶指令“停止播放”，這時(shí)候只需一個(gè)提示音或者一個(gè)簡(jiǎn)答的回復(fù)“好的”。但是，如果用戶的指令是“幫我設(shè)置一個(gè)明天早上8點(diǎn)的鬧鐘”，回復(fù)就需要是完整的，例如：“已幫你設(shè)置好明天早上8點(diǎn)的鬧鐘”，否則用戶會(huì)沒安全感，不知道你設(shè)置的到底對(duì)不對(duì)，如果不對(duì)，那帶來的風(fēng)險(xiǎn)是很大的，所以一定要完整回復(fù)。

語(yǔ)音合成TTS

語(yǔ)音合成（Text-To-Speech），一般簡(jiǎn)稱TTS，是將文字轉(zhuǎn)化為聲音（朗讀出來），類比于人類的嘴巴。大家在Siri等各種語(yǔ)音助手中聽到的聲音，都是由TTS來生成的，并不是真人在說話。

TTS業(yè)內(nèi)普遍使用兩種做法：一種是拼接法，一種是參數(shù)法。

拼接法

從事先錄制的大量語(yǔ)音中，選擇所需的基本發(fā)音單位拼接而成。

**優(yōu)點(diǎn)：**語(yǔ)音的自然度很好。

**缺點(diǎn)：**成本太高，費(fèi)用成本要上百萬。

參數(shù)法

使用統(tǒng)計(jì)模型來產(chǎn)生語(yǔ)音參數(shù)并轉(zhuǎn)化成波形。

**優(yōu)點(diǎn)：**成本低，一般價(jià)格在20萬~60萬不等。

**缺點(diǎn)：**發(fā)音的自然度沒有拼接法好。

但是隨著模型的不斷優(yōu)化，現(xiàn)在參數(shù)法的效果已經(jīng)非常好了，因此業(yè)內(nèi)使用參數(shù)法的越來越多。

對(duì)TTS的測(cè)試主要分主觀測(cè)試和客觀測(cè)試：

主觀測(cè)試

1.MOS（Mean Opinion Scores），專家級(jí)評(píng)測(cè)（主觀）；1-5分，5分最好。

2.ABX，普通用戶評(píng)測(cè)（主觀）。讓用戶來視聽兩個(gè)TTS系統(tǒng)，進(jìn)行對(duì)比，看哪個(gè)好。

主觀測(cè)試以MOS為主。

客觀測(cè)試

1.對(duì)聲學(xué)參數(shù)進(jìn)行評(píng)估，一般是計(jì)算歐式距離等（RMSE，LSD）。

2.對(duì)工程上的測(cè)試：實(shí)時(shí)率（合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng)），流式分首包、尾包，非流式不考察首包；首包響應(yīng)時(shí)間（用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間）、內(nèi)存占用、CPU占用、3*24小時(shí)crash率等。

以上便是對(duì)智能音箱系統(tǒng)交互流程和測(cè)試指標(biāo)的簡(jiǎn)單介紹，希望對(duì)大家有所幫助。