現(xiàn)在市面上的智能電子產(chǎn)品千千萬,為了達到人們使用更加方便的目的,很多智能產(chǎn)品都開發(fā)了語音識別功能,用來語音喚醒進行交互;另外,各大公司也開發(fā)出來了各種智能語音機器人,比如小米公司的“小愛”,百...
現(xiàn)在市面上的智能電子產(chǎn)品千千萬,為了達到人們使用更加方便的目的,很多智能產(chǎn)品都開發(fā)了語音識別功能,用來語音喚醒進行交互;另外,各大公司也開發(fā)出來了各種智能語音機器人,比如小米公司的“小愛”,百度公司的“小度”,三星公司的“bixby”,蘋果的“siri”等等。這些語音識別的功能,提高人們使用電子的產(chǎn)品的體驗,但是作為一名測試員,給你一款語音識別產(chǎn)品,要怎么進行測試呢?
接下來,我就以小米手機為例,給大家介紹小米手機語音識別如何測試。
小米語音識別功能如何進行測試?
要知道語音識別功能如何測試,我們先了解智能產(chǎn)品語音交互流程:
所以,要進行測試的話,我們需要從以下幾個維度來準備測試點:
01.基礎(chǔ)功能測試:
1 聲紋的錄入:
語音喚醒,為了確保每個人的聲音、每個人在不同場景下的聲音都能成功語音喚醒,測試一定要有各種不同的聲紋來進行測試。
所以,就需要錄入各種不同的聲紋,來豐富測試場景的覆蓋;
2 語音喚醒:
正常喚醒:使用正常的聲紋進行語音喚醒,檢查可以成功;
異常喚醒:使用異常的聲音,比如視頻/錄音進行喚醒,音樂聲進行喚醒,確保不會有誤喚醒。
3 喚醒后的功能:
a、語音找設(shè)備:可以喚醒設(shè)備,比如手機,通過語音找到設(shè)備。
b、音量調(diào)節(jié):可以通過語音對設(shè)備進行音量調(diào)節(jié)
c、連續(xù)對話:喚醒設(shè)備后,可以與其進行持續(xù)的語音對話,功能正常。
d、指令識別:喚醒后,可以下發(fā)指令比如播放音樂,查詢天氣,撥打電話、定鬧鐘等,檢查指令可以正常被執(zhí)行。
4 功能沖突交互測試
a、中斷測試:語音識別過程中,有中斷干擾,比如手機喚醒的時候有電話中斷;有鬧鐘中斷、低電量中斷等,確保這些中斷能被正常處理,不會造成異常;
b、麥克風沖突:如果麥克風被占用了,測試是否能被喚醒;
5 多用戶場景
因為用戶使用語音識別的場景非常多,測試很難進行完全的覆蓋。所以,我們需要通過分析用戶的主流使用場景,來覆蓋主要的場景。
通過一些數(shù)據(jù)的采集,發(fā)現(xiàn)用戶使用的場景屏幕分布如下:
調(diào)查結(jié)果發(fā)現(xiàn),用戶使用語音功能主要覆蓋以下場景:
所以測試就主要優(yōu)先去覆蓋這些用戶場景,其他的場景用例優(yōu)先級可以逐步降低,調(diào)整測試權(quán)重,保證用戶主流場景的穩(wěn)定性和準確性。
02.UI 測試
語音喚醒的有 UI 界面需要進行 UI 測試。
比如手機的語音喚醒功能,需要進行 UI 界面的檢查,保持 UI 的友好型和美觀性;03.兼容性測試
1,第三方應用的兼容性測試
如果設(shè)備里有安裝其他的應用,比如手機里的其他應用,是否可以通過語音識別喚醒后進行指定的動作操作;第三方應用兼容性需要保證;
2,外界設(shè)備兼容
a、三段式耳機接入
b、四段式耳機接入
c、type-c 數(shù)字耳機接入
d、藍牙耳機接入
通過接入這些第三方的耳機設(shè)備,可以進行語音識別并且功能正常。
04.自動化語音識別測試
以上都是通過手工進行測試的,要進行一個比較完整的語音識別覆蓋,至少需要以下配置:
測試人數(shù):
10/20 人(男女各一半)
測試次數(shù):
每個場景 50 次
測試環(huán)境:
辦公室、會議室
測試場景:
亮屏喚醒、滅屏喚醒、手機播放音樂喚醒、聲紋誤喚醒、基本語句識別率
但是手工測試是有不可忽視的一些嚴重缺陷的:
1、測試手法不統(tǒng)一:
不同的距離和不同的角度都會導致識別結(jié)果不一樣。
2、測試過程中人員聲音波動大
同一算法,同一產(chǎn)品,在測試人員不變,場景一致的情況下,多輪測試的數(shù)據(jù)差異大;
由此可見,手工測試耗時耗力、測試數(shù)據(jù)參考價值低。所以,語音識別測試也可以進行一些自動化測試。
05.自動化測試的關(guān)鍵點
1 實現(xiàn)半自動化語音測試
因為手工測試就是沒有辦法提供那么多人進行不同語料的測試,所以需要實現(xiàn)語料自動合成和模擬??梢圆捎?python+pyaudio 開發(fā) + 音箱模擬人聲,來對語音進行識別測試。
而且通過增加語料量級(至少 40 組聲紋),降低喚醒/識別頻次;增加不同的噪音環(huán)境,不同噪音 + 不同距離,模擬用戶真實環(huán)境。
這樣,就可以覆蓋更多的不同的語料以及場景,大大提高識別的正確率。
2 語料自動化播放 + 自動化檢測
現(xiàn)在有了語料,但是需要手動播放的話,工作量依然很大,所以需要實現(xiàn)語料自動播放和自動化監(jiān)測。
3 增加噪聲播放系統(tǒng) + 滑軌控制系統(tǒng)
因為用戶的使用場景往往有很多的噪音,如果測試不模擬這種噪音環(huán)境,是沒有辦法真正還原用戶場景的。所以,需要設(shè)置一些噪音源,可以自動化增加噪音,并可以調(diào)整距離。
如下圖,就是小米公司的專為為測試語言識別造的混響室,以及自動化調(diào)節(jié)人頭系統(tǒng)