色欲香天天综合网站,亚洲AV优女天堂熟女,色一情一乱一伦一区二区三欧美,日本久久综合久久综合

不一樣的“注意力”:人機交互注意力的測量指標與利用

原創(chuàng) Synced 機器之心 機器之心分析師網(wǎng)絡 作者:仵冀穎 編輯:Joni Zhong 本文將探討人機交互中的注意力問題。 本文我們關注注意力(Attention)問題。在這里,我們談到的注意力與大...

原創(chuàng) Synced 機器之心

機器之心分析師網(wǎng)絡

作者:仵冀穎

編輯:Joni Zhong

本文將探討人機交互中的注意力問題。

本文我們關注注意力(Attention)問題。在這里,我們談到的注意力與大家非常熟悉的機器學習中的注意力模型(Attention Model,AM)不同,本文討論的是人機交互中的注意力問題。

人機交互中的這種注意力也被稱為是用戶的關注焦點(Users focus Of Attention)。人機交互中的注意力是構造社交機器人(Social Robot)的重要問題,也在普適計算和智能空間等人機交互應用中起到非常重要的作用,因為在這些應用中,必須能夠持續(xù)的監(jiān)控用戶的目標和意圖。

通過引入并有效測量注意力,能夠改進人機交互的方式、效率和效果。一般認為,主要通過眼睛注視(Eye gaze)和頭部姿勢動態(tài)(Head)等來確定注意力 [1]。針對這些測量指標,研究者需要結合機器視覺和其他傳感技術,測量和計算交互中的注意力指標,并且利用這些指標對機器人的行為進行控制。另一方面,這些指標也可以作為衡量社交機器人或者機器人輔助治療中的效果。

本文首先介紹了一種用于社交機器人的人機交互方法,該方法根據(jù)目標人當前的視覺注意力焦點來吸引和控制目標人的注意力,從而建立人和機器人之間的溝通渠道。這也是社交機器人中注意力的最直接的研究和應用。此外,本文還介紹了兩個在人與機器交流場景中的注意力應用,一是將注意力應用于在線教育效果的評估,另一個是在機器人增強治療中開發(fā)自閉癥兒童的聯(lián)合注意力(Joint Attention,JA)。

一、Supporting Human–Robot Interaction Based on the Level of Visual Focus of Attention

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖

論文地址:https://ieeexplore.ieee.org/abstract/document/7151799

在社交機器人的構造過程中,為了使機器人能夠在服務應用程序或協(xié)作工作場景中與人類進行有效的交互,應該將這些機器人視為社會參與者,并表現(xiàn)出社會智能和意識。本文提出了一種智能的社交機器人工作方法,能夠根據(jù)目標人的視覺注意力水平(Level of visual focus of attention,LVFOA)吸引目標人的注意力,并建立與目標人的交流通道。

作者認為 VFOA 是機器人能夠有效吸引注意力(用戶關注點)和啟動互動的一個重要線索,因為:1)它有助于理解人在做什么,2)它表明關注目標客體是誰(誰在看誰)。本文使用視覺線索,例如注視模式(Eye gaze),以及目標人的任務背景來識別 VFOA 及其水平。

1. VFOA 介紹

人們一般都會傾向于注視他 / 她感興趣的目標物體 [2],為了描述參與人機交互任務的目標人的注意力情況,本文定義了視覺注意力(Visual Focus of Attention,VFOA)為三維表示的注視方向(gaze direction)。而具體任務 Ti 定義為:Ti(T={閱讀、寫作、瀏覽、觀看繪畫)},其中,i=1…4,Ti 是屬于有限組可視目標 Li 的元素,而 Li 就是由不同任務的不同目標對象組成。例如,L1={book},L2={notebook},L3={display,keyboard,mouse} 和 L4={paintings},分別用于閱讀、寫作、瀏覽和查看繪畫任務。作者定義了當目標人從指定的目標對象轉(zhuǎn)移其 VFOA 時如何度量其注意力的喪失,還定義了如何測量目標對象參與任務時 VFOA 的持續(xù)時間。

本文對 18 名參與者(14 名男性,平均年齡 28 歲,標準差 4.9)完成四項任務的過程進行了錄制:閱讀(4 名參與者)、寫作(4 名)、瀏覽(6 名)和觀看繪畫(將注意力集中在室內(nèi)的一幅畫上,4 名)。給參與者發(fā)出的指令是要求他們集中精力完成任務。每個人閱讀、寫作、瀏覽和觀看繪畫的平均任務完成時間分別為 9 分鐘、9 分鐘、8 分鐘和 8 分鐘。

為了測量 VFOA 的持續(xù)時間,作者觀看錄制的視頻數(shù)據(jù),并手動標注(使用暫停和重新開始)參與者在沒有失去注意力的情況下對任務產(chǎn)生一致結果的時間段。當受試者將當前的 VFOA 轉(zhuǎn)向另一個方向時,就會出現(xiàn)注意力喪失的情況。對于閱讀和寫作,參與者分別在「翻頁」和「停止寫作」時失去注意力。對于閱讀、寫作、瀏覽和觀看繪畫的任務,分別檢測到 14 次、10 次、9 次和 12 次注意力的喪失情況。根據(jù)這些情況的持續(xù)時間,估計得到了每個任務的 VFOA 時間跨度(見表 1)。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖1

表 1. VFOA 持續(xù)時間(分鐘)

2. 本文方法介紹

本文所提出的方法如圖 1 所示。在啟動交互模塊(見圖 1(a)的左側(cè)部分),機器人識別并跟蹤目標人的 VFOA。如果它們最初是面對面的,機器人會產(chǎn)生一個感知信號,并與目標人進行眼神接觸。否則,機器人會試圖通過識別目標人當前的任務來吸引目標人的注意力。機器人檢測當前 VFOA 的水平,直到時長達到 T_s(T_s 為預先設置的用于表示 VFOA 持續(xù)的最大時間跨度的參數(shù))。圖 1(b)給出了這一方法的具體執(zhí)行步驟。機器人在時間 t 使用低級或高級的 VFOA(取決于目標人的當前任務),根據(jù)目標人的移位 VFOA 的觀察情況來生成吸引注意力(Attention attraction,AA)信號(弱或強)。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖2

圖 1.(a) 本文提出的方法的抽象視圖;(b) 本文方法的基本步驟。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖3

圖 2. 頭部方位分為五個角區(qū)域,其中使用的人臉圖像來自遠 GTAV 人臉數(shù)據(jù)庫 [3]。

由圖 2,本文作者將一個人的視野(Field of View,F(xiàn)OV)分為中心視野和周邊視野,具體包括下面三個分區(qū):

中心視野(Central Field of View,CFV):這個視野位于人類視野的中心。該區(qū)域設置為 30° 的錐形區(qū)域(圖 2 中為 75° 至 105°);

近周邊視野(Near Peripheral Field of View,NPFV):定義為 CFV 區(qū)兩側(cè) 45° 扇形區(qū)域。在 CFV 的右側(cè)(圖 2 中為 30° 到 75° 之間),該區(qū)域被定義為右側(cè)近周邊視野(RNPFV),而在左側(cè)(圖 2 中為 105° 到 150° 之間),該區(qū)域被稱為左側(cè)近周邊視野(LNPFV);

遠周邊視野(Far Peripheral Field of View,F(xiàn)PFV):這個視野存在于人視野邊緣的兩側(cè),具體包括右側(cè)遠周邊視野(RFPFV)和左側(cè)遠周邊視野(LFPFV)。

如果在 CFV/LNPFV/RNPFV 中檢測到 VFOA,則機器人會產(chǎn)生頭部轉(zhuǎn)動動作(微弱信號)。如果檢測到的 VFOA 在 LFPFV 或 RFPFV 中,則機器人產(chǎn)生搖頭動作(強信號)。當機器人成功吸引目標人的注意時,通信信道建立模塊(圖 1(a)的右側(cè)部分)嘗試與目標人建立通信信道。機器人決定了注意力轉(zhuǎn)移的程度,并向目標人發(fā)出一個感知信號,表明它想和她 / 他交流。機器人通過眨眼完成眼神交流。

2.1 視覺注意焦點的識別及其水平

本文重點關注的是:持續(xù)的注意力(Sustained Attention)和集中或轉(zhuǎn)移的注意力(Focused or Shifted Attention)。集中注意力或轉(zhuǎn)移注意力是由刺激或意外事件所導致的瞬時反應,而持續(xù)的注意力則是由任務決定的。本文根據(jù)視覺信號(Visual Cues)和注視模式來衡量 VFOA 及其水平。

1)獲取視覺信號。一是,使用視覺機器的 faceAPI 來檢測和跟蹤目標人的頭部姿勢 h_p。二是,使用光流特征檢測頭部運動 h_m [4]。三是,重疊面窗口:如果檢測到一個面部并且與最近的頭部運動窗口重疊,h_m 大于 50%,則認為檢測到重疊的面部窗口 o_f(o_f=1)。檢測到重疊面窗口就意味著目標人把臉轉(zhuǎn)向了機器人。本文使用 Viola-Jones AdaBoost-Haar-like 人臉檢測器檢測人臉 [5]。

2)注視模式分類。一個人的注視模式表明了他 / 她感興趣的對象。一般來說,人類的注視模式分為三種。當一個人在沒有任何特定任務的情況下觀看場景時,也就是說,當她 / 他「只是看到」場景時,就發(fā)生了自發(fā)的觀看(Spontaneous Viewing)。當一個人帶著特定的問題或任務(例如,她 / 他可能對博物館中的某一幅畫感興趣)觀看場景時,會出現(xiàn)任務或場景相關的觀看(Task or Scene-Relevant Viewing)。當受試者不太注意自己在看什么,而是在關注一些「內(nèi)心的想法」時,就會出現(xiàn)思維觀察的取向(Orientation of Thought Viewing)。本文討論的是前兩種注視模式,使用 SVM 進行兩類注視模式的分類處理。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖4

圖 3. (a) 檢測到的頭部及其在圖像中的位置。(b) 提取人臉特征點。(c) 基于人臉特征點的眼睛區(qū)域估計。(d) 檢測到眼睛區(qū)域內(nèi)的虹膜中心。

為了得到注視模式 Gp,本文考慮了頭部在圖像中的平移運動和虹膜在眼睛中的位置變化。圖 3 給出了本文實驗定位人頭部的過程。首先定位到頭部區(qū)域,之后利用 ASM 找到面部特征點,最后定位到虹膜中心。令 H_0 表示初始頭部位置,E_t 為第 t 幀的眼睛注視位置(眼睛中相對虹膜位置)。T_Ht 表示來自 H_0 的頭部運動的平移矢量,則第 t 幀的注視點 Q_t 確定如下:

Gp={Q_0,Q_1, …,Q_L?1} 表示 L 幀的注視模式。圖 4(a)示出了觀看場景中的特定點(任務或與場景相關的觀看)的人的注視模式,并且在圖 4(b)中示出如何觀看三個不同點(自發(fā)觀看)。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖5

圖 4. 注視模式:(a)與任務或場景相關的觀察;(b) 自發(fā)觀看。

通過對注視模式的重心進行歸一化處理,從注視模式數(shù)據(jù)中提取特征向量。假設 C_m 是重心,r_t 是從 C_m 到注視點 Q_t 的歐氏距離:

其中,t=0,1, …,L?1。接下來,將距離值 r_t 按降序排序,并構造分類器的特征向量。使用 SVM 進行分類。

為了進行訓練,作者收集了注視數(shù)據(jù),并構建與場景相關的、自發(fā)觀看的注視模式的訓練數(shù)據(jù)。SVM 模型能夠?qū)⒆⒁暷J椒诸悶樽园l(fā)觀看(spontaneous viewing)S_l 和任務或場景相關觀看(task or scene-relevant viewing)T_l。

最后,通過識別目標人物所參與的任務來確定任務上下文(Task Context)。給定一個視頻序列,提取每幀的方向梯度(HOG)特征直方圖 [6]。將 HOG 特征組合為 10 個連續(xù)的幀來構建 HOG 特征模式 HOG_P:

其中 F_0 和 F_i 分別是第一幀和第 i 幀的 HOG 特征。

在識別出目標人的任務(或當前 VFOA)后,接下來,使用任務的相關上下文線索來識別注意力水平。對于每個任務,本文使用任務相關的 VFOA 跨度(T_s)來確定機器人應該等待多長時間或者機器人應該在怎樣的時間周期內(nèi)與目標人交互。此外,還定義了一些特定任務的線索來確定注意力的水平。以閱讀 reading 為例,使用翻頁率 P_t 和傾斜角度偏差來測量 LVFOA。而這些特定任務的線索的位置是根據(jù)人的身體的相對位置來確定的,本文應用的是文獻 [7] 中給出的人體跟蹤系統(tǒng)。

2.2 持續(xù)視覺注意力的集中程度

根據(jù)語境線索和注視模式,VFOA 水平分為低水平和高水平。當注意力水平降低時,系統(tǒng)假設檢測到 VFOA 丟失。對于不同的任務,注意力水平檢測如下:

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖6

S_l 表示自發(fā)觀看。如果檢測到自發(fā)觀看,則假定此人對某項任務沒有特別注意,即,表示檢測到低注意水平。對于閱讀和寫作任務,除了頭部姿勢的改變外,本文還考慮了「翻頁」(Pt)和「停止寫作」(Ws)等行為來檢測低注意水平。對于上式來說,如果特定的頭部姿勢變化且穩(wěn)定性大于或等于 3 幀,則相應任務的注意力水平較低。否則,表示注意力水平較高,當前的注意力集中在任務上。

2.3 注意力集中 / 轉(zhuǎn)移的檢測

焦點 / 注意力轉(zhuǎn)移分為兩個階段。首先,為了吸引目標人的注意力,機器人從持續(xù)的 VFOA 中檢測出焦點 / 轉(zhuǎn)移的注意力。第二,在發(fā)送 AA 信號后,機器人需要檢測到焦點 / 轉(zhuǎn)移的注意力。

注意力從持續(xù)性 VFOA 轉(zhuǎn)移:為了發(fā)起禮貌的社交互動,機器人應該根據(jù)目標人當前持續(xù)的 VFOA 去吸引他 / 她的注意力。在引起注意后,機器人檢測到目標人移位的 VFOA。根據(jù)環(huán)境因素和目標人的心理焦點,持續(xù)性 VFOA 可分為五個區(qū)域之一:CFV、LNPFV、LFPFV、RNPFV 和 RFPFV。利用頭部姿態(tài)的平移角度來檢測移位的 VFOA 區(qū)域。

對機器人的注意力集中 / 轉(zhuǎn)移:對機器人的注意力集中 / 轉(zhuǎn)移的檢測是機器人與目標人進行目光接觸的重要線索。如果機器人和目標人沒有面對面,那么機器人會發(fā)送一些 AA 信號,等待她 / 他的注意力朝向目標。當目標人轉(zhuǎn)移注意力或?qū)⒆⒁饬D(zhuǎn)向機器人時,就要求機器人能夠檢測到對機器人的注意力集中 / 轉(zhuǎn)移。為了進行成功的眼神交流,機器人將注意力集中 / 轉(zhuǎn)移的程度分為三級:低、中、高。機器人向目標人發(fā)送一個 AA 信號,并逐幀分析輸入的視頻圖像,以檢測目標人是否正在向其移動。如果目標人正從她 / 他當前的注意力焦點轉(zhuǎn)向機器人,那么在頭部周圍會檢測到一些相鄰的 h_m 窗口。聚焦 / 移位 VFOA 的級別按如下分析進行分類。

當除了頭部運動之外沒有檢測到其他視覺線索時,可以假設集中 / 轉(zhuǎn)移的注意力水平較低:

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖7

其中,N_hm 表示后續(xù)幀中出現(xiàn)連續(xù)的頭部運動的窗口數(shù)量,o_f 表示是否檢測到重疊窗口(檢測到為(1),未檢測到為(0)),(h_p)^ p 是頭部姿勢的估計平移角度,N_fs 是檢測到重疊窗口后在后續(xù)幀中的面部穩(wěn)定性檢測結果。

如果在相鄰的頭部運動區(qū)域內(nèi)通過重疊的面部窗口檢測到頭部運動,則注意力水平為中等:

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖8

當成功檢索到視覺線索并穩(wěn)定下來時,注意力水平較高:

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖9

對應于上述三個公式,當能夠滿足公式右側(cè)全部條件時,表示檢測到對應的注意力水平。檢測到的注意力水平將用于隨后的意識生成,并進行成功的眼神交流。

2.4 基于視覺注意焦點的初始互動

在禮貌的社會交往中,人們通常會先抬起頭來,或是轉(zhuǎn)頭朝著想與之交流的人,再進行后續(xù)的交流。然而,如果目標人對某項任務的注意力集中度很高,作為人類就會嘗試使用一些更有力的動作(例如多次轉(zhuǎn)頭、揮手、走近對方并轉(zhuǎn)頭,使用聲音等)來吸引對方的注意力。我們當然希望社交機器人也能做到這樣。

在本文的研究中,機器人會監(jiān)測目標人 VFOA 的程度及移位的 VFOA 區(qū)域,以選擇適當?shù)目刂朴嵦?。當持續(xù)性 VFOA 注意力水平較低且移位的 VFOA 位于 CFV/LNPFV/RNPFV 區(qū)域時,機器人會選擇頭部轉(zhuǎn)向動作發(fā)出弱信號。當持續(xù)性 VFOA 注意力水平較低且移位的 VFOA 位于 LFPFV/RFPFV 區(qū)域時,機器人會使用搖頭動作。在持續(xù) VFOA 注意力水平較高且需要吸引目標人注意力的情況下,機器人還會采用搖頭動作。

本文使用搖頭動作作為一個很強的 AA 信號,因為物體的突然運動會引起人們的注意。如果一個人處于一個看不到機器人動作的位置,機器人的非語言行為所產(chǎn)生的視覺刺激不會影響到他 / 她。因此,本文不考慮移位的 VFOA 在 FOV 區(qū)域之外的情況。

2.5 建立溝通渠道

為了建立一個交流通道,機器人需要讓目標人注意到它正看著她 / 他。機器人應該能夠通過一些動作(例如面部表情、眨眼或點頭)來表達它的這個意識。本文通過眨眼來產(chǎn)生這種意識,因為眨眼是形成一個人印象的最重要的線索之一。機器人通過完成眨眼的動作,能夠使目標人感受到他 / 她正在被機器人注視。

如果機器人成功地吸引了目標人的注意,或者她 / 他注意到了機器人的動作,她 / 他就會將目光轉(zhuǎn)向機器人。當她 / 他看著機器人的臉時,機器人能認出她 / 他的臉。在檢測到目標人的面部穩(wěn)定性后(即 FAH=1),機器人開始眨眼睛大約三次(1 blink/s),以建立一個通信通道。眨眼動作是通過快速關閉和打開 CG 圖像的眼瞼產(chǎn)生的,并通過 LED 投影儀顯示在機器人的眼睛上。

3. 實驗分析

本文在兩個不同的機器人場景中驗證所提出的方法。

3.1 靜態(tài)機器人頭部交互

本文在一個靜態(tài)機器人的頭部位置實現(xiàn)了基于目標人 VFOA 水平的人機交互場景。實驗的目的是驗證本文提出的交互系統(tǒng)會造成較少的干擾,并且在她 / 他參與某項任務時能夠更成功地啟動與目標人的交互。具體實驗平臺見圖 5 所示。該系統(tǒng)包括頭部檢測與跟蹤、態(tài)勢識別、身體跟蹤、人臉檢測、眨眼、搖攝裝置控制單元、VFOA 檢測和轉(zhuǎn)移 / 集中注意力檢測模塊。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖10

圖 5. 靜態(tài)機器人實驗平臺

參與者被要求注意自己的任務,并戴上帶有音樂的耳機,以避免被機器人做出動作時所產(chǎn)生的聲音干擾。本文用兩個攝像機捕捉所有的互動。圖 6(a)為實驗環(huán)境。圖 6(b)給出了本文系統(tǒng)應用于兩種機器人行為的成功率。雙尾 Z 比例檢驗(Z=3.837,p<0.001)表明,本文所提出的機器人 IACR(87.5%,24 次試驗中吸引目標參與者注意力 21 次)明顯優(yōu)于對比基線系統(tǒng) SACR(33.3%,在 24 個實驗中,8 次引起目標參與者的注意)。在眼神接觸階段,兩組間無顯著性差異。這可能是由于眼神接觸成功與否取決于 AA 階段的成功率。

3.2 博物館場景中的 Robovie-R3

文章最后給出了另外一個實驗,構建了一個位于博物館內(nèi)的參觀者和機器人之間的交互場景。假設一個參觀者在博物館里觀察畫作,參觀者會把注意力集中在某一幅畫上。機器人位于遠離畫作的地方,因此,它不會干擾參觀者的移動和注意力。當機器人檢測到參觀者的高水平注意力時,它會對參觀者的頭部方向進行分類,以選擇機器人應該從哪一側(cè)或哪個位置開始交互。機器人將參觀者的頭部定位分為五個角度區(qū)域:LFPFV、LNPFV、CFV、RNPFV 和 RFPFV。然后,機器人選擇合適的運動路徑和位置來啟動交互(見圖 7)。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖11

圖 7. 機器人的交互位置:(a)當在 LNPFV 區(qū)域檢測到訪客的注意方向時,機器人選擇左側(cè)的交互路徑;(b) 當在 RNPFV 區(qū)域檢測到訪客的注意方向時,機器人選擇右側(cè)的交互路徑。

將六幅畫(P1–P6)掛在同一高度的墻上(見圖 8(a))。這些畫被放置在不同的地方,讓參與者從一個固定的站立位置將 VFOA 固定在一幅特定的畫上。一個 USB 攝像頭(位于畫作(P3)的頂部,用于檢測訪客的凝視和頭部方向。P2、P3 和 P4 分別放置在 LNPFF、CFV 和 RNPFV 區(qū)域。將 Robovie-R3 眼睛(見圖 8(b))替換為計算機圖形生成的用于注視通信的投影眼睛(見圖 8(c))。為了確認參觀者能夠與機器人進行眼神接觸,在機器人頭部下方放置了一個 USB 攝像頭(見圖 8(d))。在交互場景中,每個參與者被要求站在一個固定的位置,她 / 他的目光和頭部方向可以在畫作中自由的移動,最后,他 / 她會將注意力固定在圖片 P2、P3 或 P4 上(見圖 9)。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖12

圖 9. 實驗場景的快照

實驗中采用兩種方法,方法 1(M1):機器人根據(jù)參觀者的注意力方向選擇運動路徑,與參觀者進行面對面交流;方法 2(M2):在 LNPFV 或 RNPFV 區(qū)域,機器人從參觀者注意力方向的相反方向出現(xiàn)。實驗要求參觀者為每種方法填寫一份問卷(在互動之后)。這項測量是一個利克特評分(Likert scale):1(強烈反對)到 7(強烈同意)。問卷有兩個主觀問題:問題 1(Q1):在互動開始時,你有沒有感覺到你和機器人有眼神接觸?問題 2(Q2):你認為機器人的方法對啟動交互有效嗎?

對于問卷 Q1(見表 1),當訪問者觀看圖片 P2 時,兩種方法(M1 和 M2)之間的差異具有統(tǒng)計學意義(Z=?2.831,p<0.01)。對于圖片 P4,兩種方法之間的差異也具有統(tǒng)計學意義(Z=?2.609,P<0.01)。對于圖片 P3,兩種方法(M1 和 M2)之間沒有顯著性差異。因此,為了在交互啟動過程中成功的進行目光接觸,當參觀者分別觀看圖片 P2 和 P4 時,機器人應選擇左側(cè)和右側(cè)的運動路徑。當參觀者看到圖片 P3 時,機器人可以選擇左側(cè)或右側(cè)的運動路徑進行眼神接觸。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖13

表 1. Q1 的問卷結果

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖14

表 2. Q2 的問卷結果

對于問卷 Q2(見表 2),當參觀者觀看照片 P2 時,Wilcoxon 符號秩檢驗顯示出顯著差異(Z=?2.836 和 p<0.01)。對于圖 P4,差異也具有統(tǒng)計學意義(Z=?2.687,p<0.01)。對于 P3 圖,沒有發(fā)現(xiàn)顯著性差異。因此,為了啟動一個交互場景,當參觀者分別看到圖片 P2 和 P4 時,機器人應該選擇左側(cè)和右側(cè)的運動路徑。當參觀看到圖片 P3 時,機器人可以選擇左側(cè)或右側(cè)的運動路徑。

4. 文章小結

本文提出了一種智能的社交機器人工作方法,該方法從人機交互的注意力角度出發(fā)開發(fā)了一種機器人工作模式,它可以吸引目標人的注意力,并根據(jù)她 / 他的 LVFOA 與她 / 他建立一個交流渠道。該方法能夠有效地啟動與目標人的互動過程,吸引目標人的注意力,并建立與目標人的溝通渠道。

作者認為,當前的系統(tǒng)在實際應用中還存在以下問題:

首先,它需要環(huán)境中的攝像頭來觀察人們的注視模式。這在博物館場景中是可以接受的。但是,在一些對環(huán)境聲音有要求的場景下就無法應用?,F(xiàn)在的機器人移動時會發(fā)出很大的噪音。如果它們移動,它們會引起人們的注意并中斷他們的工作。在本文的實驗中,要求參與者戴上帶有音樂的耳機來減輕這些噪音的影響。然而,如果這種機器人能像人類一樣安靜地移動,它們可以移動到更容易用車載攝像頭觀察目標人的位置,則會具有更大的應用價值。

其次,本文使用了一個恒定值(T_s)作為持續(xù) VFOA 的最大時間跨度。這是當人們沒有表現(xiàn)出他們的低注意力水平或者機器人無法檢測到他們的低注意力水平時,機器人將等待的最大時間跨度。在這之前,人們往往表現(xiàn)出較低的注意力水平。因此,如果我們把這個值設置得足夠大,就像我們在實驗中所做的那樣,就不會有嚴重的問題。然而,如果能根據(jù)情況調(diào)整持續(xù) VFOA 的最大時間跨度,實際應用效果會更好。

二、Predicting Engagement in Video Lectures

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖15

論文地址:https://arxiv.org/pdf/2006.00592.pdf

本文談到的注意力也與上文不同,本文關注的是公開的教育資源(Open Educational Resources ,OERs))在線學習過程中學習者觀看課程的注意力集中的程度。這里,「人機交互」指的是學員(人)與機器播放的課程(機)之間的交互情況。在在線學習場景中,一般認為能夠使得學習者高度集中注意力的課程,是更為適合該學習者的課程。經(jīng)典的 OERs 問題更關注個體用戶(學習者)的參與度,而本文的目標是建立模型以找到情景無關的(即基于人群的)參與度特征,這是一個很少研究的問題。

在 OERs 問題中,學習者參與度是一個比受歡迎程度 / 瀏覽次數(shù)更可靠的衡量標準,比用戶評分更為豐富,已經(jīng)證明是衡量學習成果的關鍵組成部分,即:較好的參與度可以增加取得更好學習成果的可能性。本文作者深入探討了建立基于人群的教育參與度預測模型。

1. 研究背景情況

隨著在線學習平臺的普及,越來越多的開放教育資源(OERs)面世。近年來大規(guī)模的教材創(chuàng)作對教育資源的自動管理提出了新的要求。在 OERs 的背景下,這意味著需要能夠自動尋找和推薦符合學習者目標的材料,從而最大限度地提高學習效果。作者認為,實現(xiàn)上述目標主要有兩個途徑:情景化參與(Contextualised Engagement)和情景無關性參與(Context-Agnostic Engagement)。本文探討的是后者,本文研究了情景無關性參與所涉及的特征。這將作為構建整合的教育推薦系統(tǒng)的第一步,為將情景化和情景無關的特征結合提供了可能。

由于相關的研究工作很少,為了在在線教育平臺中部署研究模型,本文作者提出了以下研究問題:

RQ1:如何編碼情景無關性參與?

RQ2:基于跨模態(tài)語言的特征對預測視頻講座的參與度有多有效?

RQ3:是否包含模態(tài)規(guī)范性功能能使性能顯著改善?

RQ4:影響情景無關性參與的特點是什么?

RQ5:預測基于人群的參與比研究個性化參與更有用嗎?

RQ6:我們能否假設一個共同的基礎模型來預測不同知識領域的參與度?

在此基礎上,本文完成了以下主要工作:

結合心理測量學文獻,研究了重新定義用戶參與信號的方法(RQ1)。

提出了兩組易于自動化預測參與度的特征(基于情景無關的質(zhì)量文獻和視頻特定特征的跨模式特征),并評估了它們(RQ2 和 RQ3)預測性能的差異。

構建了一個大型視頻講座數(shù)據(jù)集,并評估了所提出的參與信號和特征集(RQ2-4)的性能。

比較了跨模態(tài)特征,分析了單個特征在預測模型中的影響(RQ4)。

將本文的基于人群的參與方法與個性化的類似方法進行比較,以證明其有用性(RQ5)。

比較了將視頻講座分為兩個不同的知識領域:STEM(如技術、物理和數(shù)學講座)與其他領域(如藝術、社會科學和哲學講座)的參與模式。

本文使用的數(shù)據(jù)來自一個流行的 OERs 資料庫,視頻講座 Net(VLN),地址如下:www.videolectures.net,并從其中選擇了研究人員在同行評審會議上演示的視頻集合。

本文使用的特征包括:

授課時長(Lecture Duration),因為較短的視頻一般更具吸引力;

分塊(Chunking),即演講是否被分成多個部分;

描述授課類型(Type of Lecture)的一組指標變量,如教程、研討會等;

演講者速度(Speaker Speed),使用每分鐘平均講詞量來衡量;

沉默期率(Silence Period Rate,SPR),它是使用視頻記錄中表示沉默的特殊標記計算出來的。具體而言,SPR 計算如下:

其中,t 是屬于第 l 講的標記 t (l) 集合中的標記,N 為標記 t 的類型,D 為標記 t 或講座的持續(xù)時間,I () 是指示函數(shù)。

2. 具體任務分析

2.1 量化參與度(RQ1)

本文關注的參與度是一種隱性用戶反饋。本文用來量化參與度的主要指標是標準化參與 / 觀察時間(Median of Normalised Engagement/Watch Time,MNET)的中位數(shù),MNET 被認為是參與教育材料的黃金標準 [8]。為了使 MNET 標簽在 [0;1] 范圍內(nèi),將 MNET 的上限設置為 1。作者在最初的數(shù)據(jù)分析中發(fā)現(xiàn),VLN 數(shù)據(jù)集中的 MNET 值遵循對數(shù)正態(tài)分布,在這種分布中,大多數(shù)用戶通常在較小的時間閾值后會放棄觀看講座。假設這可能是因為需要一些時間來決定內(nèi)容是否與學習者相關。超過這個閾值的用戶看起來更投入,因此離開率顯著降低。為了解決這個問題本文使用 Log 變換來轉(zhuǎn)換接合信號。最終標簽,即對數(shù)中位數(shù)標準化參與時間(Log Median Normalised Engagement Time,LMNET)計算如下:

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖16

2.2 機器學習模型(RQ2)

為了學習根據(jù)參與度對視頻講座進行排名,本文使用逐點排序模型來評估效果?;貧w算法在實值空間中預測目標變量,這使得它們能夠根據(jù)預測創(chuàng)建觀測值的全局排名。此外,還使用了核函數(shù)評估了參與度預測的性能。引入核函數(shù),能夠有效捕獲數(shù)據(jù)中的非線性特征。本文使用徑向基函數(shù)(Radial Basis Function,RBF)。本文使用的回歸算法包括嶺回歸(Ridge Regression,RR)和支持向量回歸(Support Vector Regression ,SVR)。

此外,本文還評估了兩種算法(常規(guī)算法、RBF 核)、核嶺回歸(KRR)和核支持向量回歸(KSVR)的核化版本的性能?;谶@些評估,能夠了解模式中是否存在非線性特征,從而有利于完成預測任務。在上面討論的所有四個模型中,本文使用標準縮放,因為這些模型并不是尺度不變的。L2 正則化用于防止過度擬合和多重共線性。由于在先前的工作中,基于集合技術的方法也表現(xiàn)良好,本文也使用隨機森林回歸(RF)方法來評估其預測能力。該模型還能夠捕捉非線性模式。

2.3 特征重要性分析(RQ4)

本文使用 SHapley 加法解釋(SHapley Additive exPlanations,SHAP)來進行特征重要性分析。SHAP 是一個模型無關的框架,它量化了特征對模型預測的影響。SHAP 通過為每個預測的每個特征計算一個形狀值,估算了復雜模型族的特征重要性 [9]。通過將預測數(shù)據(jù)點的所有形狀值繪制在形狀摘要圖中,可以確定每個特征對預測結果的影響。通過計算每個特征 f 的平均絕對形狀(Mean Absolute SHAP,MAS)可以對特征影響進行定量分析。具體地,MAS 計算如下:

其中,N 是觀察次數(shù)。

3. 實驗分析

本文通過對兩個特征集進行 5 次交叉驗證來完成對不同機器學習模型的評估。不同機器學習模型在不同參與量化方法下的性能見表 1。添加視頻特定功能時的性能見表 2。本文的實驗是使用 scikitlearn、textatistic 和 SHAP 的 Python 包實現(xiàn)的。

Python 代碼和所使用的數(shù)據(jù)庫已公開:https://github.com/sahanbull/context-agnostic-engagement

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖17

表 1. 基于 5 倍交叉驗證和交叉模態(tài)特征的具有標準誤差的參與預測模型的成對精度(Pair.)和 Spearman 秩相關系數(shù)(SROCC)

3.1 RQ1 任務實驗結果:分析參與度、瀏覽次數(shù)和平均星級評分之間的關系

本文所使用的 VLN 數(shù)據(jù)源中也有考慮不同的講座課程內(nèi)容子集的平均星級評分(顯式反饋)。值得注意的是,我們只能獲得平均星級評級,而不是每個觀察員的個人評級或測量數(shù)量。圖 1 中給出了平均星級 vs MNET 的結果和瀏覽次數(shù)。SROCC 接近于零,這主要是因為講座數(shù)量多、收視率高,但參與度低,而且觀看人數(shù)也不多。作者測試了所考慮的 4 個不同版本的參與度(原始版本、清潔版本、標準化版本和比較版本)的相關性,但都取得了相似的結果,SROCC 接近于零。作者從圖 1 得出結論:瀏覽量、評分和參與度確實代表了非常不同的信息。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖18

圖 1. 散點圖,顯示了(i)瀏覽量與 MNET 之間的關系,(ii)視頻講座的平均星級與 MNET 之間的關系,(iii)平均星級與瀏覽量之間的關系,以及 Spearman 的等級相關系數(shù)(SROCC)。

3.2 RQ1-2 任務實驗結果:測試不同機器學習模型和參與信號的交叉模態(tài)特征

作者提出了四種比較精確的定量方法(原始版本 LMNET、 清潔版本、標準化版本和比較版本),并對這四種方法進行了比較。這個實驗的目的是驗證在給定所提出特征的前提下,哪個輸出目標變量更容易預測。表 2 給出了這些結果,以及在基于 5 倍交叉驗證的標準誤差界下,每個機器學習模型獲得的成對精度(Pair.)和 Spearman 秩序相關系數(shù)(SROCC)。精度值越大,模型的性能越好。這些結果表明,原始 LMNET 可能是最合適的目標標簽,特別是在建立預測原始 LMNET 的模型時,所提出的特征似乎更有用。

作者從表 2 中得出另外一個觀察結論是:KRR 和 KSVR 模型的性能優(yōu)于線性模型。這表明,數(shù)據(jù)集中可能存在非線性的關系,而引入核函數(shù)可以更好地捕捉到這些非線性特征。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖19

表 2. 通過使用基于內(nèi)容的功能與基于內(nèi)容的 + 視頻特定功能的 RF 模型的 5 倍交叉驗證,實現(xiàn)標準誤差的成對準確度。

3.3 RQ3 任務實驗結果:研究情態(tài)特征對跨學科領域的影響和比較

表 3 的結果用于驗證:當僅限于特定主題的比較(屬于同一主題領域的講座對)時,如何提高成對準確度。在多數(shù)情況下,教育推薦系統(tǒng)需要在屬于同一主題領域的一組資源中進行選擇。表 3 還顯示了在專門使用跨模態(tài)功能集和添加視頻規(guī)范化功能時性能的差異。添加視頻功能可使性能提高約 2%。這一結果表明,雖然可以在不同的實際場景中復用特征提取器,但當處理跨模態(tài)的特征時,性能就會受到影響。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖20

表 3. 通過使用基于內(nèi)容的功能與基于內(nèi)容的 + 視頻規(guī)范功能的射頻模型的 5 倍交叉驗證,實現(xiàn)標準誤差的成對準確度。

3.4 RQ4 任務實驗結果:研究與材料長度有關的參與度分布

在這一小節(jié)的實驗中,作者重點研究講座的長度如何影響參與度預測。首先,作者給出了視頻講座中總字數(shù)的分布(圖 3),這與講座視頻的長度直接相關。根據(jù)觀察到的多模態(tài)分布,作者將講座視頻分為兩組,少于 5000 字的短講座和長講座(見圖 4 中的參與度分布)。作者認為,對于長時間的講座,觀看時間的百分比往往較短。圖 4 中的 MNET 分布表明,與短講座相比,長講座的目標值分布更偏向于 0,這表明學習者較不傾向于觀看長視頻片段。這很可能是由其它一些超出了可測量特征范圍的因素造成的,例如有限時間長度內(nèi)的可用性和學習者的注意力持續(xù)時間短等。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖21

圖 3. 視頻講座字數(shù)分布

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖22

圖 4. 短期和長期講座的參與標簽分布

4. 文章小結

這篇文章聚焦的是一個較少提及的研究領域,作者提出了一個情境無關的參與預測模型,該模型有助于改善教育推薦系統(tǒng)的效果。在不斷推出在線學習內(nèi)容的情況下,所提出的預測模型估計了將這些學習內(nèi)容展示給學習者的吸引力,即這些學習內(nèi)容將如何影響學習者的注意力。通過使用這個模型可以更好地平衡與學習者滿意度相關的風險和獲取有效的新學習內(nèi)容的機會。此外,本文提出的情景無關的模型可以以不同的方式與其它應用于在線學習的個性化系統(tǒng)集成。

作者提出,為了進一步改進模型,未來的工作主要關注三個問題:

1)包含更復雜的特性。向模型中引入更為復雜的特征,例如權威性(Authority)和主題覆蓋率(Topic Coverage)等,可能能夠進一步改進模型的效果。

2)在跨模態(tài)方面,可以考慮更多關注基于內(nèi)容理解的特征,如話題連貫性和論據(jù)強度等。在特定的視頻前端,甚至可以融合主持人的生動性、音質(zhì)和敘事品質(zhì)等特征。

3)關于模型的泛化能力,可以使用更大的視頻講座數(shù)據(jù)集和文本數(shù)據(jù)集評估跨模態(tài)特征集的有效性,從而提高特征集的可信度。同樣,也應進一步考慮使用非英語語言的數(shù)據(jù)集。

三、Developing Joint Attention for Children with Autism in Robot-Enhanced Therapy

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖23

論文地址:https://link.springer.com/article/10.1007/s12369-017-0457-0

本文討論的是社交機器人的一個醫(yī)療類的應用,即對于患有自閉癥(Autism Spectrum Disorder,ASD)的孩子提供機器人輔助的增強治療。造成自閉癥的主要心理因素之一是缺乏與互動伙伴的共同注意力(Joint Attention,JA)。社交機器人在自閉癥兒童的干預中具有重要的應用價值,尤其是在針對諸如共同注意力 JA 等技能時。之前關于兒童自閉癥的研究顯示,自閉癥兒童在接受機器人互動訓練后確實能夠改善他們的 JA 表現(xiàn)?;谶@一研究結論,本文作者認為,在機器人輔助下實施的干預措施有可能成為有效的 ASD 兒童 JA 技能訓練和干預的措施。

因此,本文的主要研究目的是探討自閉癥兒童的 JA 表現(xiàn)是否依賴于機器人在治療過程中使用的社交線索(Social Cues)。本文主要考慮了三種不同類型的社交線索:頭部方向(head orientation),指示( pointing)和口頭指令( vocal instruction)。作者認為,機器人使用的社交線索越多,兒童的表現(xiàn)就會越好。此外,本文利用了歐盟 Dream 項目(https://www.dream2020.eu/)開發(fā)的 NAO 機器人,研究了機器人強化治療與標準人類治療是否具有相似的模式。

1. 研究內(nèi)容介紹

共有 11 名兒童參與了這項研究,但只有 5 名兒童符合納入標準,即:(1)基于 DSM-5 的自閉癥診斷,(2)根據(jù)自閉癥診斷觀察量表(ADOS)進行診斷確認的,(3)在執(zhí)行目標行為方面存在明顯的困難的。所有的兒童都是從自閉癥特蘭西瓦尼亞協(xié)會(Cluj Napoca,羅馬尼亞)招募的,這是一個為自閉癥兒童提供專門服務的中心。參與測試的兒童的資料見表 1。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖24

表 1. 受試者情況描述

本文的實驗采用了經(jīng)典的單病例替代治療設計 [10]。單病例替代治療設計可以為治療手段的干預效果提供嚴格的實驗評估,以及具有以下幾個基本特點:(1)確定基線測量值;(2)連續(xù)和重復測量依賴變量;(3) 獨立變量操作;(4)針對同一受試者隨時間復制干預效果。單病例替代治療設計提供了對一個受試者比較兩種治療方案的可能性。因此,在一個基線時期內(nèi),兩個治療方案(A 和 B)以交替(隨機)順序進行,從而完成對一個或多個行為影響的觀察。分別繪制出每種干預措施的效果數(shù)據(jù),以給出每種治療效果的直觀表示。

在受試的各個階段,兒童都直接與機器人 / 人類互動。在機器人增強治療(robot-enhanced treatment,RET)條件下,機器人坐在桌子上,而基線測量(baseline measurement,BM)和標準人類治療(standard human treatment,SHT)條件下,治療師坐在桌子后面的椅子上,具體見圖 1。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖25

圖 1. 實驗環(huán)境:兒童、互動伙伴(機器人 / 人類)和調(diào)解人

在房間的右側(cè),操作員使用「Wizard of Oz」范式控制機器人的動作。在所有的任務中,都有調(diào)解人作為第三者參與交互,他的任務是在參與交互的伙伴(機器人或人類)和孩子之間進行協(xié)調(diào)以及提供必要的提示。攝像機和傳感器放置在實驗室機器人后面的位置,以捕捉孩子與機器人 / 人類互動時的面部表情、凝視和動作。

「Wizard of Oz」機器人實驗,意思是受試者與被認為是自主的計算機系統(tǒng)進行交互,但實際上是由看不見的人操作或部分操作。

本文按照離散實驗的方式完成任務,這是自閉癥早期干預計劃中常用的方法。這種方法主要針對訓練幾種技能以及在這幾種技能的基礎上隨后教授更復雜的行為。這種方法的特點是:教學環(huán)境是高度結構化的,行為被分解成離散的子技能,并以多次、連續(xù)的實驗方式來呈現(xiàn);通過明確的提示,教孩子對伙伴所發(fā)出的辨別性刺激做出反應。

按照單例實驗設計,每個孩子都會經(jīng)歷以下的實驗場景。

基線測量(BM),大約 6 到 8 次測量,直到達到一個穩(wěn)定的基線水平。

機器人強化治療(RET),約 8 個療程。

標準人治療(SHT),約 8 個療程。

RET 或 SHT,具體取決于哪種治療方法對孩子的效果更好,大約 4 次治療。

每個療程持續(xù)約 10 分鐘,每天都會重復進行這些療程。RET 和 SHT 之間的順序是隨機的,以避免在實驗中出現(xiàn)順序效應?;€的療程是在與治療師的互動中進行的,這部分實驗滿足了離散實驗的要求。對孩子進行測試,在沒有明確的提示、提示消退或后援的情況下,驗證他們是否會對伙伴發(fā)出的辨別性刺激做出反應。JA 任務的結構包括:指示(instruction)、反應(response)和結果(consequence),具體見表 2。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖26

表 2. JA 任務結構

實驗中所產(chǎn)生的的所有變量均使用用于對行為動作編碼的 Elan – 語言注釋器(4.5 版)進行人工編碼 [10]。變量只在任務過程中進行評估,而不需要在介紹或演示階段進行評估。對于兒童對指令的反映情況,依照表 3 中給出的行為網(wǎng)格進行評估。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖27

表 3. 評估 JA 表現(xiàn)的行為網(wǎng)格

本研究使用的是由 Softbank Robotics 開發(fā)的人形機器人 NAO [11]。NAO 高 58 厘米,重量為 5 公斤,運動自由度為 25 度。它配備了豐富的傳感器陣列,2 個攝像頭,4 個麥克風,聲納測距儀、2 個紅外發(fā)射器和接收器、1 個慣性板、9 個測距儀,以及觸覺傳感器和 8 個壓力傳感器。NAO 的設備還包括 LED 燈、兩個揚聲器以及具有特定語言的語調(diào)和語速的語音合成器。

為了分析數(shù)據(jù),本文使用了一個綜合非參數(shù)測試(Friedman)比較了每種類型會話(BM、SHT、RET)在三種提示條件(看、看 + 指示、看 + 指示 + 口頭指令)下的表現(xiàn)。與第一篇文章類似,本文也使用 Wilcoxon 符號秩檢驗進行兩兩比較,以確定產(chǎn)生具有統(tǒng)計學意義的性能差異的條件。最后,本文還計算了一個參數(shù)效應大小指標(Cohens d),以量化這些條件之間的差異。

2. 實驗分析

作者在原文中,分別給出了參與受試的 5 名兒童的實驗結果,我們在這篇文章中以第一名兒童的結果作為示例進行分析。對于這名兒童,BM 中的綜合非參數(shù)(Friedman)檢驗顯示在三種提示條件之間存在顯著差異,chi^2(2)=14.77,p=.001。隨后,采用 Wilcoxon 符號秩檢驗對這一效應進行了兩兩比較,結果表明,頭部定向(head orientation)比指示方法(pointing)得分低,Z=?2.56,p=.011,Cohen d=?4.55,而得分最低的是指示(pointing)+ 口頭指令(vocal instruction),Z=?2.59,p=.010,d=-4.55。指示(pointing)與指示(pointing)+ 口頭指令(vocal instruction)的方法之間無顯著性差異,p>0.05。

SHT 的結果也相似,綜合非參數(shù)(Friedman)檢驗顯示三種類型的提示有顯著差異,chi^2(2)=15.08,p=.001。兩兩比較表明,頭部定向(head orientation)情況下的得分明顯低于指示方法(pointing),Z=?2.60,p=.009,d=?9.22,以及指示(pointing)+ 口頭指令(vocal instruction),Z=?2.59,p=.010,d=?4.68。指示(pointing)與指示(pointing)+ 口頭指令(vocal instruction)之間無顯著性差異,p>0.05。

此外,RET 也給出了類似的實驗結果,綜合非參數(shù)(Friedman)檢驗顯示三種類型的提示有顯著差異,chi^2(2)=7.53,p=.023。頭部定向的得分低于指示方法,Z=-2.53,p=.012,d=-2.59,而指示 + 口頭指令,Z=-2.38,p=.017,d=-3.71。在 RET 條件下,指示與指示 + 口頭指令的方法比較無顯著性差異(p>0.05)。

圖 2 給出了這個參與者的實驗結果,而表 4 給出了針對該實驗結果的統(tǒng)計分析。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖28

圖 2. 第 1 名參與者在激勵類型和會話類型上的 JA 表現(xiàn)(X 軸表示受試者在 JA 任務中得到的分數(shù);Y 軸表示會話數(shù))。

不一樣的“注意力”:人機交互注意力的測量指標與利用插圖29

表 4. 第一位受試者接受不同指令后的綜合結果和效果大小對比(Cohens d)。

3. 文章小結

在針對 ASD 兒童的治療中,有很多種不同的方法都可以用于定義兒童和社交機器人之間的互動 [12],本文主要使用的是 JA 相關的任務,即兒童參與到任務中并在整個會話過程中保持對解決問題的注意力。

本文給出了一個詳細的實驗并對結果進行了分析。本文的研究結果表明,指示(pointing)是 ASD 兒童參與 JA 活動的一個重要線索,因此,指示(pointing)可以用于改進自閉癥兒童 JA 技能的機器人增強干預。作者認為,由本文的研究結論可以推斷,機器人的互動遵循著與人類互動相似的模式,而指示(pointing)是吸引自閉癥兒童的關鍵因素。

四、本文小結

本文關注了人機交互中的注意力問題,結合在社交機器人中的應用,具體探討如何通過注意力的方式建立人和機器之間的溝通渠道,以改進機器 / 機器人與人類的交互效果。

本文詳細介紹了一篇根據(jù)視覺注意力焦點來吸引和控制目標人注意力的技術分析文章,此外還介紹了兩個實踐中的應用,一是在線教育效果評估,另外一個是針對自閉癥兒童的機器人輔助治療。

近兩年,社交機器人的研究及應用逐漸退火,研究層面對類似問題的關注也逐漸減少。如何令機器人真正像人一樣思考和交流,關注「注意力」也許是一個很好的切入點。

參考文獻

[1] Stiefelhagen, R Waibel, A, Modeling focus of attention for meeting indexing based on multiple cues,IEEE TRANSACTIONS ON NEURAL NETWORKS,2002,https://www.onacademic.com/detail/journal_1000011496569999_01e2.html

[2] M. Hayhoe and D. Ballard, “Eye movements in natural behavior,” Trends Cognitive Sci., vol. 9, no. 4, pp. 188–194, 2005.

[3] F. Tarr′es, (2013, Mar.). “GTAV face database.” [Online]. Available: http://gps-tsc.upc.es/ GTAV/ ResearchAreas /UPCFaceDatabase /GTAVF aceDatabase.htm

[4] S. S. Beauchemin and J. L. Barron, “The computation of optical flow,” ACM Comput. Surv., vol. 27, no. 3, pp. 433–467, 1995.

[5] P. A. Viola and M. J. Jones, “Robust real-time face detection,” Int. J. Comput. Vision, vol. 57, no. 2, pp. 137–154, 2004.

[6] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” in Proc. IEEE Comput. Soc. Conf. Comput. Vision Pattern Recog., 2005, pp. 886–893.

[7] Y. Kobayashi and Y. Kuno, “People tracking using integrated sensors for human robot interaction,” in Proc. IEEE Int. Conf. Ind. Technol., Ann Arbor, MI, USA, Mar. 14–17, 2010, pp. 1597–1602.

[8] P. J. Guo, J. Kim, and R. Rubin. How video production affects student engagement: An empirical

study of mooc videos. In Proc. of the First ACM Conf. on Learning @ Scale, 2014.

[9] S. M. Lundberg and S.-I. Lee. A unied approach to interpreting model predictions. In Advances in Neural

Information Processing Systems. 2017.

[9] Barlow DH, Hayes SC (1979) Alternating treatments design: one strategy for comparing the effects of two treatments in a single subject. J Appl Behav Anal 12(2):199–210

[10] Lausberg H, Sloetjes H (2009) Coding gestural behavior with the NEUROGES-ELAN system. Behav Res Methods 41(3):841–849

[11] Gouaillier D, Hugel V, Blazevic P, Kilner C, Monceaux J, Lafourcade P, Maisonnier B (2009) Mechatronic design of NAO humanoid. In: Robotics and automation, 2009. ICRA’09. IEEE international conference on 769–774. IEEE

[12] Anzalone SM, Boucenna S, Ivaldi S, ChetouaniM(2015) Evaluating the engagement with social robots. Int J Soc Robot 7(4):465–478

分析師介紹:

本文作者為仵冀穎,工學博士,畢業(yè)于北京交通大學,曾分別于香港中文大學和香港科技大學擔任助理研究員和研究助理,現(xiàn)從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關于機器之心全球分析師網(wǎng)絡 Synced Global Analyst Network

機器之心全球分析師網(wǎng)絡是由機器之心發(fā)起的全球性人工智能專業(yè)知識共享網(wǎng)絡。在過去的四年里,已有數(shù)百名來自全球各地的 AI 領域?qū)I(yè)學生學者、工程專家、業(yè)務專家,利用自己的學業(yè)工作之余的閑暇時間,通過線上分享、專欄解讀、知識庫構建、報告發(fā)布、評測及項目咨詢等形式與全球 AI 社區(qū)共享自己的研究思路、工程經(jīng)驗及行業(yè)洞察等專業(yè)知識,并從中獲得了自身的能力成長、經(jīng)驗積累及職業(yè)發(fā)展。

原標題:《不一樣的「注意力」:人機交互注意力的測量指標與利用》

聯(lián)系我們

聯(lián)系我們

0769-81627526

在線咨詢: QQ交談

郵箱: info@kingpo.hk

工作時間:周一至周五,9:00-17:30,節(jié)假日休息
關注微信
微信掃一掃關注我們

微信掃一掃關注我們

手機訪問
手機掃一掃打開網(wǎng)站

手機掃一掃打開網(wǎng)站

返回頂部
无锡市| 五台县| 松潘县| 阳曲县| 锦州市| 景泰县| 鄂州市| 新源县| 高青县| 阿瓦提县| 宜黄县| 营山县| 平山县| 河津市|