人工智慧自動生成英文測驗之成效評估

  • 刊登日期: 2021-02-09
執行方法及步驟 本計劃為外文系、資工系之跨領域計畫,共同開發合適應用英語教學場域之AI輔助命題系統。資工系專注於開發問題生成模型、題組生成模型、誘答選項生成模型,並將所有模型整合至Querator AI 輔助命題系統。外文系聚焦於資料蒐集,包含:蒐集考題建置資料集、學生作答記錄、教師對AI命題之感知問卷,以及AI輔助命題系統之使用經驗問卷、學生對AI命題之感知問卷。

模型開發
Question Group Generation: 問題生成於自動化閱讀理解測驗中扮演重要角色。隨著深度學習技術之成長,問題生成模型也有著長足之進步。也有許多卓越的研究成果與模型之使用已被提出。也因此觸發了本跨域合作之可能。計畫進行深度訪談以了解教師們的使用需求,我們發現生成問題題組(Question Group)反而是教師們覺得更實際的自動出題功能。然而,我們發現現有的QG生成模型,當初在設計考量時並非考慮一次生成一個題組; 現有QG模型主要考量一次生成一個問題題幹。針對題組,則呼叫同樣的模型多次來生成結果。也因此觸發了我們開發問題題組生成之動機。我們稱這樣的任務為QGG (Question Group Generation)。利用現有QG模型主要考量一次生成一個問題的做法忽略了問題題組中的問題彼此間應該要有所互補,涵蓋不同的難易度、不同的題目類型、不同的文章內容涵蓋區域。具體而言,根據與外文系老師們討論,QGG應當考量:
● 
Intra-Group Similarity (題組內部相似度). 一個有鑑別度且理想之問題題組應該包含語法差異、語意差異、內容涵蓋度差異。
● Type Diversity (類型多樣性). 閱讀測驗主要鑑別學生理解文字與文意之差別。當中包含著許多不同的閱讀技能。比如說推斷一個字的字義,猜測一個字的字根,語義推理能力等等。因此QGG任務生成的同時也應該考量題型的多樣性。
 
在本年度的合作中,我們探討研究QGG任務(考量上述的兩個目標屬性)。我們提出一個框架其由兩個階段構成(如下圖所示)。第一個QGG生成階段為生成多個大量的問題候選 (a candidate pool)。我們設計不同的機器學習方法與負樣本學習技巧,並基於預訓練之語言模型來進行問句生成以確保其流暢性。第二個步驟則是利用組合最佳化(Combinational Optimization)的方式考量生成群組間之type diversity, intra-group similarity, result quality, 以及context coverage


資料蒐集
從考古題、教科書、參考書中蒐集高品質之考題,建置模型之訓練資料集與測試資料集。
  1. 為檢視 AI 生成之考題的難易度與鑑別度是否與人工命題相似,我們隨機混合30題老師出的考題與30AI生成之考題,製作成一份包含30個題目的考卷。我們招募150位大一英文的修課學生來作答,並搜集作答記錄。
  2. 我們製作一份考卷共20題,當中10題為人工命題與10題為AI命題,並招募300位大一英文的修課學生來作答,並填寫一份對考題的感知問卷,調查是否能判斷哪些題目為人工命題,哪些題目為AI命題,並詢問學生的判斷依據。
  3. 我們招募30位英文老師分別評估AI生成之題目與選項的品質,對生成之考題進行修訂,並填寫問卷。此外,老師使用團隊開發的 3 個「AI 命題輔助系統」分別生成 5 個考題,命題者對AI生成考題的品質進行評估與修訂,並填寫系統使用經驗的問卷。
  4. 我們招募10位英文老師隨意使用三個系統出五道題目。老師在命題過程中大聲說出腦中的思緒,團隊全程錄音與螢幕錄影(放聲思考法),以分析老師命題邏輯與如何在AI的輔助下命題。
執行績效 模型開發:
對於性能評估,我們從 RACE 構建一個數據集(稱為 QGG-RACE)用於性能評估。 RACE數據集是一個考試類型的閱讀理解數據集,它是從國高中學生的真實英語考試中收集的。 我們的 QGG-RACE RACE 的一個子集。 26640 個(23971 個用於訓練,1332 個用於開發,1337 個用於測試)段落和問題組。 每組由 2.69 個問題組成。 我們通過 (1) 群組質量評估來評估我們的表現。我們使用 Bleu Rouge-L 指標來衡量與黃金標籤相關的問題質量。(2)群體多樣性評估:為了衡量群體問題的多樣性,我們採用了 Self-Bleu Self-Rouge-L 指標。 結果總結如下:


資料蒐集與初步分析:
  1. 我們於2-6月的期間蒐集了約莫6000題的考題。
  2. 我們6月開始招募學生作答,已蒐集學生作答記錄,一共123份。
  3. 我們11月開始招募學生填寫感知問卷,已蒐集200份。
  4. 我們從9月份開始招募老師評估AI生成考題之品質、填寫相關問卷以及系統使用經驗,資料已進行初步整理,結果指出大多數老師較滿意QGG模型,25位中有18位老師認為此系統有助於命題,而誘答選項生成模型的品質則仍待加強。
  5. 我們已蒐集完成10位老師的口述命題過程與螢幕錄影。
結論與建議
  1. 首先,我們為國內外第一個探討這個議題之研究團隊,我們也仔細分析組成一個問題群組之重要元素,並提出了一個效能優異的深度學習模型。
  2. 我們認為QGG應該被視為一個組合最佳化的問題。單靠深度學習生成模型並無法達成有效的問題題組生成。
  3. 我們也透過實驗與人工效能評估證實我們方法的有效性,並進行內部元件的比較。
  4. 初步問卷調查結果亦指出教師認為QGG題組生成模型有助於命題,惟誘答選項生成模型仍需加強。
我們將完成預計的資料蒐集、整理與分析,應可更清楚掌握老師命題邏輯、需求,以及模型生成的考題是否符合所需,如此一來,可以更加清楚定義AI自動生成閱讀測驗相關領域待解決的問題。

QGG模型網址:https://demo.nlpnchu.org/
AI輔助命題系統網址:https://app.queratorai.com
附件