優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

基于非統(tǒng)計約束的計算機化自適應(yīng)測驗選題策略

作者:章滬超 來源:《上海輕工業(yè)》日期:2024-05-24人氣:785

0 引言

與傳統(tǒng)考試相比,計算機化自適應(yīng)測驗(CAT)它使用更少的項目來確定對考生同樣有用的分數(shù),使用CAT來評估學生在標準化考試(如GMAT和GRE)中的能力已經(jīng)越來越受歡迎,因為它能夠自適應(yīng)地尋找最適合每個學生的問題。CAT是一種個性化測試,與標準測試/評估系統(tǒng)不同,它根據(jù)學生對前幾道題的反應(yīng)自適應(yīng)地選擇下一道題,從而成功縮短了測試長度。CAT系統(tǒng)通常構(gòu)成如下:知識水平評估器,根據(jù)學生對先前問題的回答確定學生當前的知識水平;回答模型:根據(jù)知識水平估計和問題特征,確定學生正確回答問題的可能性;以及一種問題選擇算法,根據(jù)響應(yīng)模型的輸出選擇最具適應(yīng)性的問題作答。

在考試期間,計算機化的自適應(yīng)測試可以訪問有組織的項目池。這些項目從容易到復雜,根據(jù)收集的數(shù)據(jù)計算的難度值。一個更好的項目池將在每個困難級別有很多項目。在回答問題時,CAT算法將從池中提取一個項目,這個項目或多或少與考生最新的估計能力相匹配--這將持續(xù)到測試結(jié)束。簡而言之,當考生回答一個項目時,計算機重新估計測試人員的能力,并從項目庫中選擇一個不同的問題,即考生應(yīng)該有50%的機會正確回答,這樣做是為了在一個共同的尺度上更準確地衡量考生的能力。 

一般而言,在測試期間,如果一個人的估計能力很高(也就是說,在較困難的問題上回答得很好),CAT會估計他們的能力是“高”的,并從池中的“困難題庫”中挑選和呈現(xiàn)一個項目。從低到高的每一估計能力水平,以及從窄到寬的任何數(shù)量的能力水平,都是相同的過程。

當有足夠的問題被問和被回答時就會計算出考生的可靠分數(shù)。得分的依據(jù)不是正確回答的問題數(shù)量,而是人能夠正確回答的項目的難度水平。

這種計算機化自適應(yīng)測驗帶來了以下具體好處:一是測試花費的時間更少。考生花在考試上的時間將會減少,有時會比平時的考試時間減少50%甚至更多;二是降低測試成本。節(jié)省時間等同于降低考試管理費用;三是提高了測試安全性。向每位考生披露較少的項目降低了池中項目的總體平均曝光率[1]。這使得在現(xiàn)場考試管理中很難通過抄襲答案來作弊;四是減少疲勞和無聊。對于每個考生來說,不需要回答簡單和困難的問題,會讓大部分問題都具有適度的挑戰(zhàn)性,這是一個更愉快的測試體驗。

相對于0-1評分,多級評分的選題策略就相對比較匱乏和不成熟,國內(nèi)外對于多級評分的研究成果也屈指可數(shù),包括四種難度匹配法和加入曝光率控制因子法如引入影子題庫法[3]等。然而多級評分CAT有0-1評分CAT無法比擬的優(yōu)勢,比如項目區(qū)分度相同時,多級評分項目比0-1評分項目往往可以獲得更多的信息量等。所以為了提高測驗的質(zhì)量,對多級評分模型下的CAT研究就顯得很有必要。

選題策略是CAT最為重要的部分具體算法包括Kullback-Leibler信息量(KLI)、最大Fisher信息(MFI)及其多變量擴展,最初都是專門為IRT模型創(chuàng)建的。最近,MAAT和BOBCAT算法在基于深度神經(jīng)網(wǎng)絡(luò)中表現(xiàn)出良好的性能和靈活性。NCA是一種基于強化學習的技術(shù),它根據(jù)注意力來選擇問題。通過從Boltsmann分布中選取樣本,而NCAT可以進一步調(diào)節(jié)問題暴光度,降低題目的曝光率。RAT通過捕捉學生資質(zhì)的許多特征來幫助選擇算法。此外,還有更多基于數(shù)據(jù)驅(qū)動和深度學習的算法被開發(fā)出來。

1 基于等級反應(yīng)模型下的選題策略

1.1 多級評分選題策略

(1)平均難度匹配法:即,其中滿足以下要求,

(2)去兩端平均數(shù)匹配法:即,滿足以下要求,

(3)等級難度匹配法:即。

(4)中位數(shù)匹配法:即,其中滿足以下要求,

(5)最大Fisher信息量法。

(6)結(jié)合按區(qū)分度分層能力匹配法。

1.2 新的選題策略

實際研究表明,提高測驗的效率和降低項目的曝光率這兩項指標往往是相沖突的,所以關(guān)鍵是找到能同時兼顧這兩項指標的新的選題策略,即在測驗效率沒有明顯降低的前提下較明顯的降低項目曝光率亦或是沒有明顯提高項目曝光率的同時較明顯的提高測驗效率。由于項目反應(yīng)理論(IRT)多級評分的數(shù)學模型中不止一個單獨的難度參數(shù),而需要多個難度等級步驟參數(shù),涉及到不同類型特征曲線間的組合運算及這些組合的累加運算,其函數(shù)關(guān)系遠比0-1評分來得復雜。目前也很難找到一種在不加入曝光率控制因子的前提下較好的兼顧以上兩項指標的選題策略。

CAT問題中,選擇測試項策略的主要目標之一是準確地估計個體盡量少的測試項下的水平,并提供覆蓋所有測試項的最佳策略。因此,研究問題可以分為兩個子問題(即估計個體的水平和根據(jù)預測的水平確定選擇測試項目的策略)。因此,通過非統(tǒng)計約束方法,探索既能滿足測量精度又不降低題庫安全性和測驗效率的選題策略是本文的研究目標。

定義: 區(qū)分度近似分布分層法(A-ADS):選題按區(qū)分度遞增排序,從預備題庫的第一個題目開始每間隔n選取一個他題目組成一層,以此類推組成n層,再運用多級評分的三種難度匹配法進行選題。這樣分層的好處在于將一個大的題庫按相近的分布分成了n個小題庫,相當于把一次大測驗分成了n次小的測驗讓被試施測,而每次小測驗被試都有機會選取不同區(qū)分度大小的項目,從而避開了按區(qū)分度分層法中每層只能選取區(qū)分度值域較小的項目。

2  MonteCarlo模擬實驗

本實驗采用Matlab進行Monte Carlo模擬實驗,以考察新方法的表現(xiàn)。

2.1 施測過程

隨機選三個項目施測計算出被試能力初值,后實施能力精確估算,并用貝葉斯后驗期望估算出被試能力值。重復以上步驟,直到滿足測驗結(jié)束條件。為了降低模擬實驗的誤差,每一種實驗方法重復30次。

2.2 評價指標

本文分別用(1) 平均偏差(Bias)、(2)能力估計的準確性(ABS)、(3)能力估計標準差(SD)這三項指標來評價能力估計情況,其中Bias越小越好,ABS和SD越小說明估計的精度越高[7];用(4)人均用題數(shù)(Nf)、(5)測驗效率(Eff)這兩項指標來評價效率,Nf越小越好,Eff越大約好;用(6)項目調(diào)用的均勻性(SE)、(7)卡方檢驗統(tǒng)計量()和(8)測試重疊率(Rt)這三項指標來評價項目曝光率,SE、和Rt越小說明項目的曝光率越均勻。

3 實驗結(jié)果與分析

1區(qū)分度近似分布分層法與區(qū)分度分層能力匹配法結(jié)果對比表

項目參數(shù)分別 評價

指標 平均數(shù)法 等級難度匹配法 中位數(shù)法

A-STR A-ADS A-STR A-ADS A-STR A-ADS

區(qū)分度服從對數(shù)標準正態(tài)分布,難度服從(-3,3)上的均勻分布 I1 0.0017 -0.0011 -0.0011 -0.0020 0.0043 -0.0011

I2 0.1863 0.1816 0.1886 0.1715 0.1885 0.1879

I3 0.2215 0.2137 0.2150 0.2118 0.2247 0.2257

I4 27.5924 20.3456 26.2821 16.1031 26.1509 16.7951

I5 0.6252 0.8367 0.6695 1.0685 0.6684 1.0217

I6 24.8609 19.1301 24.3218 16.2476 30.6271 21.7965

I7 21.3061 15.7853 20.3742 13.8673 32.6481 21.6831

I8 0.0553 0.0447 0.0551 0.0398 0.0687 0.0489

區(qū)分度服從對數(shù)標準正態(tài)分布,難度服從標準正態(tài)分布 I1 -0.0015 0.0009 -0.0011 -0.0007 0.0049 0.0021

I2 0.1864 0.1858 0.1875 0.1708 0.1865 0.1776

I3 0.2232 0.2215 0.2246 0.2211 0.2221 0.2214

I4 24.6657 15.6158 23.6463 15.5762 24.8267 15.6427

I5 0.7261 1.0893 0.7462 1.1163 0.7087 1.1212

I6 35.1847 28.5406 17.4204 12.9561 26.8289 22.2614

I7 44.7342 43.4021 11.3844 9.1809 25.8226 26.4090

I8 0.0851 0.0739 0.0425 0.0327 0.0595 0.0534

區(qū)分度服從(0.2,2.5)上的均勻分布,難度服從(-3,3)上的均勻分布 I1 -0.0040 0.0024 0.0002 -00010 -0.0018 -0.0013

I2 0.1862 0.1851 0.1878 0.1856 0.1880 0.1796

I3 0.2225 0.2133 0.2245 0.2147 0.2241 0.2193

I4 15.1647 12.9514 13.1231 10.3393 13.9585 10.6573

I5 1.1678 1.3324 1.3545 1.6820 1.2794 1.6548

I6 16.5568 15.6182 14.8796 13.1705 18.7264 14.6131

I7 16.1456 15.4561 13.7175 13.1125 20.6512 15.6087

I8 0.0387 0.0375 0.0365 0.0331 0.0456 0.0371

區(qū)分度服從(0.2,2.5)上的均勻分布,難度服從標準正態(tài)分布 I1 -0.0012 0.0024 -0.0031 0.0036 0.0032 0.0012

I2 0.1865 0.1843 0.1865 0.1853 0.1873 0.1864

I3 0.2214 0.2212 0.2237 0.2254 0.2224 0.2253

I4 13.2295 10.4888 13.3045 10.6011 12.4458 9.9768

I5 1.3484 1.6627 1.3654 1.6553 1.4559 1.7668

I6 24.3461 20.1598 11.9171 11.1799 19.5561 17.4009

I7 36.8494 30.4381 8.7140 9.2052 24.6566 23.0712

I8 0.0641 0.0545 0.0295 0.0271 0.0489 0.0431

為了描述方便,I1-I8依次代表Bias、ABS、SD、Nf、Eff、SE、和Rt這八項評價指標。

從表1得出,偏差值((1) 平均偏差、(2)能力估計的準確性、(3)能力估計標準差均很接近于零,說明這幾種方法的估計均接近于無偏估計,相比較而言區(qū)分度近似分布分層法(A-ADS)更接近于0,說明該方法的更接近于無偏估計;在人均用題數(shù)指標上A-ADS均優(yōu)于A-STR,處區(qū)分度服從(0.2,2.5)上的均勻分布的圖庫外測驗效率指標上A-ADS均優(yōu)于A-STR,特別是前兩個題庫,其優(yōu)勢更為明顯;此外,在項目調(diào)用的均勻性、卡方檢驗統(tǒng)計量和測試重疊率這三個指標上,除了第二個題庫外,A-ADS法均較明顯優(yōu)于A-STR法。

4  結(jié) 語

總結(jié)以上論述可以認為A-ADS該方法在曝光率方面,與按區(qū)分度分層和能力匹配法結(jié)合的結(jié)果相接近的條件下,較明顯的提高了測驗的效率。


本文來源:《上海輕工業(yè)》http://xwlcp.cn/w/kj/30978.html

網(wǎng)絡(luò)客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權(quán)、違規(guī),請及時告知。

版權(quán)所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關(guān)注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關(guān)注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言