基于非統(tǒng)計(jì)約束的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略

作者：章滬超來源：《上海輕工業(yè)》日期：2024-05-24人氣：956

0　引言

與傳統(tǒng)考試相比，計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(CAT)它使用更少的項(xiàng)目來確定對(duì)考生同樣有用的分?jǐn)?shù)，使用CAT來評(píng)估學(xué)生在標(biāo)準(zhǔn)化考試(如GMAT和GRE)中的能力已經(jīng)越來越受歡迎，因?yàn)樗軌蜃赃m應(yīng)地尋找最適合每個(gè)學(xué)生的問題。CAT是一種個(gè)性化測(cè)試，與標(biāo)準(zhǔn)測(cè)試/評(píng)估系統(tǒng)不同，它根據(jù)學(xué)生對(duì)前幾道題的反應(yīng)自適應(yīng)地選擇下一道題，從而成功縮短了測(cè)試長(zhǎng)度。CAT系統(tǒng)通常構(gòu)成如下:知識(shí)水平評(píng)估器，根據(jù)學(xué)生對(duì)先前問題的回答確定學(xué)生當(dāng)前的知識(shí)水平；回答模型:根據(jù)知識(shí)水平估計(jì)和問題特征，確定學(xué)生正確回答問題的可能性;以及一種問題選擇算法，根據(jù)響應(yīng)模型的輸出選擇最具適應(yīng)性的問題作答。

在考試期間，計(jì)算機(jī)化的自適應(yīng)測(cè)試可以訪問有組織的項(xiàng)目池。這些項(xiàng)目從容易到復(fù)雜,根據(jù)收集的數(shù)據(jù)計(jì)算的難度值。一個(gè)更好的項(xiàng)目池將在每個(gè)困難級(jí)別有很多項(xiàng)目。在回答問題時(shí),CAT算法將從池中提取一個(gè)項(xiàng)目,這個(gè)項(xiàng)目或多或少與考生最新的估計(jì)能力相匹配--這將持續(xù)到測(cè)試結(jié)束。簡(jiǎn)而言之，當(dāng)考生回答一個(gè)項(xiàng)目時(shí),計(jì)算機(jī)重新估計(jì)測(cè)試人員的能力,并從項(xiàng)目庫中選擇一個(gè)不同的問題,即考生應(yīng)該有50%的機(jī)會(huì)正確回答，這樣做是為了在一個(gè)共同的尺度上更準(zhǔn)確地衡量考生的能力。

一般而言，在測(cè)試期間，如果一個(gè)人的估計(jì)能力很高(也就是說,在較困難的問題上回答得很好)，CAT會(huì)估計(jì)他們的能力是“高”的,并從池中的“困難題庫”中挑選和呈現(xiàn)一個(gè)項(xiàng)目。從低到高的每一估計(jì)能力水平,以及從窄到寬的任何數(shù)量的能力水平，都是相同的過程。

當(dāng)有足夠的問題被問和被回答時(shí)就會(huì)計(jì)算出考生的可靠分?jǐn)?shù)。得分的依據(jù)不是正確回答的問題數(shù)量，而是人能夠正確回答的項(xiàng)目的難度水平。

這種計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)帶來了以下具體好處:一是測(cè)試花費(fèi)的時(shí)間更少。考生花在考試上的時(shí)間將會(huì)減少，有時(shí)會(huì)比平時(shí)的考試時(shí)間減少50%甚至更多；二是降低測(cè)試成本。節(jié)省時(shí)間等同于降低考試管理費(fèi)用；三是提高了測(cè)試安全性。向每位考生披露較少的項(xiàng)目降低了池中項(xiàng)目的總體平均曝光率[1]。這使得在現(xiàn)場(chǎng)考試管理中很難通過抄襲答案來作弊；四是減少疲勞和無聊。對(duì)于每個(gè)考生來說，不需要回答簡(jiǎn)單和困難的問題，會(huì)讓大部分問題都具有適度的挑戰(zhàn)性，這是一個(gè)更愉快的測(cè)試體驗(yàn)。

相對(duì)于0-1評(píng)分，多級(jí)評(píng)分的選題策略就相對(duì)比較匱乏和不成熟，國(guó)內(nèi)外對(duì)于多級(jí)評(píng)分的研究成果也屈指可數(shù)，包括四種難度匹配法和加入曝光率控制因子法如引入影子題庫法[3]等。然而多級(jí)評(píng)分CAT有0-1評(píng)分CAT無法比擬的優(yōu)勢(shì)，比如項(xiàng)目區(qū)分度相同時(shí)，多級(jí)評(píng)分項(xiàng)目比0-1評(píng)分項(xiàng)目往往可以獲得更多的信息量等。所以為了提高測(cè)驗(yàn)的質(zhì)量，對(duì)多級(jí)評(píng)分模型下的CAT研究就顯得很有必要。

選題策略是CAT最為重要的部分具體算法包括Kullback-Leibler信息量(KLI)、最大Fisher信息(MFI)及其多變量擴(kuò)展，最初都是專門為IRT模型創(chuàng)建的。最近，MAAT和BOBCAT算法在基于深度神經(jīng)網(wǎng)絡(luò)中表現(xiàn)出良好的性能和靈活性。NCA是一種基于強(qiáng)化學(xué)習(xí)的技術(shù)，它根據(jù)注意力來選擇問題。通過從Boltsmann分布中選取樣本，而NCAT可以進(jìn)一步調(diào)節(jié)問題暴光度，降低題目的曝光率。RAT通過捕捉學(xué)生資質(zhì)的許多特征來幫助選擇算法。此外，還有更多基于數(shù)據(jù)驅(qū)動(dòng)和深度學(xué)習(xí)的算法被開發(fā)出來。

1　基于等級(jí)反應(yīng)模型下的選題策略

1.1　多級(jí)評(píng)分選題策略

(1)平均難度匹配法：即，其中滿足以下要求，

(2)去兩端平均數(shù)匹配法：即，滿足以下要求，

(3)等級(jí)難度匹配法：即。

(4)中位數(shù)匹配法：即，其中滿足以下要求，

(5)最大Fisher信息量法。

(6)結(jié)合按區(qū)分度分層能力匹配法。

1.2　新的選題策略

實(shí)際研究表明,提高測(cè)驗(yàn)的效率和降低項(xiàng)目的曝光率這兩項(xiàng)指標(biāo)往往是相沖突的,所以關(guān)鍵是找到能同時(shí)兼顧這兩項(xiàng)指標(biāo)的新的選題策略,即在測(cè)驗(yàn)效率沒有明顯降低的前提下較明顯的降低項(xiàng)目曝光率亦或是沒有明顯提高項(xiàng)目曝光率的同時(shí)較明顯的提高測(cè)驗(yàn)效率。由于項(xiàng)目反應(yīng)理論(IRT)多級(jí)評(píng)分的數(shù)學(xué)模型中不止一個(gè)單獨(dú)的難度參數(shù),而需要多個(gè)難度等級(jí)步驟參數(shù),涉及到不同類型特征曲線間的組合運(yùn)算及這些組合的累加運(yùn)算,其函數(shù)關(guān)系遠(yuǎn)比0-1評(píng)分來得復(fù)雜。目前也很難找到一種在不加入曝光率控制因子的前提下較好的兼顧以上兩項(xiàng)指標(biāo)的選題策略。

在CAT問題中，選擇測(cè)試項(xiàng)策略的主要目標(biāo)之一是準(zhǔn)確地估計(jì)個(gè)體盡量少的測(cè)試項(xiàng)下的水平，并提供覆蓋所有測(cè)試項(xiàng)的最佳策略。因此，研究問題可以分為兩個(gè)子問題(即估計(jì)個(gè)體的水平和根據(jù)預(yù)測(cè)的水平確定選擇測(cè)試項(xiàng)目的策略)。因此，通過非統(tǒng)計(jì)約束方法，探索既能滿足測(cè)量精度又不降低題庫安全性和測(cè)驗(yàn)效率的選題策略是本文的研究目標(biāo)。

定義：區(qū)分度近似分布分層法(A-ADS)：選題按區(qū)分度遞增排序，從預(yù)備題庫的第一個(gè)題目開始每間隔n選取一個(gè)他題目組成一層，以此類推組成n層，再運(yùn)用多級(jí)評(píng)分的三種難度匹配法進(jìn)行選題。這樣分層的好處在于將一個(gè)大的題庫按相近的分布分成了n個(gè)小題庫，相當(dāng)于把一次大測(cè)驗(yàn)分成了n次小的測(cè)驗(yàn)讓被試施測(cè)，而每次小測(cè)驗(yàn)被試都有機(jī)會(huì)選取不同區(qū)分度大小的項(xiàng)目，從而避開了按區(qū)分度分層法中每層只能選取區(qū)分度值域較小的項(xiàng)目。

2　 MonteCarlo模擬實(shí)驗(yàn)

本實(shí)驗(yàn)采用Matlab進(jìn)行Monte Carlo模擬實(shí)驗(yàn)，以考察新方法的表現(xiàn)。

2.1　施測(cè)過程

隨機(jī)選三個(gè)項(xiàng)目施測(cè)計(jì)算出被試能力初值，后實(shí)施能力精確估算，并用貝葉斯后驗(yàn)期望估算出被試能力值。重復(fù)以上步驟，直到滿足測(cè)驗(yàn)結(jié)束條件。為了降低模擬實(shí)驗(yàn)的誤差，每一種實(shí)驗(yàn)方法重復(fù)30次。

2.2　評(píng)價(jià)指標(biāo)

本文分別用(1) 平均偏差(Bias)、(2)能力估計(jì)的準(zhǔn)確性(ABS)、(3)能力估計(jì)標(biāo)準(zhǔn)差(SD)這三項(xiàng)指標(biāo)來評(píng)價(jià)能力估計(jì)情況，其中Bias越小越好，ABS和SD越小說明估計(jì)的精度越高[7]；用(4)人均用題數(shù)(Nf)、(5)測(cè)驗(yàn)效率(Eff)這兩項(xiàng)指標(biāo)來評(píng)價(jià)效率，Nf越小越好，Eff越大約好；用(6)項(xiàng)目調(diào)用的均勻性(SE)、(7)卡方檢驗(yàn)統(tǒng)計(jì)量()和(8)測(cè)試重疊率(Rt)這三項(xiàng)指標(biāo)來評(píng)價(jià)項(xiàng)目曝光率，SE、和Rt越小說明項(xiàng)目的曝光率越均勻。

3　實(shí)驗(yàn)結(jié)果與分析

表1區(qū)分度近似分布分層法與區(qū)分度分層能力匹配法結(jié)果對(duì)比表

項(xiàng)目參數(shù)分別評(píng)價(jià)

指標(biāo) 平均數(shù)法等級(jí)難度匹配法中位數(shù)法

A-STR A-ADS A-STR A-ADS A-STR A-ADS

區(qū)分度服從對(duì)數(shù)標(biāo)準(zhǔn)正態(tài)分布，難度服從(-3，3)上的均勻分布 I1 0.0017 -0.0011 -0.0011 -0.0020 0.0043 -0.0011

I2 0.1863 0.1816 0.1886 0.1715 0.1885 0.1879

I3 0.2215 0.2137 0.2150 0.2118 0.2247 0.2257

I4 27.5924 20.3456 26.2821 16.1031 26.1509 16.7951

I5 0.6252 0.8367 0.6695 1.0685 0.6684 1.0217

I6 24.8609 19.1301 24.3218 16.2476 30.6271 21.7965

I7 21.3061 15.7853 20.3742 13.8673 32.6481 21.6831

I8 0.0553 0.0447 0.0551 0.0398 0.0687 0.0489

區(qū)分度服從對(duì)數(shù)標(biāo)準(zhǔn)正態(tài)分布，難度服從標(biāo)準(zhǔn)正態(tài)分布 I1 -0.0015 0.0009 -0.0011 -0.0007 0.0049 0.0021

I2 0.1864 0.1858 0.1875 0.1708 0.1865 0.1776

I3 0.2232 0.2215 0.2246 0.2211 0.2221 0.2214

I4 24.6657 15.6158 23.6463 15.5762 24.8267 15.6427

I5 0.7261 1.0893 0.7462 1.1163 0.7087 1.1212

I6 35.1847 28.5406 17.4204 12.9561 26.8289 22.2614

I7 44.7342 43.4021 11.3844 9.1809 25.8226 26.4090

I8 0.0851 0.0739 0.0425 0.0327 0.0595 0.0534

區(qū)分度服從(0.2，2.5)上的均勻分布，難度服從(-3，3)上的均勻分布 I1 -0.0040 0.0024 0.0002 -00010 -0.0018 -0.0013

I2 0.1862 0.1851 0.1878 0.1856 0.1880 0.1796

I3 0.2225 0.2133 0.2245 0.2147 0.2241 0.2193

I4 15.1647 12.9514 13.1231 10.3393 13.9585 10.6573

I5 1.1678 1.3324 1.3545 1.6820 1.2794 1.6548

I6 16.5568 15.6182 14.8796 13.1705 18.7264 14.6131

I7 16.1456 15.4561 13.7175 13.1125 20.6512 15.6087

I8 0.0387 0.0375 0.0365 0.0331 0.0456 0.0371

區(qū)分度服從(0.2，2.5)上的均勻分布，難度服從標(biāo)準(zhǔn)正態(tài)分布 I1 -0.0012 0.0024 -0.0031 0.0036 0.0032 0.0012

I2 0.1865 0.1843 0.1865 0.1853 0.1873 0.1864

I3 0.2214 0.2212 0.2237 0.2254 0.2224 0.2253

I4 13.2295 10.4888 13.3045 10.6011 12.4458 9.9768

I5 1.3484 1.6627 1.3654 1.6553 1.4559 1.7668

I6 24.3461 20.1598 11.9171 11.1799 19.5561 17.4009

I7 36.8494 30.4381 8.7140 9.2052 24.6566 23.0712

I8 0.0641 0.0545 0.0295 0.0271 0.0489 0.0431

為了描述方便，I1-I8依次代表Bias、ABS、SD、Nf、Eff、SE、和Rt這八項(xiàng)評(píng)價(jià)指標(biāo)。

從表1得出，偏差值（(1) 平均偏差、(2)能力估計(jì)的準(zhǔn)確性、(3)能力估計(jì)標(biāo)準(zhǔn)差均很接近于零，說明這幾種方法的估計(jì)均接近于無偏估計(jì)，相比較而言區(qū)分度近似分布分層法(A-ADS)更接近于0，說明該方法的更接近于無偏估計(jì)；在人均用題數(shù)指標(biāo)上A-ADS均優(yōu)于A-STR，處區(qū)分度服從(0.2，2.5)上的均勻分布的圖庫外測(cè)驗(yàn)效率指標(biāo)上A-ADS均優(yōu)于A-STR，特別是前兩個(gè)題庫，其優(yōu)勢(shì)更為明顯；此外，在項(xiàng)目調(diào)用的均勻性、卡方檢驗(yàn)統(tǒng)計(jì)量和測(cè)試重疊率這三個(gè)指標(biāo)上，除了第二個(gè)題庫外，A-ADS法均較明顯優(yōu)于A-STR法。

4 結(jié) 語

總結(jié)以上論述可以認(rèn)為A-ADS該方法在曝光率方面，與按區(qū)分度分層和能力匹配法結(jié)合的結(jié)果相接近的條件下，較明顯的提高了測(cè)驗(yàn)的效率。

本文來源：《上海輕工業(yè)》http://xwlcp.cn/w/kj/30978.html

關(guān)鍵字：論文篇論文發(fā)表咨詢科技論文

上一篇：智慧物聯(lián)網(wǎng)新技術(shù)在智慧倉建設(shè)中的應(yīng)用研究
下一篇：現(xiàn)代生物技術(shù)在食品工程中的應(yīng)用探析

欄目分類

熱門排行

推薦信息

期刊知識(shí)