基于非統(tǒng)計(jì)約束的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略
0 引言
與傳統(tǒng)考試相比,計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(CAT)它使用更少的項(xiàng)目來確定對(duì)考生同樣有用的分?jǐn)?shù),使用CAT來評(píng)估學(xué)生在標(biāo)準(zhǔn)化考試(如GMAT和GRE)中的能力已經(jīng)越來越受歡迎,因?yàn)樗軌蜃赃m應(yīng)地尋找最適合每個(gè)學(xué)生的問題。CAT是一種個(gè)性化測(cè)試,與標(biāo)準(zhǔn)測(cè)試/評(píng)估系統(tǒng)不同,它根據(jù)學(xué)生對(duì)前幾道題的反應(yīng)自適應(yīng)地選擇下一道題,從而成功縮短了測(cè)試長(zhǎng)度。CAT系統(tǒng)通常構(gòu)成如下:知識(shí)水平評(píng)估器,根據(jù)學(xué)生對(duì)先前問題的回答確定學(xué)生當(dāng)前的知識(shí)水平;回答模型:根據(jù)知識(shí)水平估計(jì)和問題特征,確定學(xué)生正確回答問題的可能性;以及一種問題選擇算法,根據(jù)響應(yīng)模型的輸出選擇最具適應(yīng)性的問題作答。
在考試期間,計(jì)算機(jī)化的自適應(yīng)測(cè)試可以訪問有組織的項(xiàng)目池。這些項(xiàng)目從容易到復(fù)雜,根據(jù)收集的數(shù)據(jù)計(jì)算的難度值。一個(gè)更好的項(xiàng)目池將在每個(gè)困難級(jí)別有很多項(xiàng)目。在回答問題時(shí),CAT算法將從池中提取一個(gè)項(xiàng)目,這個(gè)項(xiàng)目或多或少與考生最新的估計(jì)能力相匹配--這將持續(xù)到測(cè)試結(jié)束。簡(jiǎn)而言之,當(dāng)考生回答一個(gè)項(xiàng)目時(shí),計(jì)算機(jī)重新估計(jì)測(cè)試人員的能力,并從項(xiàng)目庫(kù)中選擇一個(gè)不同的問題,即考生應(yīng)該有50%的機(jī)會(huì)正確回答,這樣做是為了在一個(gè)共同的尺度上更準(zhǔn)確地衡量考生的能力。
一般而言,在測(cè)試期間,如果一個(gè)人的估計(jì)能力很高(也就是說,在較困難的問題上回答得很好),CAT會(huì)估計(jì)他們的能力是“高”的,并從池中的“困難題庫(kù)”中挑選和呈現(xiàn)一個(gè)項(xiàng)目。從低到高的每一估計(jì)能力水平,以及從窄到寬的任何數(shù)量的能力水平,都是相同的過程。
當(dāng)有足夠的問題被問和被回答時(shí)就會(huì)計(jì)算出考生的可靠分?jǐn)?shù)。得分的依據(jù)不是正確回答的問題數(shù)量,而是人能夠正確回答的項(xiàng)目的難度水平。
這種計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)帶來了以下具體好處:一是測(cè)試花費(fèi)的時(shí)間更少??忌ㄔ诳荚嚿系臅r(shí)間將會(huì)減少,有時(shí)會(huì)比平時(shí)的考試時(shí)間減少50%甚至更多;二是降低測(cè)試成本。節(jié)省時(shí)間等同于降低考試管理費(fèi)用;三是提高了測(cè)試安全性。向每位考生披露較少的項(xiàng)目降低了池中項(xiàng)目的總體平均曝光率[1]。這使得在現(xiàn)場(chǎng)考試管理中很難通過抄襲答案來作弊;四是減少疲勞和無聊。對(duì)于每個(gè)考生來說,不需要回答簡(jiǎn)單和困難的問題,會(huì)讓大部分問題都具有適度的挑戰(zhàn)性,這是一個(gè)更愉快的測(cè)試體驗(yàn)。
相對(duì)于0-1評(píng)分,多級(jí)評(píng)分的選題策略就相對(duì)比較匱乏和不成熟,國(guó)內(nèi)外對(duì)于多級(jí)評(píng)分的研究成果也屈指可數(shù),包括四種難度匹配法和加入曝光率控制因子法如引入影子題庫(kù)法[3]等。然而多級(jí)評(píng)分CAT有0-1評(píng)分CAT無法比擬的優(yōu)勢(shì),比如項(xiàng)目區(qū)分度相同時(shí),多級(jí)評(píng)分項(xiàng)目比0-1評(píng)分項(xiàng)目往往可以獲得更多的信息量等。所以為了提高測(cè)驗(yàn)的質(zhì)量,對(duì)多級(jí)評(píng)分模型下的CAT研究就顯得很有必要。
選題策略是CAT最為重要的部分具體算法包括Kullback-Leibler信息量(KLI)、最大Fisher信息(MFI)及其多變量擴(kuò)展,最初都是專門為IRT模型創(chuàng)建的。最近,MAAT和BOBCAT算法在基于深度神經(jīng)網(wǎng)絡(luò)中表現(xiàn)出良好的性能和靈活性。NCA是一種基于強(qiáng)化學(xué)習(xí)的技術(shù),它根據(jù)注意力來選擇問題。通過從Boltsmann分布中選取樣本,而NCAT可以進(jìn)一步調(diào)節(jié)問題暴光度,降低題目的曝光率。RAT通過捕捉學(xué)生資質(zhì)的許多特征來幫助選擇算法。此外,還有更多基于數(shù)據(jù)驅(qū)動(dòng)和深度學(xué)習(xí)的算法被開發(fā)出來。
1 基于等級(jí)反應(yīng)模型下的選題策略
1.1 多級(jí)評(píng)分選題策略
(1)平均難度匹配法:即,其中滿足以下要求,
(2)去兩端平均數(shù)匹配法:即,滿足以下要求,
(3)等級(jí)難度匹配法:即。
(4)中位數(shù)匹配法:即,其中滿足以下要求,
(5)最大Fisher信息量法。
(6)結(jié)合按區(qū)分度分層能力匹配法。
1.2 新的選題策略
實(shí)際研究表明,提高測(cè)驗(yàn)的效率和降低項(xiàng)目的曝光率這兩項(xiàng)指標(biāo)往往是相沖突的,所以關(guān)鍵是找到能同時(shí)兼顧這兩項(xiàng)指標(biāo)的新的選題策略,即在測(cè)驗(yàn)效率沒有明顯降低的前提下較明顯的降低項(xiàng)目曝光率亦或是沒有明顯提高項(xiàng)目曝光率的同時(shí)較明顯的提高測(cè)驗(yàn)效率。由于項(xiàng)目反應(yīng)理論(IRT)多級(jí)評(píng)分的數(shù)學(xué)模型中不止一個(gè)單獨(dú)的難度參數(shù),而需要多個(gè)難度等級(jí)步驟參數(shù),涉及到不同類型特征曲線間的組合運(yùn)算及這些組合的累加運(yùn)算,其函數(shù)關(guān)系遠(yuǎn)比0-1評(píng)分來得復(fù)雜。目前也很難找到一種在不加入曝光率控制因子的前提下較好的兼顧以上兩項(xiàng)指標(biāo)的選題策略。
在CAT問題中,選擇測(cè)試項(xiàng)策略的主要目標(biāo)之一是準(zhǔn)確地估計(jì)個(gè)體盡量少的測(cè)試項(xiàng)下的水平,并提供覆蓋所有測(cè)試項(xiàng)的最佳策略。因此,研究問題可以分為兩個(gè)子問題(即估計(jì)個(gè)體的水平和根據(jù)預(yù)測(cè)的水平確定選擇測(cè)試項(xiàng)目的策略)。因此,通過非統(tǒng)計(jì)約束方法,探索既能滿足測(cè)量精度又不降低題庫(kù)安全性和測(cè)驗(yàn)效率的選題策略是本文的研究目標(biāo)。
定義: 區(qū)分度近似分布分層法(A-ADS):選題按區(qū)分度遞增排序,從預(yù)備題庫(kù)的第一個(gè)題目開始每間隔n選取一個(gè)他題目組成一層,以此類推組成n層,再運(yùn)用多級(jí)評(píng)分的三種難度匹配法進(jìn)行選題。這樣分層的好處在于將一個(gè)大的題庫(kù)按相近的分布分成了n個(gè)小題庫(kù),相當(dāng)于把一次大測(cè)驗(yàn)分成了n次小的測(cè)驗(yàn)讓被試施測(cè),而每次小測(cè)驗(yàn)被試都有機(jī)會(huì)選取不同區(qū)分度大小的項(xiàng)目,從而避開了按區(qū)分度分層法中每層只能選取區(qū)分度值域較小的項(xiàng)目。
2 MonteCarlo模擬實(shí)驗(yàn)
本實(shí)驗(yàn)采用Matlab進(jìn)行Monte Carlo模擬實(shí)驗(yàn),以考察新方法的表現(xiàn)。
2.1 施測(cè)過程
隨機(jī)選三個(gè)項(xiàng)目施測(cè)計(jì)算出被試能力初值,后實(shí)施能力精確估算,并用貝葉斯后驗(yàn)期望估算出被試能力值。重復(fù)以上步驟,直到滿足測(cè)驗(yàn)結(jié)束條件。為了降低模擬實(shí)驗(yàn)的誤差,每一種實(shí)驗(yàn)方法重復(fù)30次。
2.2 評(píng)價(jià)指標(biāo)
本文分別用(1) 平均偏差(Bias)、(2)能力估計(jì)的準(zhǔn)確性(ABS)、(3)能力估計(jì)標(biāo)準(zhǔn)差(SD)這三項(xiàng)指標(biāo)來評(píng)價(jià)能力估計(jì)情況,其中Bias越小越好,ABS和SD越小說明估計(jì)的精度越高[7];用(4)人均用題數(shù)(Nf)、(5)測(cè)驗(yàn)效率(Eff)這兩項(xiàng)指標(biāo)來評(píng)價(jià)效率,Nf越小越好,Eff越大約好;用(6)項(xiàng)目調(diào)用的均勻性(SE)、(7)卡方檢驗(yàn)統(tǒng)計(jì)量()和(8)測(cè)試重疊率(Rt)這三項(xiàng)指標(biāo)來評(píng)價(jià)項(xiàng)目曝光率,SE、和Rt越小說明項(xiàng)目的曝光率越均勻。
3 實(shí)驗(yàn)結(jié)果與分析
表1區(qū)分度近似分布分層法與區(qū)分度分層能力匹配法結(jié)果對(duì)比表
項(xiàng)目參數(shù)分別 評(píng)價(jià)
指標(biāo) 平均數(shù)法 等級(jí)難度匹配法 中位數(shù)法
A-STR A-ADS A-STR A-ADS A-STR A-ADS
區(qū)分度服從對(duì)數(shù)標(biāo)準(zhǔn)正態(tài)分布,難度服從(-3,3)上的均勻分布 I1 0.0017 -0.0011 -0.0011 -0.0020 0.0043 -0.0011
I2 0.1863 0.1816 0.1886 0.1715 0.1885 0.1879
I3 0.2215 0.2137 0.2150 0.2118 0.2247 0.2257
I4 27.5924 20.3456 26.2821 16.1031 26.1509 16.7951
I5 0.6252 0.8367 0.6695 1.0685 0.6684 1.0217
I6 24.8609 19.1301 24.3218 16.2476 30.6271 21.7965
I7 21.3061 15.7853 20.3742 13.8673 32.6481 21.6831
I8 0.0553 0.0447 0.0551 0.0398 0.0687 0.0489
區(qū)分度服從對(duì)數(shù)標(biāo)準(zhǔn)正態(tài)分布,難度服從標(biāo)準(zhǔn)正態(tài)分布 I1 -0.0015 0.0009 -0.0011 -0.0007 0.0049 0.0021
I2 0.1864 0.1858 0.1875 0.1708 0.1865 0.1776
I3 0.2232 0.2215 0.2246 0.2211 0.2221 0.2214
I4 24.6657 15.6158 23.6463 15.5762 24.8267 15.6427
I5 0.7261 1.0893 0.7462 1.1163 0.7087 1.1212
I6 35.1847 28.5406 17.4204 12.9561 26.8289 22.2614
I7 44.7342 43.4021 11.3844 9.1809 25.8226 26.4090
I8 0.0851 0.0739 0.0425 0.0327 0.0595 0.0534
區(qū)分度服從(0.2,2.5)上的均勻分布,難度服從(-3,3)上的均勻分布 I1 -0.0040 0.0024 0.0002 -00010 -0.0018 -0.0013
I2 0.1862 0.1851 0.1878 0.1856 0.1880 0.1796
I3 0.2225 0.2133 0.2245 0.2147 0.2241 0.2193
I4 15.1647 12.9514 13.1231 10.3393 13.9585 10.6573
I5 1.1678 1.3324 1.3545 1.6820 1.2794 1.6548
I6 16.5568 15.6182 14.8796 13.1705 18.7264 14.6131
I7 16.1456 15.4561 13.7175 13.1125 20.6512 15.6087
I8 0.0387 0.0375 0.0365 0.0331 0.0456 0.0371
區(qū)分度服從(0.2,2.5)上的均勻分布,難度服從標(biāo)準(zhǔn)正態(tài)分布 I1 -0.0012 0.0024 -0.0031 0.0036 0.0032 0.0012
I2 0.1865 0.1843 0.1865 0.1853 0.1873 0.1864
I3 0.2214 0.2212 0.2237 0.2254 0.2224 0.2253
I4 13.2295 10.4888 13.3045 10.6011 12.4458 9.9768
I5 1.3484 1.6627 1.3654 1.6553 1.4559 1.7668
I6 24.3461 20.1598 11.9171 11.1799 19.5561 17.4009
I7 36.8494 30.4381 8.7140 9.2052 24.6566 23.0712
I8 0.0641 0.0545 0.0295 0.0271 0.0489 0.0431
為了描述方便,I1-I8依次代表Bias、ABS、SD、Nf、Eff、SE、和Rt這八項(xiàng)評(píng)價(jià)指標(biāo)。
從表1得出,偏差值((1) 平均偏差、(2)能力估計(jì)的準(zhǔn)確性、(3)能力估計(jì)標(biāo)準(zhǔn)差均很接近于零,說明這幾種方法的估計(jì)均接近于無偏估計(jì),相比較而言區(qū)分度近似分布分層法(A-ADS)更接近于0,說明該方法的更接近于無偏估計(jì);在人均用題數(shù)指標(biāo)上A-ADS均優(yōu)于A-STR,處區(qū)分度服從(0.2,2.5)上的均勻分布的圖庫(kù)外測(cè)驗(yàn)效率指標(biāo)上A-ADS均優(yōu)于A-STR,特別是前兩個(gè)題庫(kù),其優(yōu)勢(shì)更為明顯;此外,在項(xiàng)目調(diào)用的均勻性、卡方檢驗(yàn)統(tǒng)計(jì)量和測(cè)試重疊率這三個(gè)指標(biāo)上,除了第二個(gè)題庫(kù)外,A-ADS法均較明顯優(yōu)于A-STR法。
4 結(jié) 語(yǔ)
總結(jié)以上論述可以認(rèn)為A-ADS該方法在曝光率方面,與按區(qū)分度分層和能力匹配法結(jié)合的結(jié)果相接近的條件下,較明顯的提高了測(cè)驗(yàn)的效率。
本文來源:《上海輕工業(yè)》http://00559.cn/w/kj/30978.html
欄目分類
- 1智能家居發(fā)展現(xiàn)狀及未來
- 2中國(guó)VR技術(shù)發(fā)展現(xiàn)狀、應(yīng)用前景與對(duì)策研究
- 3淺談霍爾效應(yīng)及其應(yīng)用
- 4收入確認(rèn)與計(jì)量的"五步法"模型實(shí)務(wù)探討
- 5趣味浮力探究實(shí)驗(yàn)
- 6智能溫度控制系統(tǒng)
- 7人工智能技術(shù)在傳播領(lǐng)域的應(yīng)用與展望
- 8基于OpenCV的車道線識(shí)別與跟蹤算法
- 9國(guó)內(nèi)外廢紙分類標(biāo)準(zhǔn)對(duì)比和分析
- 10共享汽車行業(yè)和諧發(fā)展的swot分析
- 新鄉(xiāng)賢助推鄉(xiāng)村全面振興的角色作用及其實(shí)現(xiàn)路徑探究
- 以人才振興賦能鄉(xiāng)村振興
- 鄉(xiāng)村多民族互嵌式社區(qū)協(xié)同治理的研究
- 數(shù)字經(jīng)濟(jì)背景下吉林省農(nóng)產(chǎn)品電商發(fā)展路徑探究
- 鄉(xiāng)村振興背景下農(nóng)業(yè)經(jīng)濟(jì)管理實(shí)踐研究
- 職業(yè)院校服務(wù)“百縣千鎮(zhèn)萬村高質(zhì)量發(fā)展”實(shí)踐探索
- 鄉(xiāng)村振興與農(nóng)民思想政治教育的雙向推動(dòng)
- “百千萬工程’背景下地方文化融入鄉(xiāng)村振興戰(zhàn)略的實(shí)施路徑研究
- 農(nóng)村干部能力變革提升賦能鄉(xiāng)村振興路徑研究
- 中國(guó)式現(xiàn)代化視域下全面推進(jìn)鄉(xiāng)村振興的三重邏輯及實(shí)踐路徑
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?