【心理科學(xué)領(lǐng)域內(nèi)的客觀(guān)測(cè)量】 計(jì)算機(jī)領(lǐng)域中客觀(guān)事物的屬性表示為
發(fā)布時(shí)間:2020-03-03 來(lái)源: 歷史回眸 點(diǎn)擊:
摘要 Raseh模型是在國(guó)外學(xué)術(shù)界受到廣泛關(guān)注和深入研究的一個(gè)潛在特質(zhì)模型。該模型為解決心理科學(xué)領(lǐng)域內(nèi)測(cè)量的客觀(guān)性問(wèn)題提供了一個(gè)可行性很高的解決方案。而國(guó)內(nèi)關(guān)于Rasch模型的理論探討和應(yīng)用研究卻并不多見(jiàn)。不同于一般項(xiàng)目反應(yīng)理論,Rasch模型要求所收集的數(shù)據(jù)必須符合模型的先驗(yàn)要求,而不是使用不同的參數(shù)去適應(yīng)數(shù)據(jù)的特點(diǎn)。Raseh模型的主要特點(diǎn)(包括個(gè)體與題目共用標(biāo)尺、線(xiàn)性數(shù)據(jù)、參數(shù)分離)確保了客觀(guān)測(cè)量的實(shí)現(xiàn)。未來(lái)關(guān)于Rasch模型的研究方向包括多維度Rasch模型、測(cè)驗(yàn)的等值與鏈接、計(jì)算機(jī)自適應(yīng)性考試,大型應(yīng)用測(cè)量系統(tǒng)(比如Lexile系統(tǒng))等等。
關(guān)鍵詞 Raseh模型;潛在特質(zhì)模型;客觀(guān)測(cè)量
分類(lèi)號(hào) B841
Rasch模型(Rasch,1960)是由丹麥數(shù)學(xué)家和統(tǒng)計(jì)學(xué)家Georg Rasch(1901~1980)提出的一個(gè)潛在特質(zhì)模型。這一模型以自然科學(xué)領(lǐng)域內(nèi)的客觀(guān)測(cè)量為標(biāo)桿,為社會(huì)科學(xué)領(lǐng)域內(nèi)的測(cè)量建立起一套客觀(guān)標(biāo)準(zhǔn),以確保測(cè)量所提供的信息更為客觀(guān)和可靠(Bond&Fox,2007)。經(jīng)過(guò)半個(gè)世紀(jì)的發(fā)展,Rasch模型已在心理科學(xué)領(lǐng)域得到了廣泛應(yīng)用(例如,Merrell&Tymms 2005;Mok,Cheong,Moore,&Kennedy,2006;Waugh,2002,2003;Weave,2005)。在國(guó)內(nèi),雖然早在上世紀(jì)80年代就已經(jīng)有了關(guān)于Rasch模型的介紹和研究,但很長(zhǎng)一段時(shí)間內(nèi),這一領(lǐng)域并未贏得學(xué)術(shù)界足夠的重視。筆者作過(guò)一個(gè)簡(jiǎn)單的統(tǒng)計(jì),在“中國(guó)知網(wǎng)”(1915至2008年)和“中國(guó)期刊全文數(shù)據(jù)庫(kù)”(1915至2009年)中以“Rasch”為主題進(jìn)行搜索,總共只找到93篇非重復(fù)中文文獻(xiàn)(搜索日期為2009年11月10日)。文獻(xiàn)數(shù)量按年份分布如表1。
在2000年之后,尤其是最近5年,Rasch模型得到了越來(lái)越多的重視,研究也日益增多,研究所涵蓋的領(lǐng)域包括心理、教育、考試研究、統(tǒng)計(jì)、醫(yī)學(xué)、康復(fù)等學(xué)科。但在已發(fā)表的文獻(xiàn)中,系統(tǒng)性介紹Rasch模型特點(diǎn)以及其發(fā)展趨勢(shì)的仍然很少。少數(shù)幾篇綜述文章多發(fā)表于上世紀(jì)90年代初(例如,Keats,陳富國(guó),1990;羅冠中,1992),并未反映出Rasch模型在近20年的發(fā)展;诖,本文將從基本理論、數(shù)學(xué)表述、以及主要特點(diǎn)幾個(gè)方面對(duì)Raseh模型的進(jìn)行了討論,探討其如何幫助心理科學(xué)研究者實(shí)現(xiàn)客觀(guān)測(cè)量,并介紹其最新的發(fā)展趨勢(shì)。
1 Rasch模型的基本理論
作為一種潛在特質(zhì)模型,Raseh模型通過(guò)個(gè)體在題目上的表現(xiàn)(通常表示為原始分?jǐn)?shù))來(lái)測(cè)量不可直接觀(guān)察的、潛在的變量。根據(jù)Rasch模型原理,特定的個(gè)體對(duì)特定的題目作出特定反應(yīng)的概率可以用個(gè)體能力與該題目難度的一個(gè)簡(jiǎn)單函數(shù)來(lái)表示。個(gè)體回答某一題目正確與否完全取決于個(gè)體能力和題目難度之間的比較。
IRT模型或其他統(tǒng)計(jì)方法傾向于使用不同的參數(shù)來(lái)以適應(yīng)數(shù)據(jù)的特點(diǎn),而Rasch模型則要求所收集的數(shù)據(jù)必須符合模型的先驗(yàn)要求(Andrich,2004)。這正是Rasch模型所強(qiáng)調(diào)的“客觀(guān)測(cè)量”的一個(gè)關(guān)鍵點(diǎn)。我們可以舉一個(gè)例子來(lái)看一看用參數(shù)來(lái)適應(yīng)數(shù)據(jù)這種方法的不足。有不少研究對(duì)體能測(cè)驗(yàn)結(jié)果進(jìn)行了因子分析,試圖確定體能這一潛在變量的結(jié)構(gòu)(例如,F(xiàn)leishman,1964;Marsh,1993;Ponthieux&Barker,1963)。而無(wú)論是探索性因子分析,還是驗(yàn)證性因子分析,在試圖建立客觀(guān)測(cè)量時(shí)均有明顯缺陷。Marsh(1993)指出,探索性因子分析使研究人員無(wú)法控制最終所得出的因子結(jié)構(gòu)。研究人員無(wú)法測(cè)試任何先驗(yàn)因子結(jié)構(gòu),數(shù)據(jù)所產(chǎn)生的結(jié)果便是最終結(jié)果。至于驗(yàn)性因子分析,盡管它可以讓研究人員測(cè)試其先驗(yàn)因子結(jié)構(gòu),并提供指標(biāo)來(lái)判斷先驗(yàn)因子結(jié)構(gòu)與實(shí)證因子結(jié)構(gòu)之間匹配的程度,但也未能達(dá)到客觀(guān)標(biāo)準(zhǔn)。因?yàn)閿?shù)據(jù)作為一個(gè)“現(xiàn)實(shí)”,而因子模型只是用來(lái)“解釋”這些數(shù)據(jù)。當(dāng)模型無(wú)法正確地解釋數(shù)據(jù)時(shí),就必須對(duì)模型進(jìn)行修改,對(duì)參數(shù)進(jìn)行修訂,直到修訂后的模型和參數(shù)可以很好地解釋數(shù)據(jù)。因此,在上述以數(shù)據(jù)為本的研究中,要想取得一個(gè)穩(wěn)定的體能因子結(jié)構(gòu)幾乎是不可能的,因?yàn)楦餮芯恐畜w能測(cè)試的樣本不同,所使用的體能指標(biāo)也不同。從這個(gè)意義上講,如果沒(méi)有建立起一個(gè)獨(dú)立于數(shù)據(jù)的、客觀(guān)的尺度,在不同情境所得到的測(cè)量結(jié)果就不可能進(jìn)行有意義的比較。有鑒于此,Rasch模型設(shè)定了客觀(guān)測(cè)量中數(shù)據(jù)必須滿(mǎn)足的先驗(yàn)要求。如果數(shù)據(jù)不適合Rasch模型,首先應(yīng)該做的是審視數(shù)據(jù)本身可能存在的問(wèn)題,而不是改變模型自身參數(shù)設(shè)置來(lái)適應(yīng)不同的(可能存在問(wèn)題的)數(shù)據(jù)。在Rasch模型下,不同的研究結(jié)果(因子結(jié)構(gòu)、測(cè)驗(yàn)量尺等等)可以適用到其他情境下,因此,在不同情境下進(jìn)行的測(cè)量可以在一個(gè)穩(wěn)定和一致的框架內(nèi)進(jìn)行解讀和溝通。有研究者(Al-Owidha,2007)比較了Rasch模型和三參數(shù)IRT模型在同一套學(xué)業(yè)測(cè)驗(yàn)數(shù)據(jù)上的表現(xiàn)。結(jié)果發(fā)現(xiàn),雖然三參數(shù)IRT模型對(duì)數(shù)據(jù)的擬合度高于Rasch模型(這不難理解,因?yàn)槿齾?shù)模型的方法是使用更多參數(shù)去使“模型適應(yīng)數(shù)據(jù)”,而Rasch模型卻要求“數(shù)據(jù)符合模型”),但Rasch模型卻能提供更穩(wěn)定、更精確的題目難度參數(shù),以及更好的題目和測(cè)驗(yàn)信度。
4 Raseh模型的主要特點(diǎn)
4.1個(gè)體和題目共用同一把尺
Rasch模型通過(guò)對(duì)數(shù)轉(zhuǎn)換,將個(gè)體和題目在同一單維度尺上進(jìn)行標(biāo)定(Wright&Masters.1982)。基于各自在此單維度連續(xù)體上的位置,個(gè)體與個(gè)體之間、題目與題目之間、個(gè)體與題目之間可以方便地進(jìn)行直接比較。這是Rasch模型區(qū)別于傳統(tǒng)測(cè)量方法的一個(gè)顯著特征,也是實(shí)際應(yīng)用當(dāng)中最有意義的一個(gè)方面。例如:在傳統(tǒng)測(cè)量方法下,如果A題目沒(méi)有對(duì)某學(xué)生施測(cè),那么即使該學(xué)生回答過(guò)類(lèi)似的另一題目B,也很難預(yù)測(cè)其在A題目上的表現(xiàn)。然而,Rasch模型可以解決這一問(wèn)題。依據(jù)各自的能力或難度水平,個(gè)體和題目被標(biāo)定在同一量尺的不同位置上。根據(jù)這種相對(duì)位置所提供的信息,即使沒(méi)有真正施測(cè),也可以預(yù)測(cè)學(xué)生在該題目上的表現(xiàn)。
4.2數(shù)據(jù)的線(xiàn)性特質(zhì)
任何觀(guān)測(cè)值都來(lái)源于原始數(shù)據(jù),但原始數(shù)據(jù)所提供的卻往往并非有效的“量度”,因?yàn)閺脑紨?shù)據(jù)人們很難作出有價(jià)值的推論(Wright,1997;Wright&Mok,2000)。Bond和Fox(2007)指出,原始數(shù)據(jù)很多時(shí)候表示的僅僅是個(gè)體或題目的次序,而并非是關(guān)于“多少”的問(wèn)題,也就是說(shuō),無(wú)法得知不同分?jǐn)?shù)之間的距離,更無(wú)法提供分?jǐn)?shù)在比例上的意義,而這恰恰是有效測(cè)量的關(guān)鍵所在。心理測(cè)驗(yàn)經(jīng)常使用李科特量表(例如:非常不同意,不同意,同意,非常同意)。學(xué)生在此類(lèi)量表上的原始分?jǐn)?shù)看起來(lái)是等距的,但這并不意味 著原始分?jǐn)?shù)所代表的心理特質(zhì)水平也具有等距的意義。因?yàn)榈染嗟牧慷纫馕吨謹(jǐn)?shù)每增加一個(gè)單位,所代表的特質(zhì)水平也相應(yīng)地有一個(gè)同等大小的增量。然而事實(shí)并非如此!胺浅2煌狻迸c“不同意”之間的距離,未必等于“不同意”與“同意”之間的距離。
數(shù)據(jù)的線(xiàn)性是任何統(tǒng)計(jì)方法――比如因子分析――的一個(gè)基本假設(shè)(Wright&Masters,1982)。然而,很多數(shù)據(jù),就象學(xué)業(yè)考試的原始分?jǐn)?shù),實(shí)質(zhì)上并不符合線(xiàn)性數(shù)據(jù)的要求。因此,嚴(yán)格來(lái)講,大部分統(tǒng)計(jì)方法并不適用于這種非線(xiàn)性(或非等距)數(shù)據(jù)。只有將這種數(shù)據(jù)轉(zhuǎn)換為線(xiàn)性的、等距的數(shù)據(jù),才可應(yīng)用統(tǒng)計(jì)方法(Wright,1997)。Rasch模型可以將非線(xiàn)性數(shù)據(jù)轉(zhuǎn)換成為具有等距意義(對(duì)于所測(cè)量特質(zhì)而言)的“l(fā)ogit scale”數(shù)據(jù),從而使客觀(guān)的測(cè)量成為可能(Linacre,2006)。有些學(xué)者(例如,F(xiàn)ischer,1995)甚至認(rèn)為Rasch模型是唯一可行的將次序數(shù)據(jù)轉(zhuǎn)換為線(xiàn)性數(shù)據(jù)的方法。
4.3參數(shù)分離
由于個(gè)體所得到的原始分?jǐn)?shù)依賴(lài)于所施測(cè)的題目,而對(duì)分?jǐn)?shù)的解讀又依賴(lài)于特定施測(cè)樣本,因此傳統(tǒng)測(cè)量方法很難用來(lái)比較或預(yù)測(cè)個(gè)體在不同測(cè)驗(yàn)之間的表現(xiàn)。這是傳統(tǒng)測(cè)量理論的一個(gè)重大缺陷。假設(shè)有兩份測(cè)量同一心理特質(zhì)的心理測(cè)驗(yàn)問(wèn)卷A和B,一名學(xué)生在A卷中得到80分,那么他在B卷中可以得到多少分?很難預(yù)測(cè)。即使是同一學(xué)生,題目測(cè)量的是同一特質(zhì),只要題目不同,分?jǐn)?shù)也可能有不同。再舉一例:學(xué)生甲在A卷中得到80分,學(xué)生乙在B卷中也得到80分。哪一位學(xué)生所對(duì)應(yīng)的心理特質(zhì)水平更高?很難直接作出判斷,因?yàn)殡m然他們分?jǐn)?shù)相同,但卻是在不同測(cè)驗(yàn)中得到的,其分?jǐn)?shù)所代表的含義也不同。
為了避免直接對(duì)原始分?jǐn)?shù)進(jìn)行解讀所造成的困難,有時(shí)會(huì)用標(biāo)準(zhǔn)化分?jǐn)?shù)(如z分?jǐn)?shù)和t分?jǐn)?shù))代替原始分?jǐn)?shù)來(lái)比較在不同測(cè)試上的得分。然而,標(biāo)準(zhǔn)分?jǐn)?shù)的計(jì)算依賴(lài)于所選取的樣本。由于不同樣本的平均數(shù)和標(biāo)準(zhǔn)偏差都不同,意味著基于標(biāo)準(zhǔn)分?jǐn)?shù)的比較只適用于來(lái)自同一樣本的個(gè)體。百分?jǐn)?shù)也有類(lèi)似的問(wèn)題。相同的成績(jī),在不同的常模中所對(duì)應(yīng)的百分?jǐn)?shù)也會(huì)不同。
Wright和Stone(1979)指出了客觀(guān)測(cè)量?jī)蓚(gè)相輔相成的要求。一個(gè)是題目難度的標(biāo)定必須獨(dú)立于被試樣本的分布,另一個(gè)要求是對(duì)個(gè)體能力的測(cè)量必須獨(dú)立于題目的難度分布。此一特點(diǎn)稱(chēng)為“參數(shù)分離”或“參數(shù)恒定”(Embretson&Reise,2000;Wright&Masters,1982;Wright&Mok,2000)。在前文述及之方程(1)中,正確反應(yīng)的概率只由個(gè)體的能力(θm)和題目的難度(δi)所決定。這意味著Rasch模型所提供的個(gè)體能力和題目難度參數(shù),是完全獨(dú)立樣本分布或題目難度分布的。因此,Rasch模型符合客觀(guān)測(cè)量對(duì)于參數(shù)分離的要求。
然而,需要特別指出的是,在實(shí)際應(yīng)用當(dāng)中,運(yùn)用Rasch模型對(duì)個(gè)體能力和題目難度進(jìn)行標(biāo)定時(shí),其數(shù)值往往會(huì)隨著題目難度和個(gè)體能力的不同組合而改變。這豈不是和“參數(shù)分離”的要求不一致嗎?其實(shí)不然,“參數(shù)分離”并非要求每次標(biāo)定的絕對(duì)估值都一樣,而是要求個(gè)體與題目之間的差異(在潛在特質(zhì)量尺上的相對(duì)位置)保持不變,也就是保持一種相對(duì)的恒定。從這個(gè)意義上來(lái)說(shuō),Rasch測(cè)量提供的是關(guān)于個(gè)體能力和題目難度的等距分?jǐn)?shù),而不是等比分?jǐn)?shù)。
5 Rasch模型擬合度
如前所述,Rasch模型是一個(gè)理想的數(shù)學(xué)模型,在現(xiàn)實(shí)的測(cè)量中不大可能得到完美的實(shí)現(xiàn)。因?yàn)樵俸?jiǎn)單的測(cè)試,都可能受到無(wú)關(guān)因素的干擾。例如數(shù)學(xué)考試,學(xué)生的表現(xiàn)除了受數(shù)學(xué)能力影響之外,還有可能受學(xué)生的閱讀理解能力(能否讀懂題目)的影響。心理測(cè)驗(yàn)的成績(jī)主要由所測(cè)特質(zhì)決定,但也可能受施測(cè)當(dāng)時(shí)學(xué)生的身體狀況和意愿,以及其他不可預(yù)測(cè)的因素影響。雖然測(cè)量的復(fù)雜性和不完善性是客觀(guān)存在的,但測(cè)量工具開(kāi)發(fā)者和使用者應(yīng)該知道所收集的數(shù)據(jù)在何種程度符合測(cè)量模型要求。Rasch分析提供的擬合度指標(biāo)可以檢驗(yàn)實(shí)證數(shù)據(jù)與Rasch模型的擬合程度。題目的擬合度指標(biāo)不好,說(shuō)明可能存在目標(biāo)特質(zhì)之外的其他變量,或者對(duì)所測(cè)量特質(zhì)的定義不恰當(dāng)。
很多運(yùn)行Rasch分析的計(jì)算機(jī)程序(例如,WINSTEPS,ConQuest)提供兩種形式的卡方擬合指標(biāo):Outfit Mean Square(Outfit MNSQ)和InfitMean Square(Infit MNSQ)。這些擬合指標(biāo)都是由殘差計(jì)算而來(lái)。Outfit MNSQ是殘差的均方。InfitMNSQ則是加權(quán)(以方差為加權(quán)系數(shù))后的殘差均方。Outfit MNSQ對(duì)極端值(異常數(shù)據(jù))比較敏感,因?yàn)闃O端值會(huì)產(chǎn)生的較大的殘差。而Infit MNSQ對(duì)題目難度與個(gè)體能力水平相當(dāng)?shù)臄?shù)據(jù)較為敏感,因?yàn)榇祟?lèi)數(shù)據(jù)方差(加權(quán)系數(shù))較大(smith,2002)。Outfit MNSQ和Infit MNSQ的取值范圍介于0到正無(wú)窮大。理想值為1,意味著實(shí)際數(shù)據(jù)完全與Rasch模型相擬合。大于1(underfit)表示實(shí)證數(shù)據(jù)的變異數(shù)多于Rasch模型的預(yù)期;小于1(overfit)表示實(shí)證數(shù)據(jù)的變異數(shù)少于Rasch模型的預(yù)期。從測(cè)量的角度來(lái)看,underfit(大于1)的數(shù)據(jù)對(duì)測(cè)量客觀(guān)性的負(fù)面影響要大過(guò)overfit(低于1)的數(shù)據(jù)。Underfit是由雜亂無(wú)章的答案所造成,會(huì)直接損害測(cè)量的質(zhì)量。而overfit雖然可能會(huì)降低測(cè)量的效率,但對(duì)測(cè)量質(zhì)量的影響反而不大(Bond&Fox,2007)。Infit MNSQ和Outfit MNSQ可接受的取值范圍在很大程度上取決于研究目的。Linacre(2006)建議取0.5至1.5的范圍,但很多研究選取了更為嚴(yán)格的標(biāo)準(zhǔn),例如,0.7至1.3(Mok et al.,2006;Zhu&Cole,1996)或0.8至1.4(Wolfe&Chiu,1999)。Infit和Outfit指標(biāo)也有標(biāo)準(zhǔn)化的形式,分別表達(dá)為Infit ZSTD和Outfit ZSTD。Infit ZSTD和Outfit ZSTD服從t分布,理想值為0,標(biāo)準(zhǔn)差為1。
不過(guò),在Rasch分析中對(duì)于擬合指標(biāo)的使用必須謹(jǐn)慎。Wright和Panchapakesan(1969)指出,在測(cè)驗(yàn)發(fā)展過(guò)程中,簡(jiǎn)單地刪除擬合指標(biāo)不好的題目并非值得提倡的做法。測(cè)驗(yàn)設(shè)計(jì)者應(yīng)該仔細(xì)審查這些擬合指標(biāo)不好的題目,找出可能對(duì)其產(chǎn)生影響的其他因素,如區(qū)分度和猜測(cè)效應(yīng)的影響。Bond和Fox(2007)也建議利用擬合度指標(biāo)來(lái)查找表現(xiàn)異常的題目和個(gè)體,而不是將它們作為決定是否刪除某個(gè)題目的簡(jiǎn)單標(biāo)準(zhǔn)。smith(2002)指出,應(yīng)該把實(shí)證數(shù)據(jù)對(duì)測(cè)量模型的擬合程度看作是一個(gè)連續(xù)體,而不是一個(gè)簡(jiǎn)單是或否的問(wèn) 題。換句話(huà)說(shuō),“擬合”與“不擬合”之間并沒(méi)有森然的壁壘,應(yīng)該根據(jù)不同情況選擇合適的標(biāo)準(zhǔn)。
6 Rasch模型的發(fā)展趨勢(shì)
如何真正實(shí)現(xiàn)測(cè)量的客觀(guān)性一直是困擾心理科學(xué),乃至所有社會(huì)科學(xué)研究者和實(shí)踐者的問(wèn)題。Rasch模型在解決這個(gè)問(wèn)題上實(shí)現(xiàn)了很大的突破,其堅(jiān)實(shí)的理論基礎(chǔ),簡(jiǎn)單的數(shù)學(xué)表述也確保了它廣泛的應(yīng)用前景。Rasch模型在諸多方面與IRT模型相類(lèi)似,但卻從根本上避免了多參數(shù)IRT模型在應(yīng)用上所固有的缺陷。除了心理科學(xué)領(lǐng)域,關(guān)于Rasch模型的研究和應(yīng)用還大量出現(xiàn)于教育領(lǐng)域(例如,Ito,Sykes,&Yao,2008;Liu&Wilson,2009;Tong & Kolen,2007),衛(wèi)生和醫(yī)學(xué)領(lǐng)域(例如,Hsueh,Wang,Sheu,&Hsieh,2004;Strong,Kahler,Ramsey,&Brown,2003;Tesio,2003)。體育和運(yùn)動(dòng)科學(xué)領(lǐng)域(例如,Bowles&Ram,2006;Hands&Larkin,2001;Heesch,Masse,&Dunn,2006;Zhu,200 1;Zhu&Cole,1996),等等。
Rasch模型從產(chǎn)生至今已有半個(gè)世紀(jì),但仍保有旺盛的生命力,并處于持續(xù)不斷的發(fā)展之中。多維度Rasch模型(Multidimensional Rasch Model)是其中一個(gè)很重要的趨勢(shì)。比如運(yùn)用多維度Rasch模型對(duì)“國(guó)際學(xué)生評(píng)價(jià)項(xiàng)目”(Programme for International Student Assessment,PISA)數(shù)據(jù)的分析(例如,Liu&Wilson,2009);對(duì)包含不同分量表的測(cè)驗(yàn)數(shù)據(jù)進(jìn)行分析(例如,Cheng,Wang,&Ho,2009);等等。這里的多維度并不是對(duì)Rasch模型單維度要求的一種顛覆,而是一種發(fā)展。在多維度Rasch模型里,對(duì)同一維度的個(gè)體能力和題目難度的標(biāo)定仍然固守單維度原則,但與此同時(shí),它充分利用相關(guān)維度特質(zhì)(或相關(guān)分量表)所提供的有用信息,以提高測(cè)驗(yàn)的效率和對(duì)目標(biāo)特質(zhì)測(cè)量的精確度。多維度Rasch模型在某種程度上解決了單維度模型分析多維度測(cè)驗(yàn)數(shù)據(jù)時(shí)遇到的信、效度問(wèn)題(Rost&Carstensen。2002;Yao&Schwarz,2006),也使測(cè)驗(yàn)在涵蓋較為廣闊范圍內(nèi)容的同時(shí),也有較高的測(cè)驗(yàn)精確度(cheng et al.,2009),從而極大地延伸了Rasch模型的應(yīng)用空間和前景。
測(cè)驗(yàn)的等值和鏈接(Test equating and linking)是Rasch應(yīng)用的另一個(gè)熱點(diǎn)研究領(lǐng)域。測(cè)驗(yàn)的等值與鏈接是指將不同測(cè)驗(yàn)中取得的分?jǐn)?shù)轉(zhuǎn)化為可以互相替換或比較的分?jǐn)?shù)的統(tǒng)計(jì)過(guò)程。等值主要處理內(nèi)容相同而難度不同的測(cè)驗(yàn),而鏈接則用來(lái)處理內(nèi)容和難度都不相同的測(cè)驗(yàn)(Kolen&Brennan,2004)。越來(lái)越多的研究著眼于運(yùn)用Rasch模型建立一把垂直量尺(vertical scale)(例如,Custer,Omar,&Pomplun,2006;Hanson&Beguin,2002;Ito et al.,2008;Pomplun,Omar,&Custer,2004;Tong&Kolen,2007)。比如,常識(shí)告訴我們小學(xué)二年級(jí)學(xué)生的數(shù)學(xué)能力應(yīng)該比一年級(jí)學(xué)生高,但要想確切知道他們之間的數(shù)學(xué)能力差距,卻很困難。因?yàn)椴煌昙?jí)的考卷題目所測(cè)量的內(nèi)容和,或題目的難度水平不同,因此所得到的分?jǐn)?shù)無(wú)法直接比較。如果構(gòu)建一把可以測(cè)量不同年級(jí)水平的數(shù)學(xué)能力的垂直量尺,將在不同試卷上得到的分?jǐn)?shù)放在同一把量尺上進(jìn)行比較,就可以知道不同年級(jí)學(xué)生的數(shù)學(xué)能力差異,跟蹤學(xué)生在數(shù)學(xué)能力上的發(fā)展。然而,構(gòu)建這種垂直量尺的嘗試受到許多因素的影響,比如數(shù)據(jù)收集方案(通用題目設(shè)計(jì)或逐級(jí)共用題目設(shè)計(jì))、建尺方法(同時(shí)標(biāo)定或分級(jí)標(biāo)定)、甚至所使用的電腦程序(WINSTEPS、BILOG-MG、或其它程序)。是否存在所渭“最佳方法”,還沒(méi)有達(dá)成一致。
基于Rasch模型的計(jì)算機(jī)自適應(yīng)性考試(Computer Adaptive Testing,CAT)已成為當(dāng)今教育測(cè)量研究與實(shí)踐的一個(gè)重要發(fā)展方向。傳統(tǒng)考試方法要求所有考生作答完全一樣的題目。背后的一個(gè)假設(shè)是,任何題目對(duì)全體考生提供的評(píng)價(jià)信息是一樣的。而事實(shí)并非如此,對(duì)某一水平考生有用的題目,對(duì)另一水平的考生來(lái)說(shuō)可能完全沒(méi)有意義。CAT則根據(jù)考生不同的能力水平,提供不同的測(cè)驗(yàn)題目,以一種最有效、最經(jīng)濟(jì)的方法來(lái)標(biāo)定考生的能力。Rasch模型在實(shí)現(xiàn)CAT的各個(gè)方面,包括試題庫(kù)的建設(shè),測(cè)驗(yàn)題目難度的標(biāo)定,題目或測(cè)驗(yàn)之間的等值,對(duì)“作弊策略”的偵測(cè),以及最后的評(píng)分,都扮演著重要角色(例如,Gershon&Bergstrom,1995;Scalise,2004;Styles&Andrich,1993)。
對(duì)于Rasch模型在實(shí)現(xiàn)客觀(guān)測(cè)量中的作用,除了持續(xù)不斷的理論探討之外,也越來(lái)越多地得到了實(shí)際應(yīng)用的佐證。Lexile系統(tǒng)(Stenner,Sanford,&Burdick,2007)便是其中較為成功的一個(gè)范例。Lexile是一個(gè)英文閱讀評(píng)估系統(tǒng),其基礎(chǔ)是基于Rasch模型發(fā)展而來(lái)的針對(duì)個(gè)體閱讀能力和文章閱讀難度的Lexile量尺。這把量尺有固定的原點(diǎn)和相等的測(cè)量單位,可以提供關(guān)于個(gè)體英文閱讀能力和英文閱讀材料(包括段落、文章、甚至整本書(shū))的難度水平的客觀(guān)信息。利用這些信息,可以將個(gè)體的閱讀能力與閱讀材料的難度水平進(jìn)行匹配,從而更好地促進(jìn)閱讀能力的發(fā)展。Lexile系統(tǒng)現(xiàn)階段主要還是應(yīng)用于以英文為母語(yǔ)的群體中,但據(jù)筆者所了解的情況,針對(duì)中文閱讀的Lexile系統(tǒng)也正在發(fā)展當(dāng)中。
有批評(píng)者認(rèn)為Rasch模型的問(wèn)題在于太過(guò)“完美”,導(dǎo)致在現(xiàn)實(shí)世界中的測(cè)量很難真正實(shí)現(xiàn)。某種程度上來(lái)說(shuō),這不是Rasch模型所獨(dú)有,而是所有數(shù)學(xué)模型共有的問(wèn)題。所謂模型,是排除了所有干擾之后的理想狀態(tài),這在本質(zhì)上就決定了模型在現(xiàn)實(shí)世界中不可能百分之百實(shí)現(xiàn)。這也是為什么要檢驗(yàn)?zāi)P团c實(shí)證數(shù)據(jù)是否吻合,為什么需要擬合度指標(biāo)。真正的問(wèn)題在于,很多數(shù)學(xué)模型過(guò)于復(fù)雜,對(duì)于實(shí)踐工作的指導(dǎo)意義不大。Rasch模型是一個(gè)相對(duì)簡(jiǎn)單的模型,以一種最有效率的方式規(guī)定了客觀(guān)測(cè)量所需要滿(mǎn)足的條件。因此具有極大的實(shí)踐指導(dǎo)意義。對(duì)于關(guān)注Rasch模型并有興趣進(jìn)行相關(guān)研究的同仁來(lái)說(shuō),如何在進(jìn)一步推動(dòng)Rasch模型理論發(fā)展的同時(shí),將先進(jìn)的測(cè)量技術(shù)和結(jié)果解讀方法介紹給測(cè)驗(yàn)的直接施測(cè)者和使用者(比如心理測(cè)驗(yàn)使用者、一線(xiàn)教師、以及大型考試管理者),以幫助實(shí)踐工作,應(yīng)該是今后的重點(diǎn)工作方向。
相關(guān)熱詞搜索:測(cè)量 客觀(guān) 域內(nèi) 心理科學(xué)領(lǐng)域內(nèi)的客觀(guān)測(cè)量 心理科學(xué)論文題目 心理科學(xué)論文選題參考
熱點(diǎn)文章閱讀