“基于Rasch模型的高考数学学科不同考生群体成绩DIF分析”成果公报

发布时间：2020-07-30

安徽省教育招生考试院命题中心主任李付鹏主持完成了“基于Rasch模型的高考数学学科不同考生群体成绩DIF分析”(课题批准号：GJK2017029)。课题组主要成员：李付鹏、储林林、赵发忠、杜海燕、宋吉祥。

　　一、内容与方法

　　本课题研究内容：以普通高考考生成绩和考生相关基本信息为研究对象，运用Rasch模型理论和相关的统计推断理论对近十年（2008-2017年）数学学科成绩进行项目功能差异（DIF）研究。

　　具体内容有：

　　第一部分：①对Rasch测量模型的项目参数不变性进行模拟验证；②运用Rasch基本模型对不同性别在二级计分试题上的差异性分析；③运用Rasch拓展模型（分部评分模型，PCM）对不同性别在多级计分试题上的DIF分析；④不同群体的DIF一致性和非一致性分析。⑤测验等值误差的研究，对两种常见的等值误差方法Bootstrap方法和Delta方法进行了等值标准误的研究。

　　第二部分：不同群体成绩DIF的变化趋势及试卷结构维度分析。①测验维度的CFA因素分析；②测验维度的Rasch分析。通过成绩的维度分析识别测验的主要维度、次要维度、无关维度等，确定不同群体的不利维度和有利维度，为群体的差异性提供数据方面的证据。③对学科试题DIF变化的趋势分析。按照学科总体及试题内容、试题类型、能力结构等多个方面对第一部分产生的数据进行DIF的变化趋势分析。

　　本课题的研究方法是，本课题采用文献法、访谈法、统计分析法等将定性研究和定量研究相结合。

　　定性研究：利用文献研究方法，收集国内外DIF相关研究的文献和材料，进行学术史梳理及研究动态分析，运用比较分析方法，分析不同的DIF技术，研究基于Rasch模型进行DIF分析的比较优势，确定本课题研究的重点和难点。在课题研究的后期部分，通过访谈数学学科参与命题的专家（针对自主命题的年份），了解试题编制的基本情况（包括试题考核目标和要求，试题难度预估等），为不同群体差异性的原因提供较多的分析材料。

　　定量研究：使用统计分析法，以近十年（2008-2017年）某大规模选拔性测试数学科目考生成绩为基础，运用Rasch模型，对不同群体进行不同试题内容、不同试题类型和不同能力维度的DIF分析，给出不同群体差异的发展变化情况。样本的选取采取分层抽样的方法，确保覆盖所有不同层次的学校和所有不同能力水平的考生，同时尽量保持不同群体的考生数量的一致性。

　　二、结论与对策

　　本课题通过理论与实验研究，得出如下结论与对策：

　　（1）Rasch模型项目参数不变性的验证研究

　　相比于经典测量理论，Rasch模型具有被试和项目参数不变性。本研究选用Rasch模型进行DIF分析也主要是基于Rasch模型的这个特点。然而，关于Rasch模型的被试和项目参数不变性虽然在理论上成立，但也基于多个假设条件（局部独立性、单维性等），在实践上也仅有为数不多的文献进行数据验证，研究的结果也不尽相同。本研究以某年度大学入学考试数学学科的实测成绩数据为例，对Rasch模型项目参数不变性进行研究分析参数不变性的影响因素，以便为本研究的数据实验设计的科学性、研究内容的客观性和研究结果的真实性提供更加可靠的理论和实践基础。Rasch模型测量参数不变性检验需要多个前提条件，除了Rasch模型自身所需要的单维度、局部独立性等检验之外，还需要其他的一些检验，其中包括两类主要的检验：数据与模型的拟合性检验；项目功能差异（DIF）检验。

　　验证基于Rasch模型的二元数据。21道数学试题全部按0和1计分。抽取样本的总体相同，三种抽样方式分别为（1）被试随机抽样；（2）不同性别抽样；（3）不同能力水平群体抽样。三个抽样的样本群体特征差异逐渐增大，该抽样策略允许在逐渐减少的可比较参与者样本中检查Rasch模型的参数不变性。

　　研究以不同的抽样方式检验了Rasch模型项目（试题）参数不变性，尽管Rasch模型参数不变性的先决条件较为严格，但从检验数据来看，较多的证据支持了Rasch模型项目（试题）参数的不变性，但本研究使用的数据量和抽样次数有限，得出项目（试题）参数具有不变性的结论还需要做更多的数据模拟。同时本文仅仅检验了来自同一个总体的样本情况，对于来自于不同总体的样本是否具有类似的结果还需要再做研究。

　　（2）基于RCMLM模型的数学试卷二分项目性别DIF研究

　　第一，试题在总体上没有较大的性别差异。统计全部106道选择题，发现有利于男生的试题55道，有利于女生的试题51道；在14道中度及以上DIF试题中，有利于男生的试题7道，有利于女生的试题7道，试题数量相当，没有表现出明显的DIF群体倾向。

　　第二，部分具有中度及以上DIF试题呈现的性别差异，与已有研究结果具有一致性。已有的研究表明，男生在空间想象能力方面具有一定的优势，女生在计算能力方面具有一定的优势，本文的研究支持了这一结论。

　　第三，未发现不同群体DIF发展变化的趋势。把连续10年的DIF试题按照年份排序，未发现在不同性别间存在差异变大或缩小的规律性趋势；把试题按照知识内容和能力要求分别排序，也未发现具有规律性的变化趋势。

　　研究表明，试题的性别差异是一种复杂的现象，无法用单一因素去解释，可能与认知、心理等考生特征有关，也可能与试题特征有关。就试题特征来说，数学成绩存在性别差异可能与试题的内容有关，也可能与试题的能力要求有关。从研究结果看，男、女生在空间想象能力方面是有差异的。男女生在代数（复数）方面的差异也是明显的，由于中学阶段复数的内容和能力要求较低，这种差异可能是男女生在考试过程中的心理因素造成的，得出结论还需要进一步加以验证。

　　（3）基于RCMLM模型的数学试卷二分项目和多分项目性别DIF研究

　　RCMLM模型是通用的Rasch单维模型，包含基本Rasch模型、PCM模型和RSM模型。分析二级计分的试题时，RCMLM模型被调整为Rasch模型；分析多级计分的试题时，RCMLM模型被调整为PCM模型或RSM模型。利用RCMLM模型对一份普通高中数学试卷进行不同性别的DIF分析，一方面侦测该试卷在不同性别之间的难度差异；另一方面检测模型在对具有二级计分和多级计分的试题同时进行DIF分析的有效性。

　　通过本研究实践，可以得出以下结论：基于Rasch测量理论的RCMLM通用拓展模型，对具有二级计分和多级计分试题的试卷同时进行DIF分析，分析结果显示大部分试题仅具有轻微的DIF现象，部分试题具有一定程度的DIF现象；分析也表明RCMLM通用拓展模型可在保持试卷完整性的基础上，对具有二级计分和多级计分的试题同时进行DIF分析，保持了试卷的完整性，DIF分析结果更加有效。

　　（4）基于CFA视角的数学试卷结构的多维度研究

　　试卷结构的维度研究是近年来试卷分析的一个重要方面。对于测验来说，命题人员通过编制试题来考核所要求的能力，不同的试题可以考核相同的能力，同一个试题也可以考核不同的能力。从试卷结构来看，不同的能力可以视为不同的维度，因此，组成试卷的试题既可能是单维度的，也可能是多维度的。此外，试题的多维度既可能是试题编制人员有意预设的，也可能是试题编制人员无意引入的。考后对实测数据进行因素分析，验证考试结果是否与命题人员预设的试题各个考核维度（因素）一致，这对测验的评估非常重要，对提高试题质量和提升命题人员的试题编制水平也具有重要的意义。

　　对于本次研究，从模型的参数估计、拟合度和模型内在质量等几个方面，我们给出以下结论：命题人员设计的试卷维度结构与实测数据基本吻合。更具体地说，命题人员对试卷中各试题主旨能力维度的考查与因素分析给出的结果基本一致，模型的修正建议虽然可进一步减少拟合的偏差，但与理论不符，不应该被采纳；数据分析的结果也没有充分支持数学教师提出的修正建议。命题专家们的原始预设模型更为合理。模型维度的验证表明，试题均考查了单一的维度，没有较为明显的迹象表明存在试题间或试题内的多维度，但实际上试题总是存在着多个维度的。

　　模型部分参数估计的结果与拟合指标不佳，试卷整体质量还需要进一步的提升。模型分析的部分指标（如因素载荷、拟合残差、组合信度、平均方差抽取量）偏低，这说明试卷的质量需要进一步的提升。由于本研究把分析数据中的二级计分的客观题和多级计分的主观题均作为二级计分的试题处理，模型没有采取混合模型，这对分析的准确性可能产生一定的影响。

　　（5）Rasch视角的试卷结构的多维度研究

　　本研究在Rasch基础上拓展的多维随机系数多项式Logit模型(MRCMLM)为基础，从拟合偏差、维度方差和相关性等几个方面，确定了试卷结构的多维模型，对一份数学试卷可能存在的三种能力维度模型进行验证性因素分析。对于同一套试卷中的试题而言，试题与不同潜在维度之间的隶属划分，可构成不同的试卷维度模型。我们以不同试卷维度模型与实测数据的拟合偏差大小为主要依据，同时结合方差和相关性等方面为标准来筛选出最佳试卷维度模型。结果表明，MRCMLM模型是一种有效的分析试卷多维结构的工具，多维分析能够提供比单维分析更加丰富的测试信息，多维分析结果更加符合真实的试卷结构，分析也验证了MRCMLM模型具有补偿性质。

　　（6）基于Bootstrap方法和Delta方法的等值标准误研究

　　对两种常见的等值误差方法Bootstrap方法和Delta方法，以实测数据为基础，进行了等值标准误的研究。研究表明，Bootstrap方法和Delta方法均是有效的等值误差检测方法，具有各自的优势。

　　三、成果与影响

　　本课题在应用方面的创新点是研究不同群体成绩差异的变化趋势和对差异性原因的分析。以往DIF研究的重点是不同群体的差异性，本课题在对DIF差异性研究的基础上，进一步研究不同群体差异性的原因，同时以往的研究大多基于一次考试的DIF分析，本课题持续对近10年的考试成绩进行DIF 研究，研究群体差异的变化趋势。本课题在理论方面的创新是利用Rasch模型方法进行试题维度的分析。传统试题维度的分析主要采用因素分析的方法，本课题在Rasch分析和传统因素分析比较的基础上进行维度分析的视角较为新颖。研究没有从差异的实际原因方面进行分析，因为差异的原因来源于多个方面，包括家庭因素、学习兴趣、学习时间等等，目前并没有收集这方面的数据，现在也不具备收集数据的条件。

　　成果的社会影响主要有：

　　（1）不同考生群体的差异性分析，为提高命题的科学性提供较好的参考。

　　Rasch模型是指导考试命题的重要理论工具。一方面，Rasch理论可以指导测验的编制，另一方面，Rasch考试数据的分析结果可为命题提供学生学习、教育教学的反馈信息。Rasch在DIF差异的研究，可以提供有关考试在不同群体的差异方面的信息，这属于考试公平性研究的重要内容，有利于提高命题的科学性和公平性。同时，也丰富了Rasch模型理论在DIF研究中的应用。

　　（2）研究不同考生群体的差异性为学校的教育教学和学生的学习提供帮助。

　　一方面基于Rasch模型研究大规模选拔性考试不同群体成绩差异的表现；另一方面观测不同群体差异性的发展变化趋势，并对不同群体从考生群体的认知特征、心理特征和学科试题内容、试题类型、认知层次、能力结构等多个方面寻求差异性的原因，以便采取措施消除或减小群体的差异性。研究的结果为学校的教育教学和学生的学习提供帮助，可以更有针对性地开展教育教学和促进学生的有效学习。

　　（3）研究不同考生群体的差异性为教育部门领导决策提供参考。

　　大规模选拔性考试成绩差异一直是社会热点话题，不同群体（包括不同性别，也包括城市和农村以及不同区域）的确存在着差异，基础教育部门领导了解不同群体成绩差异的现状以及发展趋势，可以及时调整行政决策，进而为缩小不同群体的差异进行行政干预，以确保所有群体共同进步。本研究在这方面具有一定的社会价值。

　　四、改进与完善

　　1.研究中存在的问题

　　对于产生项目功能差异的原因研究不够深入具体。和PISA的群体差异研究相比，研究数据缺乏有关学生、学校、家庭等相关背景信息情况，而PISA具有大量的相关数据，能够更加有针对性地了解成绩差异背后的原因。本课题选择对试题的结构方面进行群体的差异性分析，分析的结论中可能存在着其他因素的影响。

　　2.今后研究设想

　　研究表明，试题的性别差异是一种复杂的现象，无法用单一因素去解释，可能与认知、心理等考生特征有关，也可能与试题特征有关。就试题特征来说，数学成绩存在性别差异可能与试题的内容有关，也可能与试题的能力要求有关。下一步，将深入分析造成不同群体差异性的原因，使用不同的分析方法和分析模型，利用不同学科的数据，进一步对群体的性别差异进行深入分析。

　　①多群组模式DIF分析

　　通常的DIF研究关注两个不同群体（如性别）的DIF差异，下一步研究可能需要同时对多个群体（例如，农村应届考生、城市应届考生、农村历届考生、城市历届考生）进行DIF分析。不同群体中不同能力水平的考生可能在同一个试题显示出群体差异的一致性和非一致性，即同一个试题对于一个群体中的高水平考生有利，同时可能存在着对于该群体低水平考生不利的情况。

　　②Rasch分析与因素分析在数学学科群体差异性的分析比较

　　这方面的研究涉及到研究题目与所测量的心理特征（潜在变量）之间的关系。因素分析（factor analysis）是使用最为广泛的统计工具。在传统因素分析中，观测变量与因子之间的关系用线性函数来确定。Rasch模型提供了一条基于概率的分析题目和所测量心理特征（潜在变量）的方法。两种方法各自具有不同的特点和优势，也存在着不同的局限性。后续研究要结合两种方法对不同群体在大规模选拔性考试数学成绩差异性的根源进行若干分析，重点研究两种方式在维度检验中的一致性和差异性。

　　③Mantel-Haenszel方法与Rasch模型方法的DIF差异性和一致性

　　为确保利用Rasch模型进行大规模选拔性考试不同群体DIF分析的客观性和准确性，后续可以采用较为广泛使用的Mantel-Haenszel方法进行辅助验证。Rasch方法和Mantel-Haenszel方法分别基于不同的理论基础，但在DIF结果的检验方面却具有高度的一致性，后续研究可将Rasch方法与Mantel-Haenszel方法的模拟情况比较分析，以确保群体差异分析的准确性，同时对两类方法在理论基础、各自的优势和局限性等方面进行较为详细的分析。