NAEP效度研究对TUDA数学成绩再分析的小组反应
国家教育进步评估(NAEP)旨在反映美国教育的整体内容。然而,随着时间的推移,许多变化,如采用严格的州立大学和职业准备标准,如共同核心国家标准(CCSS), NAEP在多大程度上继续满足这一目标存在问题。在国家教育格局的转变中效度研究(NVS)小组对各州的评估内容与NAEP评估内容之间可能出现的不匹配等问题进行了监测、研究和评论。
根据2017年NAEP数学测试(试行城区评估)的结果,学生在NAEP上的表现趋势似乎不如在与大学和职业准备标准相一致的州评估上的表现趋势积极。当时,受影响城区的几位领导人要求进行相当于“重新计票”的选举。
最近由Daro等人(在编)进行的NVS小组研究的结果记录了NAEP和州数学评估之间根据几个重要维度的一致性程度,其中一个是内容分布。这些结果提供了进一步分析的机会,这被多根(2019;(见附录)。多根的TUDA再分析研究旨在探讨内容不一致是否可能是对NAEP和各自的州评估的TUDAs不匹配结果的一个可能原因。
研究人员提出了以下问题:
- 如果根据各州评估的内容分布来加权NAEP分量表,那么2017年数学四年级和八年级的TUDA平均分数会发生怎样的变化?
- 假设这些评估和NAEP的内容重点在2013年、2015年和2019年与2017年相似,如果按照选定的国家评估的内容重点对NAEP分量表进行加权,那么数学4级和8级TUDA的平均分数在2013年、2015年和2019年会发生怎样的变化?
本报告由NVS小组成员和AIR工作人员撰写,作为NVS小组对多根(2019)分析的回应。
首先,一个广泛的背景部分为进行这种分析背后的动机提供了背景。本节涵盖了标准和评估对齐的重要历史背景,严格的大学和职业准备状态内容标准对NAEP的影响,以及对齐研究对调查NAEP有效性的价值。
第二部分对多根的分析中使用的方法提供了两个主要的评论和警告:1)在统计上过分强调一个领域不太可能产生与创建一个更强调该领域的测试蓝图相同的结果;2)由于依赖州评估作为学习机会的代理,分析是有限的。
最后一节考虑了多根的结果对NAEP的影响,以及以任何正式或系统的方式考虑报告这种分析的结果所固有的挑战。
报告的结论是,多根为NAEP TUDA分数所做的二次分析是重要的,值得进一步探索,作为监测NAEP有效性的持续努力的一部分。但是,这种分析不应用于报告任何官方统计数字,甚至不应作为一套重复出现的辅助结果或附录材料。在某种程度上,NAEP所涵盖的内容与各州的内容之间存在着真正的、教育上的重大不匹配,改善这种情况的最好办法是修改NAEP框架,而不是事后对NAEP结果进行重新加权。这种数学框架的更新已经由国家评估管理委员会进行。