第三节 题库   反映现代编制数学测验技术的题库理论和它的应用,主要涉及题库的意义、题库建设、利用题库生成数学测验题这三个方面的内容。   一、题库的意义   20世纪中叶,迅猛发展的世界经济迫使人们寻找编制测验的新技术,以保证客观、准确、及时地选拔人才,题库正是顺应这一时代潮流需要的产物。题库的建立使编制测验技术发生了根本性的变革。在已建立的不同级别、不同类型题库的实践中,已显示了题库的优越性。   1.题库的概念   题库是带有必要参数的大量题目的有机组合。按建设题库的主管单位划分,有国家级、省级、校级等题库;按其生成测验题的能力,则可分为只能生成一种测试性质的单功能题库,以及能生成两种或两种以上测试性质的多功能题库;按构成题库的学科可分为单分支学科题库和多分支学科题库;按接受测试的对象来分,则有适宜于各级、各类在校学生与适用于非在校人员的题库。容量小的题库往往只有单功能,而国家级和省级题库一般具有多种功能。   题库除了能完成建库所规定的任务外,还应符合如下标准:   (1)高效、经济、保密、易于管理;   (2)库题的质量应是较高的,能预控,且等值可比;   (3)题库应便于技术上的维修,并不断完善和增加新库题,具有根据考试水平的变化及时修改库题的参数值的能力。   2.建立题库的基本条件   建立题库一般应具备如下基本条件:   (1)有一个成熟、稳定、明确的考试大钢。这个大纲应对不同性质、层次和目的考试的内容、能力要求,考试方式和对象作出明确说明,以便明确库题的内容、题型、权重和完成时量,避免构造无效库题。   (2)有一个命题和审题的专门队伍。命题的专门队伍由职业专家和兼职人员(有关学科的教师和爱好者)组成,其任务是根据考纲拟造题目。而审题班子,则是由各种测评专家和经验丰富的教师组成的,鉴定题目能否入库的具有决定性的权威组织。   (3)有科学有效地测试拟入库题指标的方法。对于一个题目,必须判明其适宜性、难度、区分度、及格要求度、信息函数值等才能决断该题能否入库。目前,用经典测验理论(CTT)建立的难度、区分度等指标法,在建设题库时仍在使用;由项目反应理论(IRT)建立的适宜性、难度、区分度、及格要求度、信息函数值等指标法,在一定场合下对确定库题也非常有效。但由于CTT对样本依赖性强,而IRT对多级评分模型又不能直接使用,所以建设题库的权宜之计是CTT与IRT并用。   (4)有建立库题的分类系统。为便于管理,对库题必须进行分类。分类标准可以是知识结构,也可以是题目的指标值。整个分类系统由基本情况(名称和索引、编制和使用情况、来源和加工情况等)、内容分类、试测数据(指标状况)、答案等组成。   (5)有大量的题目。校级单功能题库,一般实际考题数与库题数之比不低于1∶10,而省级、国家级的题库,按照多功能性的要求,其库题数应逾万。   (6)有合理完善的保存库题的方法。无论是用题卡还是用计算机保存库题,都必须完整地记载分类细目,而且要利于检索和管理。   二、题库的建设   建设题库,首先必须把好题目的入库关。题目入库后,还必须建立相应的管理、维护和扩充题库的措施。   1.选择库题的标准   根据所建题库用于编制测验题的性质,CTT与IRT各有确定库题的标准。   (1)利用CTT确定库题   φ-系数法是用于CTT建立题库时的简单易行的确定库题的方法。通常规定    其中PH表示成绩好的答对率,PL表示成绩差的答对率,当被测总数N>30时,计算PH、PL的人数均取27N%,而    具体操作为:   第一步,求出φ。根据抽取的被试样本的测试结果,利用φ-系数公式求出φ值。   第二步,检验。利用   大于φ0.05,就可保证肯定性判断错误的可能性不超过5%。一般地,当φ≥0.5时有较好的区分度。如图3-6,其阴影部分中的点(φ,P)所对应的题可入选为库题。    φ-系数法的精确性很大程度上依赖于被抽取的测试样本,而且等值问题未能得到有效解决,对于库题的参数也未能予以充分揭示。尽管如此,在建立小型题库(如校级题库)时,它仍不失为一种可行的方法。   (2)利用IRT确定库题   IRT是一种关于能力测量的理论。它的理论基础是能力单维性(每题只测验一种能力),局部独立性(考生对测验各题的反应在统计上是独立的),题目特征曲线(ICC),完成时间充分性(考生完成测验题的时间是足够的)四个假设。它包括复杂程度不同的多个模型,目前被广泛使用的是下面的逻辑斯蒂(logistic)模型。   三参数模型(其中难度b,区分度a,猜测因素c)    二参数模型(其中难度b,区分度a)    单参数模型(其中难度b)又称拉什(Rasch)模型    以上三个模型中参数取值的正常范围分别为:0≤ai≤2,-3≤bi≤3,0≤ci≤1,D=1.7(D被称为调整因子,是常数)。更精确的D值可取为1.704。这里,Pij(θ)表示能力水平为θ的考生按第j种模型计算答对第i题的概率,显然有    对于单参数模型表示的能力和水平,可通过公式    联系起来,这里fr为具有r分数考生的能力估计值,bi为第i题的难度估计值。   规定题i对测验信息函数的贡献    为题i的信息函数,这里只P′i(θ)为Pi(θ)关于θ的一阶导数, Qi(θ)=1-Pi(θ)。   利用IRT建设题库具有难度与样本无关、能力与题目无关的优点,便于对题目和考生作适宜性检验,及研究整卷的效度、难度。由此建立的题库易于扩充,并能根据考生水平调整库题的难度值。IRT在题库建设中有多方面的应用。   第一,估计能力参数θ与题目参数a、b、c。   对参数估计的研究一直是IRT研究的一个重要问题,已有的估计能力参数θ和题目参数a、b、c的方法有多种。下面用极大似然估计和近似估计方法对逻辑斯蒂三参数模型的参数进行估计,可见求参数的一般过程。   先看逻辑斯蒂三参数模型参数的极大似然估计。   设被试样本容量为N,其个体能力水平为θi(i=1,2,…,N),θ=(θ1,θ2,…,θn),选取M道题目测试,第j(j=1,2,…,M)道题的反应为uj,u=(u1,u2,…,um),样本对题作出的反应概率为P(u|θ),利用IRT的局部独立性假设,有    L(u|θ)就是极大似然函数。   利用极大似然估计可得:   能力参数估计式    题目参数估计式            这里Qji=1-Pji,D=1.7,Pji=P(uj|θi),a=(a1,a2,…,an),b=(b1,b2,…,bn),c=(c1,c2,…,cn)。   根据θ、a、b、c的初值以及上述3M+N个方程,用迭代法反复在θ和a、b、c之间进行迭代,能按预定的精确度求出θ和a、b、c的值。若将求解的过程设计成程序,可以用计算机求解。   再看逻辑斯蒂三参数模型参数的近似估计。   在大样本和能力参数θ服从正态分布的条件下,近似估计逻辑斯蒂三参数模型的参数有如下关系式:    其中ρ′iθ是ui与θ的点二列相关系数,ρiθ是第i题与θ的点二列相关系数,πi为第i题的通过率难度,φ(t)是标准正态分布的密度           第二,库题的适宜性检验。   测验者对题目作出的反应是否与测量模式所期望的相符,这就是题目的适宜性。建设题库的选题是为编制测验作准备的,因而必须查明拟入库题的适宜性。规定 Z2=exp[(2x-1)(f-b)]   为残余值,式中f为能力值,b为难度值,答对时x=1,答错时x=0,可通过下面步骤对拟入库题作适宜性检验:   第一步,按题目从易到难为行序,得分由高到低为列序构成分数矩阵。   第二步,设∑Z2表示各测验者标准残余值的和,利用    作t检验,其中df为自由度。   第三步,以总题数-1为题目数的自由度作能力值t检验,以测验人数-1为自由度作难度值t检验,决定拟入库题是否可作为库题接受。在缺乏分布表的情况下,当t<3时可接受,t>5时应加以拒绝,当3≤t≤5时应作进一步不合适的原因分析。   2.建设题库的方法   建设题库的方法起初是实验性的,由此所生成的库题具有随意性,只能生成具有特定性的小规模测验题。当今,建设题库的方法已得到根本的改变和发展。建设库题可按如下步骤进行:   (1)作好拟入库题的开发工作   开发拟入库题可按两种形式进行:其一,组织专家从事库题的开发和研究;其二,向广大教师及有关学科爱好者征题,由此而带动开发库题的群众性活动。   (2)分析等值   所谓分析等值主要分析题目间的难度b、区分度a是否等值,并把它转化到一量表上。用CTT分析等值受样本的影响较大,故一般用IRT进行等值分析。在二级评分模型中,具体应用IRT理论进行等值分析的途径很多。PROX过程使能力与难度相分离,可对能力与难度进行数值比较,又易于操作,其步骤如下。   第一步,整理数据。删除全答对或全答错的题,构成分数矩阵(表3-3)。    第二步,根据分数构造题目难度值分布表3-4,表中fi表示能力,          第三步,根据分数矩阵整理出测验者能力值的分布(表分3-5),          第四步,求出离差扩张因子X,Y:    第五步,用X校正能力值,用Y校正难度值,    通过以上各步骤求出的fr和bi具有可比性。当bi<0时,题偏易;当bi>0时,题偏难。题库总是按br将库题分等。例如,按容易(br≤-3),比较容易(-3<bi≤-1),中等难度(-1<bi≤1),比较难(1<bi≤3),难(bi>3),可将库题分为五等。当然也可采用其他标准将库题分等。   PROX过程虽容易理解,但较复杂,再加上逐一测试,工作量大,因而常用学科评估专家对拟入库题进行估计来推导有关参数值。这已成为一种可行的方法。在二级评分模型中,可以证明,用贝叶斯(Bayes)估计参数得的难度值bB与专家评估难度bη有如下关系式 bB=0.613+1.333bη (相关系数为0.712,误差标准差的估计为0.7383),或  (误差标准差的估计为0.70)。   通过率p与bη的关系为  (误差标准差的估计为0.0017)。   通过率p与bB的关系为 bB=3.0516-6.1244p   (相关系数为0.975,误差标准差的估计为0.073)。   我们认为,只要有一定数量的,并在测评题目方面有丰富经验的教师,就可用上述关系求bB。类似于分数的等值定义可给出内容难度等值的定义。如果在任一题组中(实际上取一个题目大样本)两个水平相同的专家组评定的两题的百分等级相等,则称这两题的内容难度等值。例如,取60道题构成大样本,由A、B两个专家组对其内容难度值进行评定。若题甲由A评定的内容难度值为0.6,其所在百分等级是30,而题乙由B评定的内容难度值为0.65,其所在百分等级也为30,则题甲与题乙的内容难度值相等。   (3)贮存库题建设题库   设置题卡是早期建设题库的主要方法,现代题卡主要由正文、答案、评分标准、使用情况、使用后记录、适宜性记录、及格要求度、各种参数(a、b、c)值、命题人、审题人和编卡时间组成。为了便于查阅,还需对题卡进行分类编号。早期的题卡没有如此详尽的记载,而且不用计算机贮存。尽管如此,当今没有计算机管理系统的单位仍采用较完备的题卡以建立题库。但是,随着题库容量大幅度增加,对题库的管理和使用提出了很高的要求,今天利用计算机技术建库已成了建库的主流和方向。   利用计算机技术可把库题存于机内,也可把库题单独放在机外。前者管理起来方便,但对内存要求高;后者节省了计算机存储空间,但管理不太方便。随着计算机存储容量的提高,目前一般倾向于采用把库题存入计算机内的建库方法,并建立相应的软件对整个题库进行监控。这种软件由题目输入,题目信息管理,统计分析(库题各项指标的获得方式),试卷生成,信息输出等五个模块组成。   3.题库的维护和扩充   题库是一个动态的存储和管理系统,便于维护和扩充题库是当代题库建设的重要特征。   (1)题库的动态维护   题库的状态随情况的变化而变化,必须经常对题库的思想性、科学性,根据相关学科的教育现状和要求加以调整,及时修正库题的各种参数值。   (2)题库的扩充   扩充题库,充实题库中新内容,能给题库带来生机。用CTT很难实现题库的参数可公度(新旧参数值可比)扩充,IRT为扩充题库提供了如下可行的方法。   设g1,g2,…,gn为题库中的n道题,其难度分别为b1,b2,…,bn,问欲新增加gn+1,gn+2,…,gn+m这m道题入库是否可行?   选gi(1≤i≤n)为连接题目(在不同时期测验中总是使用的库题称为连接题目),由gi,gn+1,gn+2,…,gn+m编成测验题,测              这样经重新调整后的这m+n道题的难度都在同一量表上,由此即可回答这m道题是否可入库。应该指出,这里仅选—个连接题目是为了阐述的方便,实际操作时所选的连接题目应不少于五个,而且为了保证所选连接题目合理,还应对连接题目按下面的步骤进行适宜性检验。   第一步,计算标准残余值Sr=(残余值-平均值)2。   第二步,计算Q=(N/12)[k/(k-1)],其中N表示参加连接测验的人数,k为被选出的连接题目数。   第三步,计算x2=Q·Sr。若逐个题目检查,则x2<3.84(自由度为1)者符合要求;对整套连接题目进行评估,查自由度为k-1的表即可,若x2大于查表值,则认为是适宜的。实践中选100名测验者作样本估计值已经足够。   为了保证库题难度紧凑一致,须从统计上考虑优化连接结构。其基本思想是使每个测验中的每个题目都能作为连接题目,用于其他测验,从而使所有题目组成一个互相联系的网络。   三、利用题库生成测验题   建立题库的主要目的在于能根据相关测试的要求,用合适的方法快速地生成能获得测验期望目标的测验题。   1.确定测验题的形式和参数   从结构形式上看,编制测验题包括题型配置,权重分布,答题格式要求等;从测验题参数看,包括测验题难度、测验题信度、测验题效度、测验题区分度、完成时量、卷长(知识点及题数)、及格度等。确定测验题的形式和参数就是对测验题的结构形式和参数要求给出明确的规定。   2.初选试题   按照题库的生成和管理方式,从题库中选取试题的方式也有差异。用CTT建立的题库一般用标准法选取库题作试题。用IRT建立的题库却常用目标信息函数法选取库题作试题。   (1)用标准法初选试题 97   所谓标准法就是用CTT分析题目的参数,选用0.3≤b≤0.7,0.53<a(点列相关系数)<0.7的库题生成测验题。选题时,编制测验者只要按既定的a、b值,以及相应的题型、内容和作答时间等填写好选题卡,即可进行初选测验题工作。   (2)用信息函数法初选试题   用IRT建立的题库,按目标信息函数生成测验题时,首先用信息函数法初选试题。   规定I(θ)=D2PQ为信息函数,这里D=1.7,P表示能力水平为θ的测验者答对的概率,Q=1-P。显然当P=Q时,I(θ)有最大值为0.25D2。规定信息函数的图象是由点(θ,I(θ))组成的图形。对于逻辑斯蒂三参数模型,可求得信息函数        由于库题的参数已知,选出不多于测验题数的n道库题编制测验信 能力θ的测验者在第i题的信息函数值),并以这n道题作为初选试题。   3.确定测验题   标准法和目标信息函数法确定测验题有各自的方式。   (1)用双向细目表确定测验题   在没有计算机管理的用CTT建立的题库中选取并确定测验题时,借助于编制测验者事先拟定的双向细目表对选出的库题进行筛选,并最终编成测验题;对于用CTT建立的用计算机管理的题库,测验拟造者只要把双向细目表输入计算机即可。   (2)用目标信息函数法确定测验题    预先给定测验所允许的目标误差范围e,规定:目标信息函数为 个图形平行于θ轴,如图3-7所示。   在同一图中作出测验信息函数曲线与目标信息函数曲线,即可发现用信息函数法所初选的n道库题具体适用于目标所规定的何种水平被试。  能获取目标所规定的这种水平被试的信息量,因而仅用选出的题作为这种水平被试的试题不妥,应进一步进行调整或增删。为保证测验目标重点测试的水平层次获得最大的信息量,在其他水平层次的I(θ)值不    在用IRT建立的题库中,库题的逻辑斯蒂参数值业已确定,因而按目标信息函数生成试题较易。   此外,测验题拼组好后,再结合各题的及格要求度ki和各题的满分 真正具有及格的意义。   四、从题库中不同抽取库题编制测验题效果的比较   从题库中抽取库题编制测验题除标准法外还有下列几种抽题方法:   (1)单纯随机抽样法。用随机数字表抽取库题组成测验题。   (2)取中法。按能力水平为0选取信息量最大的库题组成测验题。   (3)高低法。首先按能力水平为-1选取信息函数值最大的库题作试题,其次按能力水平为0选取信息函数值最大的库题作试题,再次按能力水平为1选取信息函数值最大的库题作试题;然后又从-1水平开始,如此轮回直到取满规定的测验题题数为止。   (4)最大信息法。先取能力水平为-1、0、1的题目信息函数,求出题库中每个题目的平均信息函数,从中取出平均信息函数值最大的题目,直到选满规定的题数为止。   研究结果表明:最大信息法优于标准法,能获得更多的信息量;单纯随机抽样法除在能力水平最高和最低状态获得相对最大信息量外,其余各水平均最少,而且生成的测验题所测验的总信息量远少于其他方法,因而不宜采用此法生成测验题;除单纯随机抽样法外的其他方法,相对于各具体能力水平的信息函数而言则各有优劣。例如在-2水平高低法所获的信息量最大,而在0水平则是取中法所获的信息量最大,因而采取何种方法选题,应由具体测试的目标决定;若要使测验所得的信息量最大,首先选用最大信息法,其次是高低法,再次是取中法,最后才是标准法。