首页 文章

确定多个权重测验的“难度”?

提问于
浏览
7

Im trying to determine the "difficultly" of a quiz object.

我的最终目标是能够为任何测验创建一个 "difficulty score" (DS) . 这将允许我准确地比较一个测验与另一个测验,尽管由不同的问题/答案组成 .

在创建我的测验对象时,我为每个问题指定一个 "difficulty index" (DI),这是一个1-15的数字 .

15 = most difficult 1 = least difficult

现在一个衡量这个问题的正确方法可能是将每个问题加起来"difficulty index"然后除以测验的最大可能"difficulty index" . (例如16/30 = 53.3%难度)

但是,我还有多个与每个问题相关联的 "weighting" 属性 . 这些重量也是1-5的等级 .

5 = most impact 1 = least impact

我有(2)而不是更常见的(1)的原因是我可以容纳如下的场景......

如果向学生提出一个非常困难的问题(DI = 15)并且学生回答"incorrect",那么不要让他们的分数如此受损但是如果他们得到它"correct"它会大大提高他们的分数 . 我将这些称为 "positive" (PW)和 "negative" (NW)权重 .

Quiz Example A:
问题1:DI = 1 | PW = 3 | NW = 3
问题2:DI = 1 | PW = 3 | NW = 3
问题3:DI = 1 | PW = 3 | NW = 3
问题4:DI = 15 | PW = 5 | NW = 1

Quiz Example B:
问题1:DI = 1 | PW = 3 | NW = 3
问题2:DI = 1 | PW = 3 | NW = 3
问题3:DI = 1 | PW = 3 | NW = 3
问题4:DI = 15 | PW = 1 | NW = 5

从技术上讲,上述两个测验非常相似但是测验B应该更“难”,因为如果你弄错了,最难的问题会对你的分数产生最大的影响 .

My question now becomes how can I accurately determine the "difficulty score" when considering the complex weighting system?

任何帮助是极大的赞赏!

2 回答

  • 4

    当然,挑战是确定每个问题的难度分数 .

    我建议使用以下型号:

    • Hardness (H) :定义一个难以回答正确答案的机会 . 最难的问题是:(1)正确回答它的机会等于随机选择(因为它本质上非常困难),(2)它具有最大数量的可能答案 . 我们定义(H = 0)一个问题,正确回答它的机会是100%(因为它是微不足道的)(我知道 - 这样的问题永远不会出现) . 现在 - 通过主观推断来定义每个问题的硬度(记住,总是可以在给定的选项之间猜测) . 例如,如果(H = 15)问题有4个答案,而另一个具有相似固有硬度的问题有2个答案 - 那么(H = 7.5) . 另一个例子:如果你认为普通学生有62.5%正确回答问题 - 这也是一个(H = 7.5)问题(这是因为H = 15有25%的正确答案,而H = 0有100% . 平均为62.5%)

    • Effect (E) :现在,我们_1395053重要,因此效果是E = PW .

    • Difficulty (DI) :最后一步是整合硬度和效果 - 并称之为难度 . 我建议 DI = H - c*E ,其中c是一些正常数 . 您可能想要再次标准化 .

    Edit: 或者,您可以尝试以下公式: DI = H * (1 - c*E) ,其中效果大小不是绝对的,而是相对于问题的硬度 .


    Clarification:

    教师只需要估计每个问题的一个参数:普通学生正确回答这个问题的概率是多少 . 他的估计 e 将在[1 / k,1]范围内,其中 k 是答案的数量 .

    硬度 H 是e的线性函数,使得1 / k映射到15并且1映射到0.函数是: H = 15 * k / (k-1) * (1-e)

    效果 E 取决于e,PW和NW . 公式是 **E = ePW - (1-e)NW


    Example based on OP comments:

    问题1:

    k = 4,e = 0.25(最难) . 因此H = 15

    PW = 1,NW = 5,e = 0.25 . 因此,E = 0.25 * 1 - 0.75 * 5 = -3.5

    c = 5. DI = 15-5 *( - 3.5)= 32.5

    问题2:

    k = 4,e = 0.95(非常容易) . 因此H = 1

    PW = 1,NW = 5,e = 0.95 . 因此,E = 0.95 * 1 - 0.05 * 5 = 0.7

    c = 5. DI = 1 - 5 *(0.7)= -2.5

  • 1

    我要说问题的核心在于数学上你的例子测验A和B是相同的,除了测验A奖励学生4免费奖励积分(或者,等同地,测验B任意地从他们那里拿4分) . 如果相同的学生同时使用它们,则分数分布将相同,除了移动4分 . 因此,虽然两个测验可能在心理上有所不同(因为,让我们面对它,获得额外的积分感觉良好,并失去积分感觉不好,即使你在技术上没有做任何值得的事情),找到一个客观的方法来区分它们似乎很棘手 .

    也就是说,“心理难度”的一个合理衡量标准可能只是随机选择的学生从测验中获得的平均分数(每个问题) . 当然,这不是你可以提前可靠计算的东西,尽管你可以根据事实后的实际测验结果来估计它 .

    但是,如果你能以某种方式将你的(可能是任意的)难度等级与可能正确回答问题的学生的比例联系起来,那么你可以用它来估计预期的平均分数 . 因此,例如,我们可以简单地假设与问题难度的线性关系为成功率,难度1对应于100%预期成功率,难度15对应于0%预期成功率 . 然后,测验的每个问题的预期平均得分S可以计算为:

    • S =平均(PW×X - NW×(1 - X))

    其中平均值取自测验中的所有问题,其中PW和NW分别是正确答案和错误答案的分数权重,下面的DI是问题的难度等级,X =(15 - DI)/ 14是估计的成功率 .

    当然,我们可能还想说明这样一个事实:即使学生不知道问题的答案,他们仍然可以猜测 . 基本上这意味着估计的成功率X的范围不应该是0到1,而是从1 / N到1,其中N是问题的选项数 . 因此,考虑到这一点,我们可以将X的公式调整为:

    • X =(1(N-1)×(15-DI)/ 14)/ N.

    该估计平均分S作为难度测量的一个问题是它不受任何方向限制,并且没有提供明显的比例来指示什么算作“简单”测验或“硬”测验 . 这里的根本问题是你没有为问题权重指定任何限制,因此从技术上讲,没有什么可以阻止某人提出一个问题,例如,一百万分的正或负权重 .

    也就是说,如果你对权重施加了一些合理的限制(即使它们只是建议),那么你应该能够在S上 Build 合理的阈值,以便进行例如考验 . 容易,温和或坚硬 . 即使你不这样做,你仍然可以至少使用它来通过难度对彼此的测验进行排名 .

    PS . 在UI中呈现预期分数的一种方法可能是将其乘以测验中的问题数,并将结果显示为测验的“标准” . 这样,学生可以通过观察他们的评分是高于还是低于标准来粗略地判断他们自己的表现与测验的难度 .

相关问题