Skip to content
Go back 2505.01035 arXiv logo

Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?

Published:  at  09:33 AM
61.53 😐

本文通过对比详细、简化和无评分标准在四个大型语言模型上的自动作文评分表现,发现简化标准在大多数模型中能保持与详细标准相似的准确性并显著降低token使用量,但模型特异性和整体性能不足仍需关注。

Large Language Model, Prompt Engineering, Efficiency, Classification

Lui Yoshida

The University of Tokyo

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自动作文评分(AES)中的应用近年来受到广泛关注,评分标准(rubric)作为提示词的一部分已成为标准做法。然而,创建详细的评分标准需要大量努力和专业知识,同时会增加提示词的token数量,从而提高计算成本和环境影响。本研究旨在探讨评分标准的详细程度对LLM-based AES评分准确性的影响,回答‘详细标准是否必要?’、‘简化标准是否足够?’以及‘是否需要标准?’等问题,并验证这些趋势在不同模型中的一致性。

Method

本研究采用实验对比方法,核心思想是通过不同详细程度的评分标准(rubric)来评估其对LLM评分准确性的影响。具体步骤如下:

Experiment

实验在TOEFL11数据集上进行,旨在评估三种评分标准(详细、简化、无标准)在四个LLM上的评分一致性(QWK)和token使用效率。实验设置合理,选择了多个主流模型以验证结果的普适性,并通过统计方法(如bootstrap和Holm校正)确保结果可靠性。结果显示:

Further Thoughts

本文的研究结果引发了一些深层次的思考。首先,Gemini 1.5 Flash在详细标准下的性能下降可能与提示词长度对模型推理能力的影响有关,这与近期研究(如Levy等人的工作)关于长上下文导致模型性能下降的结论一致,是否可以通过分段提示或上下文压缩技术缓解这一问题?其次,QWK值偏低(0.6)表明当前LLM在AES中的应用距离专家水平仍有差距,是否可以通过结合领域特定的微调或多模型集成(如将评分任务分解为多个子任务并分配给不同模型)进一步提升性能?此外,本研究仅在TOEFL11数据集上验证结果,是否在其他文化背景或语言水平的作文数据集上(如ASAP或CLC-FCE)也能得到类似结论?最后,简化标准虽然在实验中表现良好,但其在多维度评分(如内容、结构、语言同时评估)中的适用性仍需进一步验证。这些问题可能为后续研究提供新的方向,同时也提示我们在实际应用中需谨慎选择模型和提示词设计策略。



Previous Post
Phi-4-reasoning Technical Report