本文通过设计基于ICL和CoT的提示模板,实现了ChatGPT在编程教育中的成本效益评估和操作,显著降低了手动评估需求并提升了反馈的结构化分析。
Large Language Model, Prompt Engineering, In-Context Learning, Human-AI Interaction, AI Ethics
Marc Ballestero-Ribó, Daniel Ortiz-Martínez
Universitat de Barcelona
Generated by grok-3-mini-latest
Background Problem
本研究的出发点是实现1:1的学生教师比例,以提供个性化教育和及时反馈,但由于资源限制(如教师短缺和预算问题),这一目标难以实现。特别是在计算机工程学入门编程课程中,学生数量众多,教师无法提供24/7的帮助,学生在独立作业时可能遇到困难。大型语言模型(LLMs)如ChatGPT的出现为虚拟教学助理提供了可能,但存在挑战:ChatGPT作为通用模型可能生成不准确信息、难以适应特定课程需求,且手动评估其性能成本高昂。本文解决了关键问题,包括评估ChatGPT在提供编程反馈方面的性能、提出成本效益高的自动评估方法(如通过结构化提示减少手动评估需求)、以及探讨LLMs在实际教育场景中的操作策略,以降低知识产权风险和提升教学效果。
Method
本研究的核心方法是设计一个基于提示的框架,使用In-Context Learning (ICL) 和Chain of Thought (CoT) 技术来构建提示模板。具体步骤包括:首先,在提示中指定函数名称、描述和一组单元测试;其次,提供示例输入-输出对,包括学生代码实现和结构化的反馈(使用Markdown格式分节,如”Brief Code Explanation”、“Main Issues”和”Corrected Version”);第三,通过CoT方法在反馈中包含推理步骤和正确性判断;最后,实例化提示以分析学生代码,实现反馈的自动化提取和分析。核心思想是通过强制LLM生成结构化输出,便于程序化处理,而不修改模型本身,仅在推理阶段调整采样。
Experiment
实验评估了GPT-3.5T和GPT-4T在五个Python编程问题(Rotated Palindromes、Run Length Encoding、Number of Ones、In-place Partition、Sum of Pairs)上的性能,使用真实学生代码作为数据集(共500多个提交,包括运行时错误和断言测试)。实验设置包括:自动运行单元测试获取 ground truth,提取LLM反馈中的正确性预测、问题列表和修正版本,并计算指标如准确率、敏感性和特异性;用户研究涉及11名学生评估反馈的正确性和有用性。结果显示GPT-4T在代码正确性判断和问题识别上优于GPT-3.5T(准确率最高86.4%),但仍存在生成无关或错误反馈的问题;自动措施提供了错误反馈率的下界,节省了手动评估成本。实验设置合理全面,覆盖了多个研究问题,结果与预期一致,表明结构化提示显著提高了评估效率。
Further Thoughts
本研究中提示工程的创新性值得关注,它不仅适用于编程教育,还可扩展到其他领域如医学或法律的AI辅助教学中,通过类似结构化输出减少人为错误;此外,与机器翻译中的质量估计技术结合,可能开发出更先进的反馈质量预测器,例如使用代码嵌入或句子嵌入训练模型来预估反馈准确性;未来,随着LLM模型的迭代(如Llama系列),可以探索细调模型以减少幻觉问题,或整合多模态输入提升交互性,但需注意伦理问题,如学生对AI反馈的过度信任可能影响批判性思维。