Tag: Data Augmentation
All the articles with the tag "Data Augmentation".
-
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
本文提出TLDR方法,通过动态再加权系统1和系统2推理数据,显著压缩大型语言模型的推理输出token数量(约40%),同时在多难度数学任务上基本保持准确性。
-
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
本文通过对92个开源语言模型的元分析,提出了一种超越缩放定律的性能预测框架,揭示了数据组成(如代码比例15-25%)和架构决策对下游任务性能的显著影响,预测精度相对提升3-28%。
-
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models
本文提出 AutoL2S 框架,通过标注长短推理路径和 <EASY> 标记训练 LLMs,使其根据问题复杂性动态选择推理长度,实验显示推理长度压缩高达57%,性能基本保持。
-
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives
本文提出DrICL方法,通过差异化学习和基于优势的重新加权优化大型语言模型在many-shot上下文学习中的性能,并在自建的ICL-50数据集上验证了其在多种任务中的稳定性和有效性。
-
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures
本文提出 CoLM 方法,通过构建小批量核心集匹配大批量梯度,在内存需求减少 2 倍的情况下,使 LLM 微调性能优于 4 倍批大小的常规训练,同时提升收敛速度。