Tag: Efficiency
All the articles with the tag "Efficiency".
-
Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability
本文提出Meeseeks多轮指令遵循基准,通过迭代反馈机制系统评估LLMs的自纠错能力,发现模型在多轮互动中性能显著提升。
-
You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects
本文提出ExecutionAgent,一个基于LLM的自主代理,通过meta-prompting和迭代反馈机制自动设置并执行任意软件项目的测试套件,显著提高了测试执行的成功率和准确性。
-
Empirical Evaluation of Progressive Coding for Sparse Autoencoders
本文通过实证评估比较了Matryoshka SAEs和基于字典幂律修剪的方法,以实现SAEs的渐进式编码,提高计算效率、重建保真度和可解释性。
-
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
本文提出PaperCoder框架,通过多代理LLM的多阶段管道自动从机器学习论文生成高质量代码仓库,提升了研究的可复现性,并在基准测试中显著优于现有方法。
-
State Space Models are Strong Text Rerankers
本文通过全面benchmark比较状态空间模型如Mamba与Transformer在文本重排序任务中的性能和效率,发现Mamba模型可实现类似性能但效率较低,并强调了未来优化方向。