Tag: Human-AI Interaction

All the articles with the tag "Human-AI Interaction".

An Empirical Study of Evaluating Long-form Question Answering

Published: 4 May, 2025 at 04:31 PM

55.78 🤔

本文实证研究了长形式问题回答的自动评估指标，证明了基于LLM的指标在准确性和稳定性上的优势，同时分析了其偏差和改进策略。
CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks

Published: 4 May, 2025 at 04:32 PM

55.01 🤔

本文提出CachePrune方法，通过基于DPO损失的特征归因识别并修剪KV缓存中的关键神经元，防御间接提示注入攻击，同时保持模型响应质量。
Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability

Published: 4 May, 2025 at 04:31 PM

53.12 🤔

本文提出Meeseeks多轮指令遵循基准，通过迭代反馈机制系统评估LLMs的自纠错能力，发现模型在多轮互动中性能显著提升。
You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects

Published: 4 May, 2025 at 04:26 PM

53.07 🤔

本文提出ExecutionAgent，一个基于LLM的自主代理，通过meta-prompting和迭代反馈机制自动设置并执行任意软件项目的测试套件，显著提高了测试执行的成功率和准确性。
LLM Enhancer: Merged Approach using Vector Embedding for Reducing Large Language Model Hallucinations with External Knowledge

Published: 4 May, 2025 at 04:31 PM

51.20 🤔

本文提出 LLM-ENHANCER 系统，通过合并多个在线数据来源并使用向量嵌入减少大型语言模型的幻觉，提高响应准确性，同时保持自然性和经济性。

Tag: Human-AI Interaction

An Empirical Study of Evaluating Long-form Question Answering

CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks

Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability

You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects

LLM Enhancer: Merged Approach using Vector Embedding for Reducing Large Language Model Hallucinations with External Knowledge