Tag: Large Language Model

All the articles with the tag "Large Language Model".

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

Published: 4 May, 2025 at 04:32 PM

56.98 🤔

本文提出DeepSeek-Prover-V2，通过子目标分解和强化学习统一非正式和正式数学推理，显著提升了神经定理证明的性能，在多个基准上达到最先进水平。
A closer look at how large language models trust humans: patterns and biases

Published: 4 May, 2025 at 04:29 PM

56.91 🤔

本研究通过模拟实验首次揭示大型语言模型对人类的隐性信任模式，显示其类似于人类受可信度维度影响，但存在模型异质性和人口统计学偏差。
Monte Carlo Planning with Large Language Model for Text-Based Game Agents

Published: 4 May, 2025 at 04:30 PM

55.97 🤔

本文提出MC-DML算法，通过整合大型语言模型的动态记忆机制与蒙特卡罗树搜索，提升文本-based游戏代理的规划效率和性能，实验结果显示其在初始阶段就优于需多次迭代的强基线。
An Empirical Study of Evaluating Long-form Question Answering

Published: 4 May, 2025 at 04:31 PM

55.78 🤔

本文实证研究了长形式问题回答的自动评估指标，证明了基于LLM的指标在准确性和稳定性上的优势，同时分析了其偏差和改进策略。
PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset

Published: 4 May, 2025 at 04:26 PM

55.37 🤔

本文提出 PennyLang 数据集和 RAG/GraphRAG 框架，通过提升 LLM 在 PennyLane 量子代码生成中的准确性和正确性，填补了 AI 辅助量子编程的空白。

Tag: Large Language Model

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

A closer look at how large language models trust humans: patterns and biases

Monte Carlo Planning with Large Language Model for Text-Based Game Agents

An Empirical Study of Evaluating Long-form Question Answering

PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset