LongCite由清华研发的开源模型助力LLMs实现精准引用有效降低幻觉

作者:互联网

2026-03-25

⼤语⾔模型脚本

在人工智能领域,提升长文本问答的可信度成为关键挑战。LongCite项目通过创新技术手段,为大型语言模型提供细粒度引用支持,使信息验证更加透明可靠。

LongCite的核心优势

  1. 精准溯源机制:系统能够精确标注答案对应的原文句子位置,实现点对点的信息验证。
  2. 回答忠实度优化:有效抑制模型虚构内容的现象,确保输出结果与原始文本保持高度一致。
  3. 自动化验证体系:用户可依据系统提供的详细引用标记,快速核对回答内容的准确性。
  4. 智能数据生成:采用CoF技术流程,自动构建包含精细引用标注的高质量训练数据集。
  5. 标准化评估工具:配套开发的LongBench-Cite测评体系,可量化评估模型引用生成质量。

LongCite的技术架构

  1. 超长文本处理:支持处理数万字级别的文档内容,兼容主流大语言模型的扩展上下文窗口。
  2. 分层引用技术:先定位相关文本段落,再精确提取支撑答案的具体语句,形成完整证据链。
  3. 智能训练流程:通过自指导方法自动生成训练样本,并采用监督式微调提升模型性能。
  4. 数据增强策略:从块级引用逐步细化到句子级标注,构建包含45k样本的高质量数据集。

LongCite的资源获取

  1. 开源代码库:https://github.com/THUDM/LongCite
  2. 预训练模型:https://huggingface.co/THUDM
  3. 技术白皮书:https://arxiv.org/pdf/2409.02897

LongCite的实践应用

  1. 科研文献检索:辅助学者快速定位研究资料中的关键论述和实验数据。
  2. 司法条文查询:帮助法律从业者准确引用法规条款和判例依据。
  3. 财经报告分析:支持投资者提取财报关键指标并追溯原始数据。
  4. 医学资料查阅:为医护人员提供诊疗方案的科学依据来源。
  5. 新闻事实核查:助力媒体工作者验证报道信息的原始出处。

LongCite通过技术创新解决了长文本问答的可验证难题,为各领域专业人士提供了可靠的智能辅助工具,显著提升了信息处理的效率和准确性。

相关标签:

Gemini