上下文长度使用指南

概述

Kimi-Researcher 的上下文长度(context length)为 128K tokens(约 6-10 万汉字),指模型单次能处理的最大 token 数量(包括输入+输出)。

这意味着 Kimi-Researcher 在单次研究任务中可以参考大量文本信息,足以支撑复杂、深入的研究分析。但需注意:生成内容的长度上限通常远小于上下文窗口

如果研究问题过于宽泛,建议拆分为多个子问题分次研究,而非一次性提交,这样每次的研究深度和准确度都会更高。

关键概念区分

概念含义说明
上下文窗口模型支持的最大 token 上限128K tokens,包含输入和输出
输入限制单次可发送的参考资料+指令长度建议控制在 100K tokens 以内
输出限制模型单次生成的最大长度通常约 8K-16K tokens,远小于上下文窗口

常见误解:128K 上下文 ≠ 能一次性输出 128K 内容。输出长度通常为上下文窗口的 1/8 到 1/16。


输出截断说明

为什么会出现“输出不完”?

当研究报告过长时,模型可能:

  1. 主动截断 — 达到单次输出上限后停止生成
  2. 建议续写 — 提示“是否需要继续生成剩余部分”
  3. 分段输出 — 将长报告拆分为多个章节依次呈现

这不是故障,而是输出限制的正常表现。

如何处理?

  • 若报告未完成,直接回复“继续”或“请完成剩余部分”
  • 复杂研究建议主动要求分章节生成,例如:“先写第一部分:背景分析”

使用建议

信息位置优化

长文档处理时,将核心信息置于提示词前后两端,避免放在中间位置。模型对上下文中间部分的信息提取精度可能下降("Lost in the Middle" 现象)。

长文档输入策略

  • 超长参考资料先提炼摘要,而非全文粘贴
  • 多份文档标注关键段落,减少无关噪声
  • 采用分段处理或检索增强策略,而非一次性填充

会话管理

  • 多轮对话需关注历史累积,及时开启新会话或进行会话总结
  • 主题切换后建议开启新会话,避免上下文混乱
  • 定期总结已确认的结论,确保后续生成基于准确背景

模型选择

根据实际场景选择合适模型,平衡上下文长度与响应效率。上下文长度并非越长越好——过长的上下文会增加处理延迟和计算成本。


注意事项

  • 上下文长度决定了模型能“看到”多少信息,不决定能“说出”多少内容
  • 优先保证关键信息的有效传递,合理规划内容结构
  • 超长研究任务建议主动分段,而非依赖单次生成
Kimi 深度研究的上下文长度说明 - Kimi 帮助中心