认识 Composer 2.5：Cursor 最新的 Agent 编程模型

打开 Cursor 的模型列表，除了 Claude、GPT，还有 Composer 这个选项。

很多人把它当成类似 Claude、GPT 的又一个第三方模型选项，其实 Composer 是 Cursor 自己训练、专门为 Agent 写代码 准备的模型；Composer 2.5 是 Composer 系列在 2026 年 5 月 18 日前后发布的最新一代。

下文会介绍一下 Composer 2.5 的各个方面：是什么？相较前代的改进？核心能力是什么？模型训练的技术细节，计费标准（发布首周曾为双倍用量，请以官网为准）？在系列里的定位？后续计划等。

读完你应能向别人复述：Composer 2.5 到底是个什么模型。

Composer 2.5 是什么

一句话：Cursor 自研的 agentic coding model（智能体编程模型），在 Cursor Agent 里读项目仓库、进行文件编辑、调用工具、执行终端操作等，按目标连续执行多步，直到做完或需要你介入。

官方把它定义为 Composer 2 之上的增强版，已在产品内可用。文档称其为 agentic model，为长 Agent 任务、工具选择、意图理解、可靠性做了专门优化。

和「随便聊两句」的模型比，它更像驻场工程师——能在你的项目里动手干一小时，而不只是回答问题。

为「长时间干活的 Agent」而设计

AI coding 常见两类场景。

补全、小改、短问答：输入短、输出短，模型聪明一点就能明显感觉更好。

长程任务：比如「把 monorepo 鉴权迁到新方案，测试全绿」「按 PRD 搭一版可跑原型」。往往要几十、上百个 action：搜文件、读 diff、改多处、跑测试、看报错再改。

Composer 系列从第一天就瞄准第二类。Composer 2 博文写得很直白：通过强化学习，让模型能解决需要 数百个 action 的 coding 任务。2.5 在此基础上，官方强调更擅长 sustained work on long-running tasks——长任务里撑得住、不容易漂。

还有 复杂指令：「别动 A 目录、B 用新 API、C 保持兼容、改完跑这三条命令」——约束一多，模型容易漏项或自作主张。2.5 的定位包括 follows complex instructions more reliably。

向别人介绍时，核心一句：这是为 IDE 里长时间、多步骤、多工具协作而训练的 Agent 模型——不是「又涨了几分」那么简单。

核心能力：官方怎么说

Introducing Composer 2.5 把升级概括成 intelligence and behavior：智力，以及协作时的行为。下面分条拆开，均为官方表述归纳，没有编造 benchmark 涨幅。

智力

官方原话是 a substantial improvement in intelligence，相对 Composer 2。截至成稿时，Cursor 尚未单独公布 Composer 2.5 的 benchmark 表。只能定性说「更强」，不能把 Composer 2 的分数写成 2.5 的成绩。

长程任务

长 Agent 任务里，常见失败是：前半段还行，后半段忘目标、重复劳动，或在错误分支上硬撑。2.5 继续放大 RL 规模、生成更难的 RL 环境，目标是在更长 rollout 里仍对准任务。

文档把它和 long-horizon coding tasks、reinforcement learning 绑在一起——Composer 线的长期方向，2.5 是当前集大成的一代。

复杂指令

多文件、多步骤、多条件并存时，2.5 强调 follows complex instructions more reliably。对你而言：写进 Agent 的「必须 / 禁止 / 顺序」，被违反的概率更低——至少这是 Cursor 的训练目标。

协作体验：沟通与用力分寸

官方改进了 communication style 和 effort calibration（该深挖时深挖，该收手时收手）。这些维度 existing benchmarks 很难刻画，但对真实好用很重要。

大白话：同样能把活干完，有的废话多、有的过度工程、有的 tool 打错了还硬编。2.5 优化的是并肩干活的手感——官方用了 more pleasant to collaborate with。

工具面

Composer 2.5 可用 全部 Agent tools，针对 tool use、file edits、terminal operations 调优。它和 Cursor Agent 运行时深度咬合——读仓库、改文件、跑命令是日常动作，不是附加技能。

技术画像：底座与训练

别人常会问：底座是什么？是不是又换了一个全新大模型？

同 checkpoint：Moonshot Kimi K2.5

官方写明：Composer 2.5 built on the same open-source checkpoint as Composer 2——Moonshot 的 Kimi K2.5。

技术报告里，Kimi K2.5 约 1.04T 总参数 / 32B active 的 MoE 架构。Composer 2 在其上做了大规模 continued pretraining 和 RL。2.5 没换 base，而是在同一起点上把后续 Agent RL 和行为训练推得更远。

打个比方：同一台发动机，2.5 换的是变速箱和调教——不是换了一辆车。

训练三板斧

带文本反馈的定向 RL（Targeted RL with textual feedback）

长 rollout 里，终点 reward 往往只能说「整段好不好」，很难说清「哪一步坏了」。比如 tool call 调了不存在的工具，后面几百步都对，最后分数几乎不受影响。

2.5 在出问题那一步往上下文插 hint（如提醒可用工具列表），用带 hint 的分布当 teacher、原上下文当 student，加 on-policy distillation 的 KL 损失，给局部可学习信号。博文用「Tool not found」举例——这类错值得点对点纠正，不能只靠终点 reward。

合成数据：任务量是 Composer 2 的 25 倍

模型把很多题做对，环境就不够难。2.5 用更多合成任务顶难度——官方称 25x。

一例 feature deletion：在测试仍通过的前提下删掉部分功能，再让 Agent 恢复，用测试作可验证 reward。环境越刁钻，越容易「作弊」。博文轶事：从 Python type-checking 缓存 反推被删函数签名；从 Java bytecode 反编译还原第三方 API——说明训练够狠，监控也得够细。这是理解训练强度的注脚，不是日常必知项。

继续预训练的工程优化（Sharded Muon + dual mesh HSDP）

大 MoE 上的分布式优化器与通信 overlap。博文提到 1T 规模 optimizer step 约 0.2s。介绍 2.5 时，知道 Cursor 在预训练与大规模 RL 工程上持续投入即可，不必展开公式。

系列 benchmark（以下为 Composer 2，非 2.5）

2.5 尚无单独公开分数时，若要说「Composer 线大概在什么水平」，只能引用 Composer 2 发布时的表：

Model	CursorBench	Terminal-Bench 2.0	SWE-bench Multilingual
Composer 2	61.3	61.7	73.7
Composer 1.5	44.2	47.9	65.9
Composer 1	38.0	40.0	56.9

来源：Introducing Composer 2。可见 1 → 1.5 → 2 台阶式上升。2.5 是曲线上新一代，具体分数以 Cursor 后续发布为准。

计费与入口

标准档 vs Fast 档

每百万 token（官方博文与模型文档）：

档位	输入	输出	说明
标准	$0.50	$2.50	与 Composer 2 标准价相同
Fast（默认）	$3.00	$15.00	同智力、更快；官方称低于其他 frontier 的 fast 档

Fast 是产品默认档，交互式 Agent 通常走这一档。

用量与计费方式

个人计划：独立 standalone Composer usage pool，含一定额度。
团队 / 企业：按 API 价计费。

Composer 2 文档页已写：强烈建议改用 Composer 2.5——Cursor 当前主推的 Composer 型号。

首周促销

博文写发布首周 double usage（双倍包含用量）（发布日 2026-05-18 前后）。若你读到本文时已过促销期，以官网/客户端为准。

在哪选

Cursor Agent 模型列表 选 Composer 2.5 即可，无需单独安装。

在 Composer 家族里的位置

与 SpaceX 的合作博文提到：Composer 首发至今大约半年，迭代很快：

Composer 1.5：RL 规模相对前代大幅放大（官方曾用约 20x 描述）。
Composer 2：加 continued pretraining，公开评测达 frontier 量级（见上表）。
Composer 2.5：同底座上继续堆 RL、合成环境与行为训练，并公开 textual feedback 等细节。

向别人介绍：2.5 是 Composer 线当前旗舰，不是旁支实验品。

更大的模型在训练

2.5 博文末尾：Cursor 与 SpaceXAI 合作，用 10 倍总算力 从头训练更大模型；基础设施提到 Colossus 2 百万 H100-equivalent 量级，与 SpaceX 合作文「借 xAI Colossus 扩展训练」一致。

这是未来型号，不是 2.5 自带能力。介绍 2.5 时，它是「眼前能用的最新 Composer」；下一代另说。

三句话介绍 + 下一步

别人问「Composer 2.5 是什么」：

Cursor 自研的 Agent 编程模型，在编辑器里多步改代码、调工具、跑终端，不是聊天机器人。
强在长程任务、复杂指令、协作时的沟通与用力分寸——后者 benchmark 测不全，但对日常很重要。
与 Composer 2 同 Kimi K2.5 checkpoint，差异在更大规模、更难的 RL 与行为训练；标准价与 Composer 2 相同，Fast 为默认档。

想深入：Introducing Composer 2.5、Composer 2 technical report。

最后：在 Cursor 里用 Composer 2.5 开一个真实 Agent 任务——修一个跨多文件的 bug，或按约束做一小段重构。介绍模型，讲十分钟不如自己跑十分钟。