认识 Composer 2.5:Cursor 最新的 Agent 编程模型
打开 Cursor 的模型列表,除了 Claude、GPT,还有 Composer 这个选项。
很多人把它当成类似 Claude、GPT 的又一个第三方模型选项,其实 Composer 是 Cursor 自己训练、专门为 Agent 写代码 准备的模型;Composer 2.5 是 Composer 系列在 2026 年 5 月 18 日前后发布的最新一代。
下文会介绍一下 Composer 2.5 的各个方面:是什么?相较前代的改进?核心能力是什么?模型训练的技术细节,计费标准(发布首周曾为双倍用量,请以官网为准)?在系列里的定位?后续计划等。
读完你应能向别人复述:Composer 2.5 到底是个什么模型。
Composer 2.5 是什么
一句话:Cursor 自研的 agentic coding model(智能体编程模型),在 Cursor Agent 里读项目仓库、进行文件编辑、调用工具、执行终端操作等,按目标连续执行多步,直到做完或需要你介入。
官方把它定义为 Composer 2 之上的增强版,已在产品内可用。文档称其为 agentic model,为长 Agent 任务、工具选择、意图理解、可靠性做了专门优化。
和「随便聊两句」的模型比,它更像驻场工程师——能在你的项目里动手干一小时,而不只是回答问题。
为「长时间干活的 Agent」而设计
AI coding 常见两类场景。
补全、小改、短问答:输入短、输出短,模型聪明一点就能明显感觉更好。
长程任务:比如「把 monorepo 鉴权迁到新方案,测试全绿」「按 PRD 搭一版可跑原型」。往往要几十、上百个 action:搜文件、读 diff、改多处、跑测试、看报错再改。
Composer 系列从第一天就瞄准第二类。Composer 2 博文写得很直白:通过强化学习,让模型能解决需要 数百个 action 的 coding 任务。2.5 在此基础上,官方强调更擅长 sustained work on long-running tasks——长任务里撑得住、不容易漂。
还有 复杂指令:「别动 A 目录、B 用新 API、C 保持兼容、改完跑这三条命令」——约束一多,模型容易漏项或自作主张。2.5 的定位包括 follows complex instructions more reliably。
向别人介绍时,核心一句:这是为 IDE 里长时间、多步骤、多工具协作而训练的 Agent 模型——不是「又涨了几分」那么简单。
核心能力:官方怎么说
Introducing Composer 2.5 把升级概括成 intelligence and behavior:智力,以及协作时的行为。下面分条拆开,均为官方表述归纳,没有编造 benchmark 涨幅。
智力
官方原话是 a substantial improvement in intelligence,相对 Composer 2。截至成稿时,Cursor 尚未单独公布 Composer 2.5 的 benchmark 表。只能定性说「更强」,不能把 Composer 2 的分数写成 2.5 的成绩。
长程任务
长 Agent 任务里,常见失败是:前半段还行,后半段忘目标、重复劳动,或在错误分支上硬撑。2.5 继续放大 RL 规模、生成更难的 RL 环境,目标是在更长 rollout 里仍对准任务。
文档把它和 long-horizon coding tasks、reinforcement learning 绑在一起——Composer 线的长期方向,2.5 是当前集大成的一代。
复杂指令
多文件、多步骤、多条件并存时,2.5 强调 follows complex instructions more reliably。对你而言:写进 Agent 的「必须 / 禁止 / 顺序」,被违反的概率更低——至少这是 Cursor 的训练目标。
协作体验:沟通与用力分寸
官方改进了 communication style 和 effort calibration(该深挖时深挖,该收手时收手)。这些维度 existing benchmarks 很难刻画,但对真实好用很重要。
大白话:同样能把活干完,有的废话多、有的过度工程、有的 tool 打错了还硬编。2.5 优化的是并肩干活的手感——官方用了 more pleasant to collaborate with。
工具面
Composer 2.5 可用 全部 Agent tools,针对 tool use、file edits、terminal operations 调优。它和 Cursor Agent 运行时深度咬合——读仓库、改文件、跑命令是日常动作,不是附加技能。
技术画像:底座与训练
别人常会问:底座是什么?是不是又换了一个全新大模型?
同 checkpoint:Moonshot Kimi K2.5
官方写明:Composer 2.5 built on the same open-source checkpoint as Composer 2——Moonshot 的 Kimi K2.5。
技术报告里,Kimi K2.5 约 1.04T 总参数 / 32B active 的 MoE 架构。Composer 2 在其上做了大规模 continued pretraining 和 RL。2.5 没换 base,而是在同一起点上把后续 Agent RL 和行为训练推得更远。
打个比方:同一台发动机,2.5 换的是变速箱和调教——不是换了一辆车。
训练三板斧
带文本反馈的定向 RL(Targeted RL with textual feedback)
长 rollout 里,终点 reward 往往只能说「整段好不好」,很难说清「哪一步坏了」。比如 tool call 调了不存在的工具,后面几百步都对,最后分数几乎不受影响。
2.5 在出问题那一步往上下文插 hint(如提醒可用工具列表),用带 hint 的分布当 teacher、原上下文当 student,加 on-policy distillation 的 KL 损失,给局部可学习信号。博文用「Tool not found」举例——这类错值得点对点纠正,不能只靠终点 reward。
合成数据:任务量是 Composer 2 的 25 倍
模型把很多题做对,环境就不够难。2.5 用更多合成任务顶难度——官方称 25x。
一例 feature deletion:在测试仍通过的前提下删掉部分功能,再让 Agent 恢复,用测试作可验证 reward。环境越刁钻,越容易「作弊」。博文轶事:从 Python type-checking 缓存 反推被删函数签名;从 Java bytecode 反编译还原第三方 API——说明训练够狠,监控也得够细。这是理解训练强度的注脚,不是日常必知项。
继续预训练的工程优化(Sharded Muon + dual mesh HSDP)
大 MoE 上的分布式优化器与通信 overlap。博文提到 1T 规模 optimizer step 约 0.2s。介绍 2.5 时,知道 Cursor 在预训练与大规模 RL 工程上持续投入即可,不必展开公式。
系列 benchmark(以下为 Composer 2,非 2.5)
2.5 尚无单独公开分数时,若要说「Composer 线大概在什么水平」,只能引用 Composer 2 发布时的表:
| Model | CursorBench | Terminal-Bench 2.0 | SWE-bench Multilingual |
|---|---|---|---|
| Composer 2 | 61.3 | 61.7 | 73.7 |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
| Composer 1 | 38.0 | 40.0 | 56.9 |
来源:Introducing Composer 2。可见 1 → 1.5 → 2 台阶式上升。2.5 是曲线上新一代,具体分数以 Cursor 后续发布为准。
计费与入口
标准档 vs Fast 档
| 档位 | 输入 | 输出 | 说明 |
|---|---|---|---|
| 标准 | $0.50 | $2.50 | 与 Composer 2 标准价相同 |
| Fast(默认) | $3.00 | $15.00 | 同智力、更快;官方称低于其他 frontier 的 fast 档 |
Fast 是产品默认档,交互式 Agent 通常走这一档。
用量与计费方式
- 个人计划:独立 standalone Composer usage pool,含一定额度。
- 团队 / 企业:按 API 价计费。
Composer 2 文档页已写:强烈建议改用 Composer 2.5——Cursor 当前主推的 Composer 型号。
首周促销
博文写发布首周 double usage(双倍包含用量)(发布日 2026-05-18 前后)。若你读到本文时已过促销期,以官网/客户端为准。
在哪选
Cursor Agent 模型列表 选 Composer 2.5 即可,无需单独安装。
在 Composer 家族里的位置
与 SpaceX 的合作博文 提到:Composer 首发至今大约半年,迭代很快:
- Composer 1.5:RL 规模相对前代大幅放大(官方曾用约 20x 描述)。
- Composer 2:加 continued pretraining,公开评测达 frontier 量级(见上表)。
- Composer 2.5:同底座上继续堆 RL、合成环境与行为训练,并公开 textual feedback 等细节。
向别人介绍:2.5 是 Composer 线当前旗舰,不是旁支实验品。
更大的模型在训练
2.5 博文末尾:Cursor 与 SpaceXAI 合作,用 10 倍总算力 从头训练更大模型;基础设施提到 Colossus 2 百万 H100-equivalent 量级,与 SpaceX 合作文「借 xAI Colossus 扩展训练」一致。
这是未来型号,不是 2.5 自带能力。介绍 2.5 时,它是「眼前能用的最新 Composer」;下一代另说。
三句话介绍 + 下一步
别人问「Composer 2.5 是什么」:
- Cursor 自研的 Agent 编程模型,在编辑器里多步改代码、调工具、跑终端,不是聊天机器人。
- 强在长程任务、复杂指令、协作时的沟通与用力分寸——后者 benchmark 测不全,但对日常很重要。
- 与 Composer 2 同 Kimi K2.5 checkpoint,差异在更大规模、更难的 RL 与行为训练;标准价与 Composer 2 相同,Fast 为默认档。
想深入:Introducing Composer 2.5、Composer 2 technical report。
最后:在 Cursor 里用 Composer 2.5 开一个真实 Agent 任务——修一个跨多文件的 bug,或按约束做一小段重构。介绍模型,讲十分钟不如自己跑十分钟。