认识 Composer 2.5:Cursor 最新的 Agent 编程模型

12 min read
CursorComposerAI CodingAgent

打开 Cursor 的模型列表,除了 Claude、GPT,还有 Composer 这个选项。

很多人把它当成类似 Claude、GPT 的又一个第三方模型选项,其实 Composer 是 Cursor 自己训练、专门为 Agent 写代码 准备的模型;Composer 2.5 是 Composer 系列在 2026 年 5 月 18 日前后发布的最新一代。

下文会介绍一下 Composer 2.5 的各个方面:是什么?相较前代的改进?核心能力是什么?模型训练的技术细节,计费标准(发布首周曾为双倍用量,请以官网为准)?在系列里的定位?后续计划等。

读完你应能向别人复述:Composer 2.5 到底是个什么模型


Composer 2.5 是什么

一句话:Cursor 自研的 agentic coding model(智能体编程模型),在 Cursor Agent 里读项目仓库、进行文件编辑、调用工具、执行终端操作等,按目标连续执行多步,直到做完或需要你介入。

官方把它定义为 Composer 2 之上的增强版,已在产品内可用。文档称其为 agentic model,为长 Agent 任务、工具选择、意图理解、可靠性做了专门优化。

和「随便聊两句」的模型比,它更像驻场工程师——能在你的项目里动手干一小时,而不只是回答问题。


为「长时间干活的 Agent」而设计

AI coding 常见两类场景。

补全、小改、短问答:输入短、输出短,模型聪明一点就能明显感觉更好。

长程任务:比如「把 monorepo 鉴权迁到新方案,测试全绿」「按 PRD 搭一版可跑原型」。往往要几十、上百个 action:搜文件、读 diff、改多处、跑测试、看报错再改。

Composer 系列从第一天就瞄准第二类。Composer 2 博文写得很直白:通过强化学习,让模型能解决需要 数百个 action 的 coding 任务。2.5 在此基础上,官方强调更擅长 sustained work on long-running tasks——长任务里撑得住、不容易漂。

还有 复杂指令:「别动 A 目录、B 用新 API、C 保持兼容、改完跑这三条命令」——约束一多,模型容易漏项或自作主张。2.5 的定位包括 follows complex instructions more reliably

向别人介绍时,核心一句:这是为 IDE 里长时间、多步骤、多工具协作而训练的 Agent 模型——不是「又涨了几分」那么简单。


核心能力:官方怎么说

Introducing Composer 2.5 把升级概括成 intelligence and behavior:智力,以及协作时的行为。下面分条拆开,均为官方表述归纳,没有编造 benchmark 涨幅

智力

官方原话是 a substantial improvement in intelligence,相对 Composer 2。截至成稿时,Cursor 尚未单独公布 Composer 2.5 的 benchmark 表。只能定性说「更强」,不能把 Composer 2 的分数写成 2.5 的成绩。

长程任务

长 Agent 任务里,常见失败是:前半段还行,后半段忘目标、重复劳动,或在错误分支上硬撑。2.5 继续放大 RL 规模、生成更难的 RL 环境,目标是在更长 rollout 里仍对准任务。

文档把它和 long-horizon coding tasksreinforcement learning 绑在一起——Composer 线的长期方向,2.5 是当前集大成的一代。

复杂指令

多文件、多步骤、多条件并存时,2.5 强调 follows complex instructions more reliably。对你而言:写进 Agent 的「必须 / 禁止 / 顺序」,被违反的概率更低——至少这是 Cursor 的训练目标。

协作体验:沟通与用力分寸

官方改进了 communication styleeffort calibration(该深挖时深挖,该收手时收手)。这些维度 existing benchmarks 很难刻画,但对真实好用很重要。

大白话:同样能把活干完,有的废话多、有的过度工程、有的 tool 打错了还硬编。2.5 优化的是并肩干活的手感——官方用了 more pleasant to collaborate with

工具面

Composer 2.5 可用 全部 Agent tools,针对 tool use、file edits、terminal operations 调优。它和 Cursor Agent 运行时深度咬合——读仓库、改文件、跑命令是日常动作,不是附加技能。


技术画像:底座与训练

别人常会问:底座是什么?是不是又换了一个全新大模型?

同 checkpoint:Moonshot Kimi K2.5

官方写明:Composer 2.5 built on the same open-source checkpoint as Composer 2——Moonshot 的 Kimi K2.5

技术报告里,Kimi K2.5 约 1.04T 总参数 / 32B active 的 MoE 架构。Composer 2 在其上做了大规模 continued pretrainingRL。2.5 没换 base,而是在同一起点上把后续 Agent RL 和行为训练推得更远。

打个比方:同一台发动机,2.5 换的是变速箱和调教——不是换了一辆车。

训练三板斧

带文本反馈的定向 RL(Targeted RL with textual feedback)

长 rollout 里,终点 reward 往往只能说「整段好不好」,很难说清「哪一步坏了」。比如 tool call 调了不存在的工具,后面几百步都对,最后分数几乎不受影响。

2.5 在出问题那一步往上下文插 hint(如提醒可用工具列表),用带 hint 的分布当 teacher、原上下文当 student,加 on-policy distillation 的 KL 损失,给局部可学习信号。博文用「Tool not found」举例——这类错值得点对点纠正,不能只靠终点 reward。

合成数据:任务量是 Composer 2 的 25 倍

模型把很多题做对,环境就不够难。2.5 用更多合成任务顶难度——官方称 25x

一例 feature deletion:在测试仍通过的前提下删掉部分功能,再让 Agent 恢复,用测试作可验证 reward。环境越刁钻,越容易「作弊」。博文轶事:从 Python type-checking 缓存 反推被删函数签名;从 Java bytecode 反编译还原第三方 API——说明训练够狠,监控也得够细。这是理解训练强度的注脚,不是日常必知项。

继续预训练的工程优化(Sharded Muon + dual mesh HSDP)

大 MoE 上的分布式优化器与通信 overlap。博文提到 1T 规模 optimizer step 约 0.2s。介绍 2.5 时,知道 Cursor 在预训练与大规模 RL 工程上持续投入即可,不必展开公式。

系列 benchmark(以下为 Composer 2,非 2.5)

2.5 尚无单独公开分数时,若要说「Composer 线大概在什么水平」,只能引用 Composer 2 发布时的表:

ModelCursorBenchTerminal-Bench 2.0SWE-bench Multilingual
Composer 261.361.773.7
Composer 1.544.247.965.9
Composer 138.040.056.9

来源:Introducing Composer 2。可见 1 → 1.5 → 2 台阶式上升。2.5 是曲线上新一代,具体分数以 Cursor 后续发布为准。


计费与入口

标准档 vs Fast 档

每百万 token(官方博文模型文档):

档位输入输出说明
标准$0.50$2.50与 Composer 2 标准价相同
Fast(默认)$3.00$15.00同智力、更快;官方称低于其他 frontier 的 fast 档

Fast 是产品默认档,交互式 Agent 通常走这一档。

用量与计费方式

  • 个人计划:独立 standalone Composer usage pool,含一定额度。
  • 团队 / 企业:按 API 价计费。

Composer 2 文档页已写:强烈建议改用 Composer 2.5——Cursor 当前主推的 Composer 型号。

首周促销

博文写发布首周 double usage(双倍包含用量)(发布日 2026-05-18 前后)。若你读到本文时已过促销期,以官网/客户端为准。

在哪选

Cursor Agent 模型列表Composer 2.5 即可,无需单独安装。


在 Composer 家族里的位置

与 SpaceX 的合作博文 提到:Composer 首发至今大约半年,迭代很快:

  • Composer 1.5:RL 规模相对前代大幅放大(官方曾用约 20x 描述)。
  • Composer 2:加 continued pretraining,公开评测达 frontier 量级(见上表)。
  • Composer 2.5:同底座上继续堆 RL、合成环境与行为训练,并公开 textual feedback 等细节。

向别人介绍:2.5 是 Composer 线当前旗舰,不是旁支实验品。


更大的模型在训练

2.5 博文末尾:Cursor 与 SpaceXAI 合作,用 10 倍总算力 从头训练更大模型;基础设施提到 Colossus 2 百万 H100-equivalent 量级,与 SpaceX 合作文「借 xAI Colossus 扩展训练」一致。

这是未来型号,不是 2.5 自带能力。介绍 2.5 时,它是「眼前能用的最新 Composer」;下一代另说。


三句话介绍 + 下一步

别人问「Composer 2.5 是什么」:

  1. Cursor 自研的 Agent 编程模型,在编辑器里多步改代码、调工具、跑终端,不是聊天机器人。
  2. 强在长程任务、复杂指令、协作时的沟通与用力分寸——后者 benchmark 测不全,但对日常很重要。
  3. 与 Composer 2 同 Kimi K2.5 checkpoint,差异在更大规模、更难的 RL 与行为训练;标准价与 Composer 2 相同,Fast 为默认档。

想深入:Introducing Composer 2.5Composer 2 technical report

最后:在 Cursor 里用 Composer 2.5 开一个真实 Agent 任务——修一个跨多文件的 bug,或按约束做一小段重构。介绍模型,讲十分钟不如自己跑十分钟。