这两年很多人聊 AI 编程，-轻识

这两年很多人聊 AI 编程，已经不是在聊“补全代码”了，而是在聊一种更接近“你说需求，模型去搭东西”的工作方式。有人叫它 agentic coding，也有人更接地气，直接叫 vibe coding：先把想法说出来，先跑起来，再慢慢修。问题是，一旦你真开始这么干，就会发现体验差异根本不只来自“模型聪不聪明”，还来自外层工具是不是顺手、长上下文是不是稳、会不会自己读代码库和跑命令、价格和可获得性是不是能扛住日常使用。OpenAI 的 Codex 和 Anthropic 的 Claude Code，本质上都已经是“会读 repo、会跨文件改代码、会执行命令”的 agentic coding 系统；前者主打多 agent、云端环境和并行工作流，后者则把终端集成、自定义 hooks、skills、subagents 做得非常完整。

先说一个很多人容易混淆的点：Codex 和 Claude Code 主要是“外层工作台”，GPT、Claude、智谱、DeepSeek 才是“底层大脑”。你不能只问“哪个模型最强”，还得问“哪个工具把模型的能力释放得更完整”。OpenAI 现在的 Codex 已经不是早年那个单纯写函数的“Codex API”概念了，它是一个能在云端环境里读代码、改代码、并行跑任务的 coding agent，官方还明确写了内置 worktrees 和 cloud environments。Anthropic 这边，Claude Code 也不只是聊天框里写代码，而是可以读代码库、执行命令、接 IDE/terminal/browser，并且支持 hooks、skills、subagents，甚至已经把原先的 Claude Code SDK 演进成了可编程的 Claude Agent SDK。

一、如果你只问一句：Codex 和 Claude Code 到底谁更适合 vibe coding？

我的结论很简单：想要“把一个模糊想法快速变成工程，并且希望多任务并行、云端跑活、比较接近项目经理式分派”，Codex 更像一个现代化 AI 工程调度台；想要“长时间泡在终端里，一边改一边试，一边积累自己的工作流和自动化习惯”，Claude Code 往往更有“黑客工具”的味道。 OpenAI 官方把 Codex 明确定位成多 agent 工作流的 command center，支持并行任务和云环境；Anthropic 则把 Claude Code 做成一个深度嵌入开发流程的工具，subagents、hooks、skills 这些机制非常适合长期把个人习惯固化成工作流。

用更白一点的话说，Codex 更像“你把工作交给它，它去做”；Claude Code 更像“你和它一起在 shell 里写活”。这不是能力高低的问题，而是工作姿势不同。尤其是做 vibe coding 的人，很多时候并没有特别清晰的 spec，只是有个想法，比如“给我做个带登录、后台管理、积分系统、Stripe 支付的 SaaS demo”。这种时候，工具层是不是能自然地拆任务、跑测试、开环境，比模型答题分高不高更影响体验。

二、GPT 系：为什么很多人觉得 Codex“越来越像真正的 AI 工程同事”？

OpenAI 这边最近最关键的变化，是 GPT-5.4 把长上下文、工具生态、computer use 这些本来分散的能力，往一个更统一的 agent 模型上收了。官方写得很明确：GPT-5.4 在 Codex 和 API 里支持原生的 computer-use，支持高达 1M token 上下文，还特别强调它在长链路规划、执行和验证任务时更强，同时比 GPT-5.2 更省 token。对于 vibe coding 来说，这很重要，因为 vibe coding 最怕的不是“不会写一段函数”，而是上下文一长，前后要求不一致，改着改着把前面约束忘了。GPT-5.4 这类高上下文、工具导向的模型，在大型 repo、长 session、跨很多文件来回改的时候，理论上是更占优的。

再加上 Codex 本身就支持云端 environments，能预装依赖、加 linters、设环境变量，这意味着它更适合那种“把任务丢进云里让它自己跑”的模式。对真正做项目的人来说，这种体验比单纯聊天窗口里来回 copy paste 强很多。官方也明确说 Codex 已经包含在 ChatGPT Plus、Pro、Business、Edu、Enterprise 里，短期内 Free 和 Go 也可试用。

所以如果你问我 GPT 在 vibe coding 里最强的点是什么，不是“写单文件 demo 漂亮”，而是更像一个能跨长任务维护一致性的总控模型。它尤其适合三种场景：第一，大代码库里做结构化改动；第二，要接很多工具、服务和环境变量的活；第三，不想一直盯着它，想让它自己先跑一轮。这个方向上，Codex + GPT-5.4 现在是非常强的一套。

三、Claude 系：为什么很多程序员还是会说 Claude Code 更“顺手”？

Claude Code 的强，不完全在“模型答题更对”，而在于它把开发者的手感做得很像真正的 terminal companion。官方文档里已经把 subagents、hooks、skills 这些机制写得很完整了：你可以让它自动委派不同类型的任务给不同子代理，可以在生命周期节点触发 shell 命令、HTTP endpoint 或 LLM prompt，也可以把自己的经验沉淀成 SKILL.md 让 Claude 之后复用。甚至 Anthropic 还专门发了一篇 auto mode，讨论怎么减少频繁 permission prompt 带来的审批疲劳，因为他们观察到用户会批准 93% 的权限请求。

这套东西对 vibe coding 特别重要。因为 vibe coding 最终不是“一次性生成”，而是反复试、反复修、不断把常见动作自动化。比如你每次都要“跑测试—修 lint—更新 changelog—检查危险改动”，Claude Code 的 hooks 和 skills 特别适合把这种动作模板化。它不是只给你一份答案，而是给你一个会逐渐长出习惯和工具链的系统。官方还把 Claude Agent SDK 单独拿出来，说明 Anthropic 自己也在把这套 agent loop 平台化。

另外，Claude Code 的订阅方式也比较清晰：Pro 就能用，Max 5x 和 Max 20x 则适合更重度用户；产品页明确写了 Pro、Max 和 Team 都包含 Claude Code，且 Pro/Max 可用 Sonnet 4.6 与 Opus 4.6。API 价格页则显示 Opus 4.6、Sonnet 4.6、Haiku 4.5 的 token 定价。也就是说，Claude 体系的优势是：你既可以当一个订阅制产品用，也可以把它当 API/SDK 能力嵌进自己的 agent 系统里。

所以如果你问我 Claude 在 vibe coding 里最强的点是什么，我会说是 “交互手感 + 可塑性”。尤其适合那种喜欢长期在同一个终端工作、会认真打磨个人开发习惯、会自己写脚本和规则的人。很多人觉得 Claude Code“像个老练的搭档”，很大一部分其实不是模型智商，而是工作流设计。

四、智谱：为什么它现在越来越值得在 vibe coding 里认真看一眼？

国产模型里，智谱现在有一个很有意思的定位：它不是单纯想做“便宜一点的通用模型”，而是在明显往 Agentic Engineering 这个叙事上靠。官方文档里对 GLM-5 的描述很直接：面向 Agentic Engineering 打造，200K 上下文，128K 最大输出，支持思考模式、Function Call、上下文缓存、结构化输出和 MCP。更关键的是，它不仅单独卖 API，还专门有 GLM Coding Plan，而且文档里明确写了这就是给主流 AI 编码工具用的编码套餐，目标场景就是自然语言编程、代码调试修复、代码库问答和自动化任务处理。

这意味着什么？意味着智谱已经不满足于“你自己写一套调用我 API 的东西”，而是想直接进入 Cursor/Cline/Claude Code 类生态的日常工作流。它甚至提供了“接入 GLM-5.1 到 Claude Code”的官方说明，说明官方自己也在推动这条路线。对于中国开发者来说，这一点很现实：如果你要的是国内可付费、接入方便、成本相对可控、又能兼容当前主流 AI 编程工具链的方案，智谱会越来越有吸引力。

当然，也要实话实说。智谱文档里提到“GLM-5 在真实编程场景体验逼近 Claude Opus 4.5”，还给出了 SWE-bench-Verified、Terminal Bench 2.0 之类的成绩，但这类说法毕竟主要来自厂商自述，参考价值有，但不能当绝对事实背书。真正严谨的比较，还是应该更多看公开 benchmark 平台和你自己的真实项目测试。SWE-bench 官方也强调了它报告的是“在某个 agent scaffold 下的 resolved 百分比”，这意味着最终成绩不只看模型，还看外层 agent。

所以我对智谱的判断是：它未必是今天全球 vibe coding 体验最强的一家，但很可能是国内开发者最值得长期观察、也最容易真正落地进自己工作流的一家。尤其是你在中国、又不想完全依赖海外支付和海外平台时，它的现实意义很大。

五、DeepSeek：为什么它在 vibe coding 里像“性价比怪物”，但不一定是最好的主驾驶？

DeepSeek 的优势非常清楚，而且是官方文档直接给出来的：API 兼容 OpenAI 格式，base_url 基本改一下就能接很多现成工具；DeepSeek-V3.2 提供 thinking / non-thinking 两种模式，128K 上下文，支持 tool calls 和 JSON output，价格则非常低。对于很多做自动化开发的人来说，这种特性很香，因为你可以把它塞进已经存在的 OpenAI-compatible 工具链里，不需要大动架构。

但 DeepSeek 在 vibe coding 里的最佳位置，我认为更像 “高性价比执行层”，而不是所有场景下的主驾驶。原因不是它不聪明，而是 vibe coding 一旦进入“复杂工程 + 长链依赖 + 大量外部工具 + 模糊需求逐步澄清”这种状态，决定体验上限的往往是模型对长程目标一致性的维持、对隐含约束的把握，以及在歧义情况下的自主纠偏能力。DeepSeek 现在官方已经强调 V3.2 把 thinking 融入 tool-use，这说明它也在往 agent 能力补课；但如果你预算够，而且项目复杂度上来了，我仍然倾向把 Claude 或 GPT 放在主驾驶位，把 DeepSeek 放在批量生成、便宜跑流程、低成本试错的位置。

说白了，DeepSeek 很适合“多跑几轮没那么心疼”的 vibe coding。比如批量生成脚手架、做一些中等复杂度改动、帮你先探索方案空间、或者给 agent pipeline 做低成本后备模型。它最强的不是“绝对最好用”，而是“便宜到你敢真的拿来常开