这两年很多人聊 AI 编程,

19小时前

这两年很多人聊 AI 编程,已经不是在聊“补全代码”了,而是在聊一种更接近“你说需求,模型去搭东西”的工作方式。有人叫它 agentic coding,也有人更接地气,直接叫 vibe coding:先把想法说出来,先跑起来,再慢慢修。问题是,一旦你真开始这么干,就会发现体验差异根本不只来自“模型聪不聪明”,还来自 外层工具是不是顺手、长上下文是不是稳、会不会自己读代码库和跑命令、价格和可获得性是不是能扛住日常使用。OpenAI 的 Codex 和 Anthropic 的 Claude Code,本质上都已经是“会读 repo、会跨文件改代码、会执行命令”的 agentic coding 系统;前者主打多 agent、云端环境和并行工作流,后者则把终端集成、自定义 hooks、skills、subagents 做得非常完整。



先说一个很多人容易混淆的点:Codex 和 Claude Code 主要是“外层工作台”,GPT、Claude、智谱、DeepSeek 才是“底层大脑”。你不能只问“哪个模型最强”,还得问“哪个工具把模型的能力释放得更完整”。OpenAI 现在的 Codex 已经不是早年那个单纯写函数的“Codex API”概念了,它是一个能在云端环境里读代码、改代码、并行跑任务的 coding agent,官方还明确写了内置 worktrees 和 cloud environments。Anthropic 这边,Claude Code 也不只是聊天框里写代码,而是可以读代码库、执行命令、接 IDE/terminal/browser,并且支持 hooks、skills、subagents,甚至已经把原先的 Claude Code SDK 演进成了可编程的 Claude Agent SDK。



一、如果你只问一句:Codex 和 Claude Code 到底谁更适合 vibe coding?



我的结论很简单:想要“把一个模糊想法快速变成工程,并且希望多任务并行、云端跑活、比较接近项目经理式分派”,Codex 更像一个现代化 AI 工程调度台;想要“长时间泡在终端里,一边改一边试,一边积累自己的工作流和自动化习惯”,Claude Code 往往更有“黑客工具”的味道。 OpenAI 官方把 Codex 明确定位成多 agent 工作流的 command center,支持并行任务和云环境;Anthropic 则把 Claude Code 做成一个深度嵌入开发流程的工具,subagents、hooks、skills 这些机制非常适合长期把个人习惯固化成工作流。



用更白一点的话说,Codex 更像“你把工作交给它,它去做”;Claude Code 更像“你和它一起在 shell 里写活”。这不是能力高低的问题,而是工作姿势不同。尤其是做 vibe coding 的人,很多时候并没有特别清晰的 spec,只是有个想法,比如“给我做个带登录、后台管理、积分系统、Stripe 支付的 SaaS demo”。这种时候,工具层是不是能自然地拆任务、跑测试、开环境,比模型答题分高不高更影响体验。



二、GPT 系:为什么很多人觉得 Codex“越来越像真正的 AI 工程同事”?



OpenAI 这边最近最关键的变化,是 GPT-5.4 把 长上下文、工具生态、computer use 这些本来分散的能力,往一个更统一的 agent 模型上收了。官方写得很明确:GPT-5.4 在 Codex 和 API 里支持原生的 computer-use,支持高达 1M token 上下文,还特别强调它在长链路规划、执行和验证任务时更强,同时比 GPT-5.2 更省 token。对于 vibe coding 来说,这很重要,因为 vibe coding 最怕的不是“不会写一段函数”,而是 上下文一长,前后要求不一致,改着改着把前面约束忘了。GPT-5.4 这类高上下文、工具导向的模型,在大型 repo、长 session、跨很多文件来回改的时候,理论上是更占优的。



再加上 Codex 本身就支持云端 environments,能预装依赖、加 linters、设环境变量,这意味着它更适合那种“把任务丢进云里让它自己跑”的模式。对真正做项目的人来说,这种体验比单纯聊天窗口里来回 copy paste 强很多。官方也明确说 Codex 已经包含在 ChatGPT Plus、Pro、Business、Edu、Enterprise 里,短期内 Free 和 Go 也可试用。



所以如果你问我 GPT 在 vibe coding 里最强的点是什么,不是“写单文件 demo 漂亮”,而是 更像一个能跨长任务维护一致性的总控模型。它尤其适合三种场景:第一,大代码库里做结构化改动;第二,要接很多工具、服务和环境变量的活;第三,不想一直盯着它,想让它自己先跑一轮。这个方向上,Codex + GPT-5.4 现在是非常强的一套。



三、Claude 系:为什么很多程序员还是会说 Claude Code 更“顺手”?



Claude Code 的强,不完全在“模型答题更对”,而在于 它把开发者的手感做得很像真正的 terminal companion。官方文档里已经把 subagents、hooks、skills 这些机制写得很完整了:你可以让它自动委派不同类型的任务给不同子代理,可以在生命周期节点触发 shell 命令、HTTP endpoint 或 LLM prompt,也可以把自己的经验沉淀成 SKILL.md 让 Claude 之后复用。甚至 Anthropic 还专门发了一篇 auto mode,讨论怎么减少频繁 permission prompt 带来的审批疲劳,因为他们观察到用户会批准 93% 的权限请求。



这套东西对 vibe coding 特别重要。因为 vibe coding 最终不是“一次性生成”,而是 反复试、反复修、不断把常见动作自动化。比如你每次都要“跑测试—修 lint—更新 changelog—检查危险改动”,Claude Code 的 hooks 和 skills 特别适合把这种动作模板化。它不是只给你一份答案,而是给你一个会逐渐长出习惯和工具链的系统。官方还把 Claude Agent SDK 单独拿出来,说明 Anthropic 自己也在把这套 agent loop 平台化。



另外,Claude Code 的订阅方式也比较清晰:Pro 就能用,Max 5x 和 Max 20x 则适合更重度用户;产品页明确写了 Pro、Max 和 Team 都包含 Claude Code,且 Pro/Max 可用 Sonnet 4.6 与 Opus 4.6。API 价格页则显示 Opus 4.6、Sonnet 4.6、Haiku 4.5 的 token 定价。也就是说,Claude 体系的优势是:你既可以当一个订阅制产品用,也可以把它当 API/SDK 能力嵌进自己的 agent 系统里。



所以如果你问我 Claude 在 vibe coding 里最强的点是什么,我会说是 “交互手感 + 可塑性”。尤其适合那种喜欢长期在同一个终端工作、会认真打磨个人开发习惯、会自己写脚本和规则的人。很多人觉得 Claude Code“像个老练的搭档”,很大一部分其实不是模型智商,而是工作流设计。



四、智谱:为什么它现在越来越值得在 vibe coding 里认真看一眼?



国产模型里,智谱现在有一个很有意思的定位:它不是单纯想做“便宜一点的通用模型”,而是在明显往 Agentic Engineering 这个叙事上靠。官方文档里对 GLM-5 的描述很直接:面向 Agentic Engineering 打造,200K 上下文,128K 最大输出,支持思考模式、Function Call、上下文缓存、结构化输出和 MCP。更关键的是,它不仅单独卖 API,还专门有 GLM Coding Plan,而且文档里明确写了这就是给主流 AI 编码工具用的编码套餐,目标场景就是自然语言编程、代码调试修复、代码库问答和自动化任务处理。



这意味着什么?意味着智谱已经不满足于“你自己写一套调用我 API 的东西”,而是想直接进入 Cursor/Cline/Claude Code 类生态 的日常工作流。它甚至提供了“接入 GLM-5.1 到 Claude Code”的官方说明,说明官方自己也在推动这条路线。对于中国开发者来说,这一点很现实:如果你要的是 国内可付费、接入方便、成本相对可控、又能兼容当前主流 AI 编程工具链 的方案,智谱会越来越有吸引力。



当然,也要实话实说。智谱文档里提到“GLM-5 在真实编程场景体验逼近 Claude Opus 4.5”,还给出了 SWE-bench-Verified、Terminal Bench 2.0 之类的成绩,但这类说法毕竟主要来自厂商自述,参考价值有,但不能当绝对事实背书。真正严谨的比较,还是应该更多看公开 benchmark 平台和你自己的真实项目测试。SWE-bench 官方也强调了它报告的是“在某个 agent scaffold 下的 resolved 百分比”,这意味着最终成绩不只看模型,还看外层 agent。



所以我对智谱的判断是:它未必是今天全球 vibe coding 体验最强的一家,但很可能是国内开发者最值得长期观察、也最容易真正落地进自己工作流的一家。 尤其是你在中国、又不想完全依赖海外支付和海外平台时,它的现实意义很大。



五、DeepSeek:为什么它在 vibe coding 里像“性价比怪物”,但不一定是最好的主驾驶?



DeepSeek 的优势非常清楚,而且是官方文档直接给出来的:API 兼容 OpenAI 格式,base_url 基本改一下就能接很多现成工具;DeepSeek-V3.2 提供 thinking / non-thinking 两种模式,128K 上下文,支持 tool calls 和 JSON output,价格则非常低。对于很多做自动化开发的人来说,这种特性很香,因为你可以把它塞进已经存在的 OpenAI-compatible 工具链里,不需要大动架构。



但 DeepSeek 在 vibe coding 里的最佳位置,我认为更像 “高性价比执行层”,而不是所有场景下的主驾驶。原因不是它不聪明,而是 vibe coding 一旦进入“复杂工程 + 长链依赖 + 大量外部工具 + 模糊需求逐步澄清”这种状态,决定体验上限的往往是模型对长程目标一致性的维持、对隐含约束的把握,以及在歧义情况下的自主纠偏能力。DeepSeek 现在官方已经强调 V3.2 把 thinking 融入 tool-use,这说明它也在往 agent 能力补课;但如果你预算够,而且项目复杂度上来了,我仍然倾向把 Claude 或 GPT 放在主驾驶位,把 DeepSeek 放在批量生成、便宜跑流程、低成本试错的位置。



说白了,DeepSeek 很适合“多跑几轮没那么心疼”的 vibe coding。比如批量生成脚手架、做一些中等复杂度改动、帮你先探索方案空间、或者给 agent pipeline 做低成本后备模型。它最强的不是“绝对最好用”,而是“便宜到你敢真的拿来常开
浏览 1
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报