“天才极客”和他的开源版Claude Code Agent——对话Share AI Lab来新璐
共 12061字,需浏览 25分钟
·
昨天
来新璐,2002年出生
Share Al Lab Founder |奇绩投资
前百度飞桨、腾讯混元实习算法工程师,
AI模型+Agent SDK设计+前端+后端开发
llama3中文版作者,
Kode Agent(开源版ClaudeCode Agent)系列Developer
程序员客栈 对话 来新璐
他曾是“AIGC四大圣”之一,早期教程为AutoDL引流了首批七千用户;他主导了Llama3中文版的世界首发;他开源的Kode Agent正被数万开发者使用。
但在彻底“黑”进Claude Code后,这位极客得出了一个反常识的结论:所有在Copilot和Cursor上的追逐未必正确,AI Agent的终局应是像“水电煤”一样、无人感知的社会基础设施。
为何如此断言?本文将对话Share AI Lab创始人来新璐,揭示这一激进判断背后的技术逻辑与商业野心。
01 我的创业出走
1.请简单介绍一下自己
我叫来新璐,是Share AI Lab的创始人。我的经历是从小沉浸于技术的“极客”,技术背景主要在模型算法和AI领域。通过开源社区和项目积累成长,先后在盛大、百度、腾讯等公司从事AI 研究与开发,最终因渴望更大的创造空间而选择创业。
我们公司名叫Share AI,灵感来源于OpenAI 和所谓的“Close AI”,而我们则想体现 “分享”的理念。公司正处于从零到一的早期创业阶段,主要专注于开发开源的智能体(Agent)与生产力工具。未来我们会探索面向专业工作者(Pro-C)的解决方案,并推进AI 基础设施层,例如推理运行时(Inference Runtime)的开发。
2.从百度、腾讯这样的大厂出来创业,最核心的驱动力是什么?除了具体的机会,还有更深层的原因吗?
可以从两个层面来说,一个是宏观的,一个是个人的。
宏观上,是关于对“工作”本质的思考。我认为“公司”未必是一种永恒的社会形态。历史表明,社会结构一直在演变。随着AGI和机器人技术的成熟,生产力将达到前所未有的高度。未来,人类很可能不必再为基本生存而工作。
到那时,工作的核心将不再是谋生,而是创造意义。AI提供智能,机器人提供劳力,二者结合是可大规模复制的生产力。我希望参与构建的,正是这样一个能让人们从重复劳动中解放、去追求更高价值的世界。
落到我个人——我是INTP人格。对我而言,工作的核心回报是“意义感”。特别是后面我加入百度飞桨(PaddlePaddle),从框架的使用者转变为开发者,在PaddleMix 团队负责多模态模型(如LLaVA、文生图Diffusion 模型)的训练、推理及国产化适配工作。以及加入了腾讯混元团队,继续从事多模态相关研发,负责“混元DiT”模型等工作。
(在百度工作的日子)
这些经历让我更清晰地感受到,在庞大体系中个人往往更像一颗螺丝钉,项目边界也比较局限。在大厂,即便做到总监,能发挥的空间和创造的价值依然受限于部门目标与岗位角色。我渴望一个能让自己和更多同道者充分释放能量、创造广泛价值的“场域”。
回望过去,我发现自己始终热衷于从零开始“折腾”与创造。当我意识到自己拥有更大的能量和可能性时,创业也就自然而然。这不止是关于做一个产品,更是关于构建一种我更认同的价值创造方式。事实上,无论是否创业,我想这件事我都一定会做。从中学时代起,参与和主导开源项目就是我生活的一部分。进入Agent时代,我必然会去做相关的开源基础设施和工具。这件事,是主业还是副业,它的内核都不会变。
因此,离职创业更像是一种顺其自然的延续。在获得奇迹创坛(MiraclePlus)200万元天使投资后,我正式创立了Share AI Lab,至今已约一年。我只是换了一个地方、换了一种方式,继续做我注定要做的事。
(获得奇绩200万投资 - F24界Batch)
3.您持续在不同技术领域深耕和输出,是否也在逐步建立属于自己的影响力?
我觉得我一直以来都在某些特定兴趣圈子里积累着某种程度的影响力,虽然未必是那种全网级别的头部影响力。
最早可以追溯到小学时,我爱好电子技术,热衷于硬件拆解、破解和维修、还有无线设备调试,也喜欢破解软件和游戏;大概在六年级时,赶上安卓刷机热潮,我还参与过将MIUI等系统移植到非官方机型的工作。当时在村子里的小伙伴圈里就已经是大家眼里的“技术老大”。
后来接触软件,尤其是手机刷机、移植、反编译和优化,我开始在一些特定机型的论坛和社群里活跃,发教程、分享方法论,渐渐在那个垂直圈子里也被称为“大神”。
中学时代,我的兴趣扩展到反编译、系统修改、Linux操作以及一些简单的网络渗透等领域,算是“脚本小子”的范畴。由于高中校内缺乏相关社团,我创建了“极客社”以便同学们交流技术。通过分享技术和组建社团,我在班级乃至学校范围内逐渐建立起自己的小圈子。
(与高中极客计算机社团联创、校长、小伙伴们合影)
大学我攻读人工智能专业。同样基于对校内缺乏深度技术社群的感触,我花费数月走完申请与筹备全流程,发起创立了“AI 开发社”,希望能营造优质的技术交流和创造氛围,目前社团成员已超过600人。
与此同时,我还参与并主导多个开源项目,在GitHub上获得数千star。我也以“飞鸟白菜”为名在B站做技术分享,恰逢AIGC爆发初期,收获了近万粉丝。也是因为这个契机,盛大云当时的代理CEO正是通过B站找到我,邀请我加入他们的团队,起初远程,后来逐步发展到线下,我还参与了他们云计算部门的工作,包括分布式LoRA 训练推理,就是最开始做对标中国版的Manager 的一些工作,以及复刻“妙鸭相机”的项目“咔一下”。
当时圈内流传有“AIGC 四大圣”之称,我便是其中之一。我属于最早系统分享Stable Diffusion训练教程的创作者之一,并提供了封装好的一键镜像,可在AutoDL平台直接使用。后来AutoDL从一个小众站点成长为拥有大量AIGC用户的平台,仅通过我的邀请链接就带来了约七千多名用户,可以说我为平台带来了第一波重要的AIGC流量。
此外,我还主导开发了一款名为“造梦笔”的小程序,上线三周用户量即突破十万。我们为此建立了五个满员的QQ群,相关频道也吸引了超过六千名成员加入。
再到后来我主导开源了Llama2与Llama3的中文首发后训练版本。对此,我做了一个开源的 repo,将训练好的模型权重、自己整理清洗与构建的数据集,以及完整的训练流水线代码、超参数配置等所有相关资料全部开源。该项目发布后,在GitHub 上获得了大量关注,同样收获了许多星标。到后期时,也聚集了几千人的社群。
而现在围绕Agent项目,我们的SDK 在npm 上的安装量已经超过3 万,这意味着至少有3万多名开发者正在基于它构建自己的垂直应用或智能体。虽然不知道他们最终成功与否,但这个数字背后是真实发生的开发和尝试。那我们可以预见是不是,半年内——世界上真的会多出几万个这样的智能体,在各垂直业务中运行的Claude Code。
如果从这个角度看,我在每个感兴趣的领域都积累了一些影响力,只是它们并不连贯,也往往有它的上限。比如目前我运营的公众号shareAI,粉丝到了一万左右就增长得很慢了——其实这也很正常,因为真正深入关心Agent 实现、想自己构建智能体的人,在国内可能总共也不超过五万人。我们能做的,就是把这群真正感兴趣的人吸引和连接起来。
02 关于我们的Kode
4.您最初为什么选择复现 Claude Code 并开源 Kode CLI?能展开谈谈吗?
过去一年,我们的重心在智能体(Agent)领域。2024年初,当ChatGPT和 “AI 程序员” 等概念火热时,我们注意到其交互设计与一个更早的开源项目OpenHands 非常相似。OpenHands 为每个会话启动一个独立的Docker 容器,但拉起速度较慢,而类似产品则通过预置容器池优化了等待体验。
我们深入研究后发现,当时社区主流的Agent框架(如ReAct 范式)大多依赖于复杂的提示词工程来串联思考、执行、反思等步骤,我们认为这种方式不够优雅,遇到了瓶颈。
大约在4月初,我们开始研究Anthropic 的Claude Code。起初觉得它体验笨重,谁没事开个命令行,就对着 ai 聊半天,但深入使用后发现其效果远超其他同类工具。为了弄清原因,我们运用了早年的“黑客”技能:抓包分析网络请求、逆向其JavaScript 代码(结合早期泄露的版本和社区分析),最终完整还原了其内部机制。
我们发现Claude Code的核心并非冗长的提示词,而是一套精巧的机制设计。这一发现彻底更新了我们的设计思路。基于此,我们吸收了其中的哲学理念,并开发了自己的开源项目Kode——目前有三种形态,以适配不同场景和用户:
1.CLI形态:为终端用户提供的命令行工具,可作为Claude Code 的开源替代,支持配置多种大模型。
2.SDK形态:为开发者提供的软件开发套件。开发者可以自由组合我们封装并测试好的模块,快速构建属于自己的CLI 或Web 应用(类似ChatGPT 或“AI 程序员” 的界面),甚至可以搭建多容器管理的复杂系统。
3.Runtime形态(近期重点):面向非技术背景的业务人员。通过可视化拖拽等方式,让使用者能像搭积木一样,组合不同模块来创建适用于特定工作流程的智能体,而无需编写代码。
Share AI Lab正致力于通过Kode这样的开源框架,降低AI 智能体的创造与使用门槛,让更多人能便捷地构建和运用AI智能体。
5.您在百度、腾讯这类大厂的算法工程经历,是否帮助您更深刻地理解了开发者需要什么?具体是如何影响您现在所做项目的?
这些经历确实带来了很多实质性的参照和思考。虽然我之前在百度、腾讯做的工作与Agent并没有直接关系,但我一直认为,进入一个规范的中大型公司接受职场锻炼非常重要——不一定非要是大厂,但这种环境能让你沉淀出一套科学的工作方法和组织流程。
我们不是说大厂的所有流程都正确,但它背后往往有它的合理性。对我个人而言,这段经历尤其在工程规范性、代码库设计和系统架构上给了我很大启发。写代码这件事,你怎么写都能让它跑起来、实现功能,但一个能跑通的程序和一个高质量、可长期维护的程序,中间是有很大差距的。如果没有良好的抽象和设计,项目很容易陷入反复推翻重来、或者越做越拧巴的境地;而如果前期思考得足够清晰,后续的迭代大多只是局部调整,甚至可以在原有模块上持续演进和完善。
(大二在盛大云实习)
这种对工程科学性的理解,对我现在做任何事的方法论都有提升。具体到Agent领域,我过去的经历也在影响我今天的构建方式。
我之前偏向模型训练与推理相关的工作,虽然现在不直接训练大模型,但我很清楚:未来的Agent模型一定会走向“训推一体”。今天大多数人还没有上千张卡的条件去调一个千亿级模型,但如果我们能在Agent运行过程中系统性地收集交互轨迹和数据,这件事会变得非常有价值。
所以,在设计Agent基础设施时,我会特别注重可观测性与数据收集——如果Agent在生产中运行,我们就能系统性地收集交互轨迹,清楚识别出哪些是good case,哪些是bad case。
针对bad case,即使不调整模型,也可以通过封装成特定的Agent Skill进行定向修复,指导其在特定场景下的行为。
如果这样的系统持续运行多年,随着强化学习方法的普及和训练基础设施的成熟,未来模型调优的成本和门槛可能会大幅降低——也许就像今天刷机、反编译一样,将来每个人都能以很低的心智负担去优化自己的Agent。而这种往前看、往底层想的习惯,正是我之前做模型和算法背景所塑造的思考方式。
6.将您对需求的理解转化为实际产品的过程中,复刻Claude Code核心机制时,遇到的最大困难是什么?
最大的困难倒不是某个单一的技术壁垒,而是一个由无数分散挑战构成的集合。
初期,我们对它的运行机制一无所知,只能从零开始猜想。随着逆向研究和流量分析的深入——这里用到了一些类似渗透测试的技术思路,我们不断修正自己的理解,经常发现实际情况与最初的推测完全不同。
由于无法直接查看完整的源代码,我们只能捕捉局部信息,反复对比、拼凑,印证、逐步推测其整体架构。这就像在黑暗的房间里闭眼摸象:先碰到鼻子,再摸到腿、尾巴……直到摸索完所有局部,才能在脑海中拼出完整的形态,才真正明白它到底是怎么运作的。
困难就散落在这个过程的每一步中,直到所有线索最终连接起来,真相才逐渐浮现。
7.如果拉长时间线来看,从您开源 Llama3 中文版本,到成功复现 Claude Code等项目,背后是否有一条一以贯之的技术理念在驱动?
从纯技术角度来说,当初做Llama3(以及更早的Llama2)中文的post-training,因为是世界首发,所以我更多是觉得这件事有意义。它属于“模型+数据”类工作,重点在于系统性地执行与输出——收集数据、微调、训练,并把整个过程开源复现,把知识传递出去。
而现在做的Agent相关项目,则是另一条路径。我们花大量时间研究开源框架、逆向分析闭源产品,像“盲人摸象”一样逐步拼凑出其设计全貌。这个过程耗时费力,但一旦理解原理,实现路径就变得清晰,剩下的主要是时间问题。
Claude Code本身也在快速迭代,从去年发布到现在,它加入了大量新机制与特性。但我们发现其核心框架相对稳定,新增功能多是特性叠加。我们会吸收其中优秀的设计,但不会全盘照搬——有些雕饰性功能实际意义不大。
同时,我们也在沉淀自己的思考,要服务于未来:强化可观测性、轨迹收集、场景优化分析等数据科学基础工作,让开发者能更便捷地封装Skill、为未来训练做准备。这和我们之前做模型微调在技术上不直接联系,但它们的共同点都是需要投入持续的时间和扎实的工作量——不是所有人都愿意这样投入,而我们愿意,也正在这样做。
03 行业思考与Agent终局
8.关于您提到的产品愿景“Web Working for Everyone”,是否意味着Coding Agent的目标用户也包括普通人?这是否源于您对非专业开发者需求的观察?那非专业人士,能否也轻松使用它?
这三个问题其实是一个交错的关系。我们从一开始就相信,Coding Agent的潜力绝不会只局限于开发者在IDE 里用Copilot,或者在终端里调用Claude Code——它的能力太强了,未来一定会扩散到成千上万种不同角色的工作中去。开发者只是其中的一种,而先进的生产力工具,迟早会普及到更多人手中。
不过,最初我们并不知道具体会怎么扩散。我们只觉得它“应该会”,但路径并不清晰。直到后来,我们看到Claude Code像当年的Stable Diffusion 一样,形成了一个关键词流量生态。很多自媒体、公众号都在传播怎么用它来实现办公自动化、完成某个具体任务——往往不是教你怎么用Claude Code写一个具体的代码。这些内容在非技术圈里广泛传播,其实印证了我们之前的判断:很多不写代码的人,已经在自发探索怎么把Coding Agent 用在自己的工作里了。
再到第三层,就是“不写代码的人怎么系统性地使用它”。这就是我们在做的产品——CodeZero,一个完全开源的项目,预计很快会发布。它的目标就是让即使完全不会写代码的人,也能像搭积木一样,通过可视化方式把自己对某个流程、某个业务的理解“组装”起来,构建属于自己的智能体甚至定制化的“Claude Code”。
写代码本质上是一种“胶水”,程序员通过代码把不同模块粘合起来,实现功能。如果提供相同的模块,那不写代码的人,也应该能用可视化的方式把它们“粘”起来,做出自己想要的东西。程序员只占社会很小一部分,而其余99% 的人,也应该有办法去组合、创造——这正是我们正在推动的事。
9.面对像Cursor这样优秀的同类产品,Kode Agent选择在怎样的路线上建立自己差异化的优势?
其实我们在几个月前就有了一个很深的信念:这个世界可能并不需要又一个Coding工具。今天你看市面上已经有很多选择,无论是Cursor、Claude Code、CODEX,还是国内大厂推出的工具,这个赛道其实已经很拥挤了。
对开发者来说,往往只会选择最好用、最顺手的那一个——谁先进、谁体验好、谁周围人都在用,就用谁。Kode如果只定位成又一个Web Coding 工具,那它可能只是“还不错”的选择之一,但这并不是我们真正想做的事。
我们更相信的是:Coding Agent不应该只是人手里的工具,而应该成为社会的基础设施。如果它离程序员很近,那就是一个界面、一个产品;但如果它离人很远,它就能在背后默默工作,成为支撑各行各业自动化的“水电煤”。
未来很可能出现这样的图景:每天有成千上万的Agent定时启动、连续运转十几个小时,处理海量资料、分析信息、执行操作。它们的总工作量不亚于今天职场上的人力,但人们却感知不到它们的存在——因为它们就像流水线或电力系统一样,在幕后持续运行。
我们判断,三到五年后,整个社会中的Agent数量会远远超过人类,并且单个Agent 的智能水平可能超过一半的普通人。它们会分布在银行、楼宇、生产系统、数据管道中,承担业务流程的自动化处理。这个规模可能会达到数十亿甚至数百亿。
所以对我们来说,Kode Agent的差异化路线不在于和前端的工具卷界面、卷手感、卷谁出现在搜索结果前列——那可能只有第一名有意义。我们选择的是往后走、往底层走,让Coding Agent成为离人更远、但社会价值更大的基础设施。
技术上,我们通过对标并复现最先进的Claude Code机制,已经构建了相当扎实的模块与封装。但这更多是“工作量”的问题,不是竞争的本质。竞争的本质往往在于流量、PR 和曝光,而我们更愿意把钱和精力花在推动 Agent 成为社会基础架构的长期愿景上——哪怕这意味着不站在最显眼的位置。
10.如何平衡完全开源(如Kode CLI)与商业产品(如Kode Agent)?
我们的思路,类似于安卓与谷歌的关系。其实谷歌从安卓上赚了很多钱,但安卓本身是一个不赚钱的项目,需要投入大量的工程师和精力。安卓系统本身完全开源,并没有所谓“开源版”和“高级付费版”之分。但谷歌通过安卓占据了两个关键生态:一是搜索入口(国际版安卓手机默认在桌面有谷歌搜索条),二是通过Google Play 商店进行应用分发来实现商业价值。
对我们而言,思路也是一样的。我们不想在开源的东西上直接赚钱——开源了就是开源了,你可以拿去二次开发,怎么用都可以。我们开源的是“infra”(基础设施),而我们通过做infra 周边的服务来支撑商业发展。
具体来说,如果你使用Agent时,会面临一些繁琐的共性需求:例如,需要便捷地接入和管理不同特性的模型,它们可以相互配合;需要集成多种搜索源或工具,虽然今天各家都提供搜索 API,但很零散;对此,每个月你都要检查各家账单是否超支,下个月要预充多少费用确保不中断。
而我们可以将这些能力整合,提供一个稳定、高效的“插座”,就像国家电网——你只需接入,就能方便地选用来自不同“发电厂”(模型商)的“电力”(AI能力)。我们可以默认集成这些,但也不限制用户——你可以用自己部署的模型或第三方 API。我们只是把该集成的能力都提供给你,你可以选用,也可以不用。
另外,这背后还有一个底层思考:我们认为AI其实更像制造业,而不是互联网。制造业有供应链问题、生产成本问题。AI有“电”和“卡”的成本——AI的成本仍然很高,尤其是越聪明的AI,成本越高,每个时刻“最聪明”的模型一定是最贵的;同时模型都跑在A100、H100 乃至B200 这些集群上,公司花费数百亿建设数据中心,卡也是从英伟达高价采购的。服务周期内,这些硬件成本是固定的,电费也是固定的。
因此,AI绕不开成本与经济问题,它不会变成免费,无法靠“免费+流量”的模式持续。最多是未来模型更高效,能用更小的模型驱动相同水平的任务,但如果你想用最顶尖的模型,它的价格依然会维持在相应的高位。我们则在其中提供价值并为此获取相应的服务回报,这也是一个必须尊重且健康的商业逻辑。
总结来说,我们通过提供infra周边的服务来支持我们自己。开源部分完全开放,而商业化的部分则建立在为使用这些infra的开发者提供便利与增值服务之上。
11.如何理解您提出的“Bash is all you need”这一观点?
大约半年前,我们就在GitHub上,以及我们撰写的许多关于CLI 和Agent 的教程、输出内容中提出了这一点。我们之前甚至还做过价值1999元的付费课程,其中就包含我前面所讲到的这些内容。
就像盲人摸象,当我们在黑暗的房间里摸清大象的形状后,发现这个形状不太好形容——圆滚滚的,前面有长鼻子,后面有尾巴。后来我们思考其核心本质是什么:它是一个四条腿、类似狗一样的动物,只是鼻子更长。我们可以把Claude Code 简化到极致,它就像一个同样有四条腿的凳子。你只要有这个最基础的框架,它就能运行。在此基础上,你可以添加各种其他工具、机制、模块,包括统计、观测等等。加上这些只会让系统更优化、更健壮。但如果你把它压缩到极致,我想告诉你的是:模型才是那个Agent,你只需要为它提供一个工具,它就能使用。那么,你提供什么工具呢?
Bash是一种非常 “元”(meta)的工具,一个“原工具”。因为在Bash中,程序员可以用它进行网络攻击、编程、运维。在90年代以前,如果没有图形化的操作系统界面,Bash 内部集成了所有能操作底层系统的功能:文件系统的读写、网络的读写、程序的编译和运行。它提供了一个底层的、通用的抽象接口。在这个接口背后,它不只是一个工具,而是可能蕴含着成千上万个工具。因为每一个未来的MCP(模型上下文协议)都可以封装成一个CLI(命令行接口)。我甚至觉得,也许就不需要MCP 来扩展工具列表,直接用CLI 就行。AI 只需要看一下--help 就知道这个CLI 该怎么用了。所以,未来CLI 很可能就是MCP 的终极形态。如果CLI是MCP 的终极形态,那么Bash 就是接入这成千上万种工具唯一或者说最万能的入口,其背后是一个工具宝库。
这就是为什么我们提出 “Bash is all you need”。当然,这也是借鉴或致敬前辈的“Attention is all you need”。
一个有趣的插曲是,这个理念提出后,我们看到一些国际上的项目也出现了非常相似的表述与思路。比如那个曾经很火的浏览器操作Agent项目 “Browser Use”,其创始人很可能看了我们的开源仓库,但并未提及来源。这也让我们更直观地感受到,在全球化开源协作中,让中文世界的创新被看见和认可,本身就是一个值得持续努力的方向。这反过来也印证了“分享”理念的价值——我们选择清晰地公开它的由来与思考。
04 何去何从?
12.在如此高强度的工作和创业节奏中,您是否有自己一些长期保持的兴趣爱好呢?
我的兴趣爱好其实比较简单,可能就是写代码本身,以及推动这些技术项目的构建和发展。我觉得现在很多人都有类似的感受——不只是我。最近有个比喻挺有意思:Claude Code堪称程序员圈的“王者荣耀”。
当然,即便不写代码,但你可以想象:过去那些让你觉得很烦的工作,现在你只需要和AI表明诉求,它就能帮你完成。你和它说得越多,它能帮你做得越多。如果你有做不完的工作,或者有很多想法需要验证,你就会特别想让它去帮你实现。
所以,Claude Code就像程序员圈的“王者荣耀”,让人沉浸其中,不断探索和创造。
13.结合您自身的经历和心得,对于想要更多进入AI Agent领域创业或参与开源的开发者,您能给出一些有建设性的建议吗?
首先,针对AI Agent领域的创业或开发,我想先打个广告,或者说给出第零条建议:如果你今天想构建一个“Manus”那样的项目,或者构建一个垂直领域的Claude Code,无论是用来写代码还是执行特定任务的自动化,又或者你想抢占“世界上第一个XX领域的Agent”这个名头,其实你并不需要从零开始构建所有底层工作。你可以直接基于我们开源的Kode进行修改。为了方便大家基于我们的开源项目进行二次开发,我们还专门提供了SDK。你可以直接用我们的Kode Agent SDK来改造,快速实现你的“Manus”或Claude Code构想。
因为,回到前面说的,今天做一个Manus或Claude Code并没有那么难,但也不是完全没有工作量,其中有一些比较繁琐的部分。我们帮你解决了这些基础工作量的问题,你只需要加上自己业务的know-how,以及你认为在特定场景下用户更喜欢的交互方式,比如前端形式可以是网站、App、小程序,甚至集成到硬件上,通过语音、按钮或屏幕交互。背后的机制或引擎是相同的,就像做游戏开发不需要反复实现Unity 引擎一样,你可以直接使用我们提供的“引擎”。当然,如果你觉得我们不合眼缘,也可以看看社区里其他开源项目,但通过大量对比GitHub 上所有类似开源项目,我个人认为,目前其他项目还差点火候。这并非自吹,而是基于观察。
接下来是第一条建议:我建议大家去寻找垂直领域。我们看到,“Manus” 的定位是非常通用的。与它类似的产品还有 “Genspark”,国际层面它们都属于头部的通用Agent 品类。在国内,这类通用聊天机器人则可能是豆包、文心一言等各大厂的产品。大厂有足够资源和变现手段,例如通过推荐外卖、打车等服务抽取佣金,因此通用品类是他们的主战场。对于资源有限的开发者或创业者来说,直接与它们竞争非常困难——除非你能融到巨额资金(比如找红杉融两个亿去硬拼),否则很难获胜。所以,通用品类建议大家不要碰了。
既然通用领域行不通,那就要考虑非通用领域。所谓“非通用”,就是看你深耕在哪“一亩三分地”:你的老家产业、你的本职工作、你的家族行业,或者你非常熟悉的特定领域。你越了解某个细分领域,就越有优势在其中打造一个Agent。无论是为了融资、做大,还是为了创立一家公司来取代同行业中没有使用Agent 的传统玩家。如果你能在某个垂直领域做出一个好用的Agent或先进生产力工具,就能对其他玩家形成降维打击。
但这个“垂直”需要足够聚焦和精细。它不一定非要做得很大,也许只是一个非常好用的工具、脚本或流程。你可以把它分享给身边的同行或客户,他们甚至可能直接为你提供的咨询服务付费。具体能做到多大,取决于你自身的势能和所在领域的实际情况。
总之,我的核心建议是:利用我们的开源基础设施降低启动门槛,然后全力深入你最熟悉的垂直细分领域,构建解决实际问题的Agent。
14.关于您个人在未来几年,在生活和工作方面有什么规划和预期吗?
生活和工作方面,我还是希望把我们Share Lab发展得更好。具体来说,一方面是加深我们在Agent相关基座的开源建设——我们本质上是一个运行时(runtime)项目。我希望把这个运行时做得更优秀、更强大,让更多人能基于我们这个运行时来构建他们自己的“Manus”、自己的Claude Code,也就是打造他们各自垂直领域里的先进工具或“火把”。我们则充当背后那个提供燃料或基座的中间运行时层,并把这件事做扎实。
另一方面,我们还需要前瞻性地看问题。希望在这个基础上,扩充更多关于Agent运行轨迹的观测能力建设。当然,这些观测相关的中间件也会开源。目的是让开发者或工具构建者能够清晰地看到,自己的工具在真实环境下的运行情况——不一定是在用户手中,也可能是在你自己运行的数百条任务中。你可以观察它在实际工作环境下的轨迹和表现,分析不同的action 是什么,收集好的案例和坏的案例,进而进行优化。
更进一步说,就像我之前做Llama 2和Llama 3 的中文后训练那样——当时这项技术在我看来已经比较成熟了:只要收集好数据,数据质量尚可或足够高,结合LoRA 这类轻量微调手段,就能以较低成本完成微调。如果未来强化学习(RL)也出现类似突破,变得通用且成本可控,那么人人都能在自己的领域应用RL。
我们现在在Agent层面推动的轨迹数据治理、规范化建设,正是为此做准备。因为我们自己做过模型,也大致能预见未来模型的发展方向。我们希望,一旦低成本强化学习普及,我们能将这种能力赋能给所有人——不仅仅是OpenAI 或Anthropic 能做,任何人都可以。即使你不懂模型训练或数据科学,我们也可以把它封装成一个按钮:你点一下,跑一夜,第二天早上就优化好了。
所以,我们最终希望加强的是让项目更偏向AI科学,朝模型和数据的方向走,朝着治理和优化的方向走,而不是仅仅作为一个纯软件工程、靠代码胶水粘合起来的作品。坦白说,我们今天做的事情就像“502 胶水”,帮你把模型、上下文、工具、环境、用户交互、API 通信等要素粘合起来。未来,我们希望这“胶水”能更牢固,或者让被粘合的部件之间耦合得更强——这大概是未来三四年我们希望充分优化和建设的方向。
当然,如果出现新的技术变量,我们也会考虑引入。如果新技术变量太大,现有Kode架构承载不了,我们也可能开启一个新项目,并吸收现有成果。就先说到这儿吧,省得将来打脸。
=故事征集=
《LaunchBox》是程序员客栈推出的技术项目孵化平台,致力于为全球顶尖技术创业者与极客开发者提供项目展示、推广与孵化服务。无论您的项目专注于AI、区块链、开源技术,还是其他颠覆性创新领域,LaunchBox都欢迎在此首发。
欢迎大家推荐朋友或自己来参加我们的节目,分享与对话是一件利他又利己的事。主持人小何微信:Hh9420452
