字节跳动豆包大模型团队推出UltraMem稀疏模型架构

2025-02-12 12:35

近日，字节跳动豆包大模型Foundation团队发布了一种名为UltraMem的稀疏模型架构。这种架构能够有效地解决推理过程中的访存问题，同时保持模型的效果不变。与传统的MoE架构相比，UltraMem在推理速度上提升了2到6倍，且推理成本最高可降低83%。

浏览 10

点赞

收藏

分享

举报

评论

图片

表情

豆包实时语音大模型上线

1月20日，豆包实时语音大模型于正式推出，并在豆包APP全量开放。据介绍，豆包实时语音大模型，是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

豆包大模型1.5正式发布

1月22日，火山引擎宣布，豆包大模型1.5正式发布，目前已全面上线火山方舟。

字节跳动豆包大模型团队正式开源首个多语言类SWE数据集

4月10日，字节跳动豆包大模型团队正式开源首个多语言类SWE数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修Bug”能力。在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。

联想AI桌面助手接入豆包大模型

12月27日，在2024联想天禧生态伙伴大会上，联想宣布与火山引擎正式合作，其AI桌面助手如意（AI Stick），植入豆包大模型，可提供AI搜索、AI写作、AI聊天三大AI新功能。

豆包正小范围测试深度思考模型，但接入模型非DeepSeek

2月25日消息，字节跳动旗下AI助手豆包正在小范围测试深度思考模型，但接入的不是DeepSeek模型。据豆包相关负责人表示，当前测试的是自己深度思考模型的不同实验版本。据了解，在豆包对话页面暂未显示“深度思考”功能的入口，但被灰度到的用户在询问不同问题后，豆包生成的答复中会显示思维链。

消息称字节大模型团队架构调整，知情人士：吴永辉和朱文佳都向梁汝波汇报

2月21日，有市场消息称，在原谷歌DeepMind副总裁吴永辉博士加入字节担任大模型团队Seed基础研究负责人后，字节大模型团队进行架构调整，多名原来向朱文佳汇报的算法和技术负责人转向吴永辉汇报。对此消息，有接近字节的人士表示，吴永辉博士主要负责AI基础研究探索工作，偏基础研究，朱文佳主要负责模型应用相关的工作，偏模型应用，两个人都在Seed部门，都向字节CEO梁汝波汇报。

国产大模型DeepSeek爆火，崛起背后大模型专利申请激增

近日，国产大模型DeepSeek爆火全网，凭借“低成本、高性能”的技术优势，其成为全球科技市场关注的焦点。创始人梁文锋介绍，团队主要由国内高校毕业生和没毕业的博士生组成。过硬的创新成果表明，今天的中国，正在成为顶尖人才成长的沃土、原创性创新的策源地。企查查数据显示，截至2月6日，大模型相关专利申请量共计1.64万项。从专利申请年份来看，相关专利多申请于近两年，2023年大模型相关专利全年申请量达

柚子模型工作室

柚子模型工作室

豆包：视频生成模型“VideoWorld”可仅靠视觉认知世界，现已开源

2月10日消息，视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于Sora 、DALL-E 、Midjourney等主流多模态模型，VideoWorld在业界首次实现无需依赖语言模型，即可认知世界。目前，该项目代码与模型已开源。

百万tokens降价至0.8元后，豆包模型毛利率已能达到50%

1月22日，从多个知情人士处获悉，豆包大模型去年大幅降价后，毛利率依然为正。其中，字节跳动最新推出的豆包大模型1.5，在推理成本优化上取得进一步突破。在火山引擎上售卖API的Doubao-1.5-pro，毛利率仍能达到50%。去年5月，字节跳动正式对外发布豆包大模型。其中，豆包通用模型Pro-32k版的模型推理输入价格仅为每百万tokens 0.8元，而当时市场上同规格模型的定价通常为每百万tok

点赞

收藏

分享

举报