豆包：视频生成模型“VideoWorld”可仅靠视觉认知世界，现已开源

2025-02-10 13:13

2月10日消息，视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于Sora 、DALL-E 、Midjourney等主流多模态模型，VideoWorld在业界首次实现无需依赖语言模型，即可认知世界。目前，该项目代码与模型已开源。

浏览 7

点赞

收藏

分享

举报

评论

图片

表情

阿里云通义开源视觉模型Qwen2.5-VL

1月28日，阿里云通义开源视觉模型Qwen2.5-VL，共推出3B、7B和72B三个尺寸版本。据介绍，Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。

豆包实时语音大模型上线

1月20日，豆包实时语音大模型于正式推出，并在豆包APP全量开放。据介绍，豆包实时语音大模型，是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

豆包大模型1.5正式发布

1月22日，火山引擎宣布，豆包大模型1.5正式发布，目前已全面上线火山方舟。

字节豆包大模型团队提出稀疏模型架构UltraMem

2月12日，据豆包大模型团队消息，字节跳动豆包大模型Foundation团队近期提出UltraMem，一种同样将计算和参数解耦的稀疏模型架构，在保证模型效果的前提下解决了推理的访存问题。据介绍，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2-6倍，推理成本最高可降低83%。

联想AI桌面助手接入豆包大模型

12月27日，在2024联想天禧生态伙伴大会上，联想宣布与火山引擎正式合作，其AI桌面助手如意（AI Stick），植入豆包大模型，可提供AI搜索、AI写作、AI聊天三大AI新功能。

字节跳动豆包大模型团队正式开源首个多语言类SWE数据集

4月10日，字节跳动豆包大模型团队正式开源首个多语言类SWE数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修Bug”能力。在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。

视觉中国完成DeepSeek开源大模型接入与本地化部署

近日，视觉中国完成深度求索公司开源大模型DeepSeek-R1的接入与本地化部署，并在多个产品中深度应用其能力，此举标志着视觉内容服务领域在AI技术应用上的进一步升级。通过充分发挥“视觉数据和应用场景”的核心优势，视觉中国正全面推进“视觉数据+AI技术+应用场景”的战略落地，推动其在图片及音视频数字版权交易、以及创作社区等多个领域的创新发展。

豆包正小范围测试深度思考模型，但接入模型非DeepSeek

2月25日消息，字节跳动旗下AI助手豆包正在小范围测试深度思考模型，但接入的不是DeepSeek模型。据豆包相关负责人表示，当前测试的是自己深度思考模型的不同实验版本。据了解，在豆包对话页面暂未显示“深度思考”功能的入口，但被灰度到的用户在询问不同问题后，豆包生成的答复中会显示思维链。

北京视觉世界科技有限公司

360儿童机器人是一款定位于亲子互动的家庭智能陪伴机器人，有利于孩子心智成长、父母与孩子间的亲子互动。它配备了智能语音助手，还具有人脸跟踪识别、多方视频通话、K故事、益智早教等多元化功能。

通义万相升级：解决视频生成模型复杂运动、物理定律遵循难题

1月9日消息，阿里云通义万相推出万相2.1视频生成模型，在大幅度复杂运动、物理规律遵循、艺术表现等方面全面提升。根据权威评测榜单VBench的信息显示，新版通义万相登上榜首位置。

点赞

收藏

分享

举报