过去一年里,从激烈的“百模大战”中跑出了大模型“六小虎”——南有阶跃、北有智谱,此外还有月之暗面、百川智能、MiniMax、零一万物环伺。
进入 2025 年,随着 的爆火出圈,大模型领域的硝烟显然只增不减。但不同企业的战略定位和落地模式也逐步呈现出了差异化。比如,被并称为“基模双雄”的阶跃星辰和智谱坚定地追求 (通用人工智能),月之暗面和 MiniMax 的战略优先级是 C 端产品和应用,百川智能锚定医疗方向,零一万物也聚焦行业模型,拓展 to B 的数字人解决方案。
具体技术实践和产品落地进展如何?即将在 4 月 10 日 -4 月 12 日举办的 QCon 全球软件开发大会北京站 上,阶跃星辰、智谱、月之暗面、百川智能这大模型“四虎”将齐齐亮相,带来他们的最新技术成果。
多模态是阶跃星辰的最大特色。近日,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。据透露,阶跃星辰还将在 3 月开源公司自研的图生视频模型。
在 QCon 北京站上,阶跃星辰 Tech Fellow 段楠将重点介绍 Step-Video,带来 《Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望》 的主题分享。围绕 Step-Video 系列开源模型,段楠将介绍视频生成基础模型的最新进展,包括文生视频和图生视频等任务。此外,本报告还将总结现有视频生成模型面临的主要挑战,并讨论未来可能的发展发向。
演讲提纲:
智谱 AI 在 AI Agent 技术领域取得了一系列突破进展。比如去年 11 月发布的 AutoGLM 已经可以支持执行超过 50 步的复杂任务,支持跨应用操作和全自动上网功能;今年 1 月发布的最新的 AI 智能体“AgentGLM-PC1.1”,具备深度思考能力,能够生成思维链以拆解复杂任务,并通过代码机制提升推理能力;2 月上线的全新一代智能代理模型 GLM-PC 1.1,可以提供会议替身、文档处理、隐形屏幕等系统级功能,在复杂任务处理与多模态交互领域取得了新的技术突破。
在 QCon 北京站上,智谱 AI AutoGLM 部门负责人刘潇 将带来《大模型自主智能体的发展:以 Phone Use 和 Computer Use 智能体为例》的主题分享,介绍从 GPT-3 开始,大语言自主智能体的概念和发展的 3 个阶段,重点介绍第 3 阶段,即当前正在发展中的基于 GUI 和推理模型的大模型自主智能体。相比此前的对话智能体和基于 Workflow 的智能体,自主智能体将实现通用的智能代理能力,走出场景特化的局限性。报告将重点介绍 Phone Use 和 Computer Use 自主智能体的发展情况,比较这些方案的优劣,以及在实际例子上的表现,并且探讨接下来的大模型自主智能体发展的方向。
演讲提纲:
近日,月之暗面推出了全新的优化器 Muon,Scaling law 实验表明,与计算最优训练的 AdamW 相比,Muon 的计算效率提升了 2 倍。基于此,月之暗面还训练出了 3B/16B 参数的 混合专家模型(MoE)——Moonlight,训练数据量达 5.7T tokens。通过 Muon 优化器和 Moonlight 模型,月之暗面重新定义了高效训练与性能的平衡,同时在长文本处理领域提出创新架构。
在 QCon 北京站上,月之暗面系统工程师黄维啸将带来《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,具体介绍月之暗面在训推混部集群中的实践经验,重点探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。同时,黄维啸还将分享如何在资源有限的情况下最大化利用率,避免浪费,进一步将该思路应用于强化学习任务的训练中。
演讲提纲:
百川智能近期的技术路线主要集中于全模态能力突破、医疗等垂直领域的深化及产业生态扩展,通过开源与产学研合作加速技术落地。3 月 2 日,百川开源了全模态模型 Baichuan-Omni-1.5,支持文本、图像、音频、视频的全模态理解及文本 / 音频生成,数据显示,在视觉、语音、多模态流式处理等场景其表现超过 GPT-4o mini,尤其在医疗多模态评测集(如 GMAI-MMBench、OpenMM-Medical)中大幅领先。
在 QCon 北京站上,百川智能研究小组负责人阎栋将带来《Learn to Reason : The way of Baichuan-M1-ClinicReasoning》的主题分享,从介绍合情推理开始,首先回顾强化学习视角下的大语言模型训练的数学基础,然后以
演讲提纲: