会员登录|免费注册|忘记密码|管理入口 返回主站||保存桌面
大模型“四虎”出山,亮相 4 月 QCon 北京站
2025-03-11IP属地 湖北1

过去一年里,从激烈的“百模大战”中跑出了大模型“六小虎”——南有阶跃、北有智谱,此外还有月之暗面、百川智能、MiniMax、零一万物环伺。

进入 2025 年,随着 的爆火出圈,大模型领域的硝烟显然只增不减。但不同企业的战略定位和落地模式也逐步呈现出了差异化。比如,被并称为“基模双雄”的阶跃星辰和智谱坚定地追求 (通用人工智能),月之暗面和 MiniMax 的战略优先级是 C 端产品和应用,百川智能锚定医疗方向,零一万物也聚焦行业模型,拓展 to B 的数字人解决方案。

具体技术实践和产品落地进展如何?即将在 4 月 10 日 -4 月 12 日举办的 QCon 全球软件开发大会北京站 上,阶跃星辰、智谱、月之暗面、百川智能这大模型“四虎”将齐齐亮相,带来他们的最新技术成果。

阶跃星辰:SoTA 模型的技术创新与架构优势

多模态是阶跃星辰的最大特色。近日,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。据透露,阶跃星辰还将在 3 月开源公司自研的图生视频模型。

在 QCon 北京站上,阶跃星辰 Tech Fellow 段楠将重点介绍 Step-Video,带来 《Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望》 的主题分享。围绕 Step-Video 系列开源模型,段楠将介绍视频生成基础模型的最新进展,包括文生视频和图生视频等任务。此外,本报告还将总结现有视频生成模型面临的主要挑战,并讨论未来可能的发展发向。

演讲提纲:

智谱 AI:大模型自主智能体的发展

智谱 AI 在 AI Agent 技术领域取得了一系列突破进展。比如去年 11 月发布的 AutoGLM 已经可以支持执行超过 50 步的复杂任务,支持跨应用操作和全自动上网功能;今年 1 月发布的最新的 AI 智能体“AgentGLM-PC1.1”,具备深度思考能力,能够生成思维链以拆解复杂任务,并通过代码机制提升推理能力;2 月上线的全新一代智能代理模型 GLM-PC 1.1,可以提供会议替身、文档处理、隐形屏幕等系统级功能,在复杂任务处理与多模态交互领域取得了新的技术突破。

在 QCon 北京站上,智谱 AI AutoGLM 部门负责人刘潇 将带来《大模型自主智能体的发展:以 Phone Use 和 Computer Use 智能体为例》的主题分享,介绍从 GPT-3 开始,大语言自主智能体的概念和发展的 3 个阶段,重点介绍第 3 阶段,即当前正在发展中的基于 GUI 和推理模型的大模型自主智能体。相比此前的对话智能体和基于 Workflow 的智能体,自主智能体将实现通用的智能代理能力,走出场景特化的局限性。报告将重点介绍 Phone Use 和 Computer Use 自主智能体的发展情况,比较这些方案的优劣,以及在实际例子上的表现,并且探讨接下来的大模型自主智能体发展的方向。

演讲提纲:

月之暗面:大规模集群训推混部经验及框架侧优化

近日,月之暗面推出了全新的优化器 Muon,Scaling law 实验表明,与计算最优训练的 AdamW 相比,Muon 的计算效率提升了 2 倍。基于此,月之暗面还训练出了 3B/16B 参数的 混合专家模型(MoE)——Moonlight,训练数据量达 5.7T tokens。通过 Muon 优化器和 Moonlight 模型,月之暗面重新定义了高效训练与性能的平衡,同时在长文本处理领域提出创新架构。

在 QCon 北京站上,月之暗面系统工程师黄维啸将带来《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,具体介绍月之暗面在训推混部集群中的实践经验,重点探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。同时,黄维啸还将分享如何在资源有限的情况下最大化利用率,避免浪费,进一步将该思路应用于强化学习任务的训练中。

演讲提纲:

百川智能:大语言模型落地垂直领域的实践经验

百川智能近期的技术路线主要集中于全模态能力突破、医疗等垂直领域的深化及产业生态扩展,通过开源与产学研合作加速技术落地。3 月 2 日,百川开源了全模态模型 Baichuan-Omni-1.5,支持文本、图像、音频、视频的全模态理解及文本 / 音频生成,数据显示,在视觉、语音、多模态流式处理等场景其表现超过 GPT-4o mini,尤其在医疗多模态评测集(如 GMAI-MMBench、OpenMM-Medical)中大幅领先。

在 QCon 北京站上,百川智能研究小组负责人阎栋将带来《Learn to Reason : The way of Baichuan-M1-ClinicReasoning》的主题分享,从介绍合情推理开始,首先回顾强化学习视角下的大语言模型训练的数学基础,然后以 ntext="YXJuIHRvIFJlYXNvbiA6IFRoZSB3YXkgb2YgQmFpY2h1YW4tTTEtQ2xpbmljUmVhc29uaW5n44CL55qE5Li76aKY5YiG5Lqr77yM5LuO5LuL57uN5ZCI5oOF5o6o55CG5byA5aeL77yM6aaW5YWI5Zue6aG+5by65YyW5a2m5Lmg6KeG6KeS5LiL55qE5aSn6K+t6KiA5qih5Z6L6K6t57uD55qE5pWw5a2m5Z+656GA77yM54S25ZCO5LulIA==" subsequent_context="IOS4uuS+i+ais+eQhuWkp+ivreiogOaooeWei+aOqOeQhuaKgOacr+eahOWPkeWxle+8jOWGjeS7i+e7jeeZvuW3neaZuuiDveeglOeptuWwj+e7hOWcqOiuree7g+Wkp+ivreiogOaooeWei+i/m+ihjOS4tOW6iuaOqOeQhueahOWunui3te+8jOacgOWQjuiuqOiuuuWmguS9lee7p+e7reaPkOWNh+aooeWei+iDveWKm+eahOWPr+iDveaWueWQkeS7peWPiuWkp+ivreiogOaooeWei+S4juS6uuexu+WcqOaZuuiDveS4iueahOW3ruW8guihqOeOsOOAgua8lOiusuaPkOe6su+8muaOqOeQhu+8muecn+WunuS4lueVjOS4reeahA==" web_h5_href="qqnews://article_9528?act=ai_chat&vertical_card_type=ai&vertical_card_desc=Deepseek" qqcom_pc_href="qqnews://article_9528?act=ai_chat&vertical_card_type=ai&vertical_card_desc=Deepseek">Deepseek R1 为例梳理大语言模型推理技术的发展,再介绍百川智能研究小组在训练大语言模型进行临床推理的实践,最后讨论如何继续提升模型能力的可能方向以及大语言模型与人类在智能上的差异表现。

演讲提纲: