在AI大模型领域日益激烈的竞争中,智谱AI于2026年2月11日深夜或2月12日凌晨正式发布了其新一代旗舰模型GLM-51。这款模型被官方定位为“新一代旗舰模型”或“新一代基座模型”1。其完整的官方名称为“GLM-5: From Vibe Coding to Agentic Engineering”2。GLM-5旨在面向Agentic Engineering(智能体工程)打造,特别擅长处理复杂系统工程与长程Agent任务1。
此次发布不仅标志着智谱AI在AI大模型领域迈出了重要一步,更预示着它将与现有顶尖模型(如Claude Opus 4.5)展开正面竞争,有望重新定义AI大模型的技术巅峰与应用边界。
智谱AI于2026年2月11日正式发布并开源了新一代旗舰基座模型GLM-5,旨在面向复杂系统工程与长程Agent任务,在编程和智能体能力上取得了开源领域的领先水平(SOTA)。此前,OpenRouter平台上的神秘匿名模型“Pony Alpha”已被官方确认为GLM-5的匿名测试版本。
GLM-5在模型架构和核心技术上实现了显著革新,奠定了其强大性能的基础:
GLM-5的总参数量达到7440亿至7450亿,是上一代GLM-4.7的2倍。该模型采用混合专家(MoE)架构,包含78层隐藏层和256个专家,每次推理仅激活其中8个,使得激活参数约为400亿至440亿,稀疏度为5.9%。值得注意的是,模型前三层保留了稠密结构,以确保基础语言理解的稳定性。
| 指标 | 数值 |
|---|---|
| 总参数量 | 7440亿-7450亿 |
| MoE架构-隐藏层数 | 78 |
| MoE架构-专家数量 | 256 |
| MoE架构-激活专家数 | 8 |
| 激活参数量 | 400亿-440亿 |
| 稀疏度 | 5.9% |
| 预训练数据量 | 28.5T token |
| 上下文窗口 | 202K token |
| 最大输出长度 | 131072 token (128K) |
GLM-5核心模型参数一览
模型预训练数据量从23T token大幅提升至28.5T token。此外,GLM-5引入了名为“Slime”的异步智能体强化学习框架,支持模型从长程交互中持续学习,显著提升了强化学习后训练流程的效率。
GLM-5在长文本处理、多模态能力和推理能力方面取得了显著提升,尤其在编程和Agent任务上表现突出。
GLM-5支持最高达202K token的上下文窗口,最大输出长度达到131072 token(128K token)。DSA机制在保持长文本处理效果无损的同时,大幅降低了部署成本,显著提升了Token效率。
GLM-5的首发版本主要处理文本输入和输出,社区测试指出其暂无直接的多模态处理能力(图像、音频等)。然而,智谱AI表示未来可能扩展到多模态能力3。值得一提的是,GLM-5家族中已包含专门的变体,如用于高保真图像生成的GLM-Image,以及用于高级多模态推理的GLM-4.5V/4.6V(其中GLM-4.5V作为基于MoE架构的视觉推理模型,在视觉多模态榜单中表现SOTA)。
thinking参数,模型能够在生成最终输出前执行内部逻辑推导和规划,尤其适用于复杂的数学证明、逻辑谜题或多步骤策略规划。
GLM-5被明确定义为“面向Agentic Engineering打造”,专注于解决复杂系统工程和长程Agent任务。它支持自主决策、工具调用、任务分解和工作流执行,旨在实现“一句话输入到完整交付物”的目标,大幅提升开发与交付效率。
GLM-5完全在华为昇腾芯片上训练,并采用MindSpore框架,实现了对美国制造半导体硬件的完全独立。同时,该模型已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等主流国产芯片平台的深度推理适配与算子级优化,确保在国产算力集群上实现高吞吐、低延迟的稳定运行4。
得益于复用DeepSeek架构,GLM-5可以直接受益于vLLM、SGLang等推理框架的优化,从而降低了部署门槛。模型提供了BF16、FP8和INT4等多种精度版本,以适应不同硬件环境的部署需求3。目前,GLM-5已通过GitHub、Hugging Face开源,并提供API服务(如chat.z.ai、OpenRouter),同时为新用户提供免费试用额度,极大地提升了可访问性。
GLM-5在多个实用应用场景中展现出强大潜力,包括软件开发辅助(如自动化前后端代码生成、项目重构)、AI代理开发、技术文档生成(可直接转换为.docx、.pdf和.xlsx文件)、办公自动化和数据分析等。
GLM-5旨在缩小与国际闭源模型(如GPT-5.2和Claude Opus 4.5)的差距,并在保持高性能的同时极致优化推理成本,提供高性价比的开源选择,为用户带来更为经济高效的解决方案。
尽管GLM-5表现出色,但其首发版本在多模态能力方面有所欠缺。此外,模型输出有时可能较为冗长,速度中等(约52tokens/秒),在某些非推理版本中智能指数较低3。有评论指出,GLM-5更适合专业的程序员,而非编程基础薄弱的用户。
智谱AI选择开源集成技术,而非“闭源+自研”,反映了其务实的研发路径。这预示着AI行业将告别过去参数规模的“军备竞赛”,转而聚焦于推理效率的精细化运营,以提供更具成本效益和实用价值的AI解决方案。
智谱AI最新发布的GLM-5在模型能力上实现了显著飞跃,特别是在面向复杂系统工程与长程Agent任务的编程和智能体(Agent)能力方面,其表现已达到开源领域的领先水平(SOTA)5。通过一系列权威基准测试数据,GLM-5展现出强大的竞争力,甚至在某些关键指标上超越了顶尖的闭源模型。
GLM-5在编程能力方面取得了开源模型的最高分数。例如,在业界主流的SWE-bench-Verified基准测试中,GLM-5达到了77.8%的优异成绩5。在Terminal Bench 2.0测试中,其得分高达56.2%5,这两项表现均超越了Google的Gemini 3 Pro5。智谱AI内部进行的Claude Code评估显示,GLM-5在前端、后端和长程任务等编程开发任务上的表现显著超越了上一代GLM-4.7,平均增幅超过20%,其使用体验已能逼近Anthropic的Claude Opus 4.55。
在智能体能力方面,GLM-5同样实现了开源领域的SOTA地位5。在多项重要评测基准中,GLM-5均取得了开源模型第一的佳绩,包括BrowseComp(75.9%)、MCP-Atlas(67.8%)和τ²-Bench(89.7%)5。特别是在模拟商业运营长时程任务的Vending Bench 2测试中,GLM-5获得了开源模型的最高分,其经营表现接近Claude Opus 4.5,进一步印证了其在复杂智能体任务上的强大实力5。
GLM-5在长文本处理方面也取得了突破性进展,支持高达202K token的超长上下文窗口6,最大输出长度达到131072 token(128K token)3。结合DeepSeek稀疏注意力(DSA)机制,模型能够在保持长文本处理效果无损的同时,大幅降低部署成本并显著提升Token效率5。
此外,GLM-5还引入了深度思考模式,通过启用thinking参数,模型能够在生成最终输出前进行内部逻辑推导和规划,这对于复杂的数学证明、逻辑谜题或多步骤策略规划等任务至关重要7。
综合来看,GLM-5旨在缩小与国际闭源模型(如GPT-5.2和Claude Opus 4.5)的差距5,并在保持高性能的同时,提供高性价比的开源选择。
随着人工智能技术迭代加速,大语言模型(LLM)的竞争格局日趋白热化。由中国智谱AI推出的GLM-5与Anthropic的Claude Opus 4.5,作为各自阵营的旗舰产品,正展开一场能力与市场的全面对决。本节将深入剖析这两款模型在性能、功能、竞争优势及商业策略上的异同,旨在揭示当前AI模型格局的动态演变,并探讨谁更有潜力成为新一代AI之王。
GLM-5是智谱AI于2026年2月11日发布的第五代旗舰模型,专为复杂系统工程和长程智能体任务设计 。
在架构上,GLM-5采用混合专家(MoE)架构,总参数规模从GLM-4.5的355B扩展至744B,激活参数提升至40B 。预训练数据量增至28.5T 。该模型首次引入DeepSeek稀疏注意力机制(DSA),在保证长文本处理效果的同时,有效降低部署成本并提升Token利用效率 。值得注意的是,GLM-5完全基于华为昇腾芯片和MindSpore框架训练,实现了对美国制造硬件的零依赖,标志着中国在AI基础设施自主可控方面的重要突破 。
GLM-5作为开源模型发布,遵循MIT许可证,其权重可在HuggingFace和ModelScope上获取 。用户可通过chat.z.ai、Z.ai开放平台或OpenRouter访问,并兼容Claude Code用户通过GLM Coding Plan使用 。其核心能力聚焦于创意写作、编码、高级推理、智能体智能和长上下文处理,尤其在编码和智能体能力上达到开源领域的SOTA(State-of-the-Art)水平 。
Claude Opus 4.5是Anthropic于2025年11月25日推出的最新AI模型,旨在成为在编码、智能体以及计算机操作方面表现领先的通用模型 。
该模型采用混合推理模型,并引入了独特的“思考模式”(thinking mode),使其能够在生成最终答案前进行内部推理和规划,从而提升任务处理的准确性 8。Claude Opus 4.5可通过Anthropic应用程序、API以及Google Cloud的Vertex AI等主流云平台开放使用 。
其核心能力包括在深度研究、演示文稿处理以及电子表格任务上的显著提升 。尤其在软件工程相关测试中表现卓越,并通过“Claude Code”工具链为开发者提供强大的集成能力,达到当前最先进水平 9。Anthropic强调Claude Opus 4.5是其迄今为止“对齐”程度最高的模型,推测其对齐水平在行业前沿模型中处于领先地位,并在防御提示注入攻击方面取得了实质性进展 。
GLM-5与Claude Opus 4.5在多项关键基准测试中展开激烈竞争,尤其在通用推理、软件工程和智能体任务上。
下表展示了GLM-5、Claude Opus 4.5以及其他顶尖模型在多个基准测试中的表现:
| 基准测试 | GLM-5 | Claude Opus 4.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| Humanity's Last Exam (带工具) | 50.4 | 43.4 | 45.8 | 45.5 |
| SWE-bench Verified | 77.8% | 80.9% | 76.2% | 80.0% |
| SWE-bench Multilingual | 73.3% | 77.5% | 65.0% | 72.0% |
| Terminal-Bench 2.0 | 56.2% | 59.3% | 54.2% | 54.0% |
| BrowseComp | 75.9 (🥇) | 67.8 | 59.2 | 65.8 |
| MCP-Atlas | 67.8 | 65.2 | 66.6 | 68.0 |
| τ²-Bench | 89.7 | 91.6 | 90.7 | 85.5 |
| Vending Bench 2 | $4,432.12 (🥇OS) | $4,967.06 | $5,478.16 | $3,591.33 |
GLM-5与GLM-4.7内部评估对比 (CC-Bench-V2) 智谱AI的内部工程评估套件CC-Bench-V2显示,GLM-5相较于前代GLM-4.7有显著提升,并且已能与Claude Opus 4.5在多个指标上缩小差距,甚至有所超越 。
| 评估指标 | GLM-5 | Claude Opus 4.5 |
|---|---|---|
| 前端构建成功率 | 98.0% | 93.0% |
| 端到端正确性 | 74.8% | 75.7% |
| 后端端到端正确性 | 25.8% | 26.9% |
| 长周期大型仓库 | 65.6% | 64.5% |
| 多步骤任务 | 52.3% | 61.6% |
其他特定对比:
该模型拥有强大的工具调用能力,如“Tool Search Tool”可按需发现工具以减少上下文消耗,以及“Programmatic Tool Calling”允许模型在代码执行环境中调用工具,进一步提高效率和降低Token使用 。它还能有效管理子智能体团队,构建复杂、协调良好的多智能体系统 。
effort参数,开发者可以在速度、成本与能力之间进行调节,在中等投入度下,可大幅减少Token使用量 。在API接入和商业化策略上,GLM-5和Claude Opus 4.5展现出截然不同的路径。
以下图表展示了主要大模型API的定价对比,直观反映了GLM-5在成本效益方面的优势:
GLM-5的推出清晰表明,中国AI模型在技术能力上正迅速追赶并挑战国际顶尖水平。在一些特定基准测试中(如BrowseComp、Humanity's Last Exam带工具),GLM-5已展现出超越Claude Opus 4.5的潜力 11。其开源、高性价比以及完全国产硬件支持的特点,使其成为中国乃至全球开源社区的重要力量,有力地挑战了西方在AI领域的传统主导地位,具有重要的地缘战略意义 。智谱AI通过“平替”和“搬家计划”的策略,积极应对国际竞争,为国内企业和开发者提供了顶尖AI编程能力的可及性 。
与此同时,Claude Opus 4.5凭借其卓越的编程精度、创新的“思考模式”以及成熟的企业级生态系统,继续巩固其在商业化和高复杂度任务解决方面的领先地位 。Anthropic在AI安全和合规性方面的投入,以及其战略性地转向企业市场,都体现了其在构建可持续商业模式上的努力 21。然而,其受地缘政治影响而实施的服务限制,也为GLM-5等其他模型进入特定市场提供了重要机遇,加速了全球AI格局的多元化 22。
总体而言,GLM-5与Claude Opus 4.5的竞争不仅是技术能力的较量,更是商业模式、生态构建和地缘战略的深度博弈。GLM-5的崛起,预示着全球AI格局的多元化趋势,为开发者和企业提供了更广泛的选择,并加速了AI编程和智能体工程的普及。