Pricing

GLM 5 重磅发布:硬核性能直指 Claude Opus 4.5?

Info 0 references
Feb 12, 2026 0 read

引言:GLM 5横空出世,AI大模型格局再添新星

在AI大模型领域日益激烈的竞争中,智谱AI于2026年2月11日深夜或2月12日凌晨正式发布了其新一代旗舰模型GLM-51。这款模型被官方定位为“新一代旗舰模型”或“新一代基座模型”1。其完整的官方名称为“GLM-5: From Vibe Coding to Agentic Engineering”2。GLM-5旨在面向Agentic Engineering(智能体工程)打造,特别擅长处理复杂系统工程与长程Agent任务1

此次发布不仅标志着智谱AI在AI大模型领域迈出了重要一步,更预示着它将与现有顶尖模型(如Claude Opus 4.5)展开正面竞争,有望重新定义AI大模型的技术巅峰与应用边界。

GLM-5模型发布概念图

GLM 5核心亮点与技术革新:全面解析其“亮眼”之处

智谱AI于2026年2月11日正式发布并开源了新一代旗舰基座模型GLM-5,旨在面向复杂系统工程与长程Agent任务,在编程和智能体能力上取得了开源领域的领先水平(SOTA)。此前,OpenRouter平台上的神秘匿名模型“Pony Alpha”已被官方确认为GLM-5的匿名测试版本。

1. 核心技术与模型架构

GLM-5在模型架构和核心技术上实现了显著革新,奠定了其强大性能的基础:

(1) 参数规模与MoE架构革新

GLM-5的总参数量达到7440亿至7450亿,是上一代GLM-4.7的2倍。该模型采用混合专家(MoE)架构,包含78层隐藏层和256个专家,每次推理仅激活其中8个,使得激活参数约为400亿至440亿,稀疏度为5.9%。值得注意的是,模型前三层保留了稠密结构,以确保基础语言理解的稳定性。

指标 数值
总参数量 7440亿-7450亿
MoE架构-隐藏层数 78
MoE架构-专家数量 256
MoE架构-激活专家数 8
激活参数量 400亿-440亿
稀疏度 5.9%
预训练数据量 28.5T token
上下文窗口 202K token
最大输出长度 131072 token (128K)

GLM-5核心模型参数一览

(2) 预训练与强化学习升级

模型预训练数据量从23T token大幅提升至28.5T token。此外,GLM-5引入了名为“Slime”的异步智能体强化学习框架,支持模型从长程交互中持续学习,显著提升了强化学习后训练流程的效率。

(3) 推理优化技术

  • DeepSeek稀疏注意力(DSA):GLM-5复用DeepSeek-V3/V3.2架构的DSA机制,通过两阶段流程(Lightning Indexer快速扫描和Top-k token选择)大幅提升了长文本处理效率。该机制可在不损失核心任务性能(损失不到1%)的前提下,降低长文本推理成本40%至50%。
  • 多Token预测(MTP):为提升模型生成效率,GLM-5采用了MTP技术,允许模型在前向计算中一次预测多个连续的词,从而减少迭代次数。在代码、JSON、SQL等结构化文本生成任务中,MTP可将token生成速度提升2-3倍。

2. 显著提升的关键能力

GLM-5在长文本处理、多模态能力和推理能力方面取得了显著提升,尤其在编程和Agent任务上表现突出。

(1) 超长文本处理能力

GLM-5支持最高达202K token的上下文窗口,最大输出长度达到131072 token(128K token)。DSA机制在保持长文本处理效果无损的同时,大幅降低了部署成本,显著提升了Token效率。

GLM-5与同类模型在编程和智能体基准测试中的表现

(2) 多模态能力现状与展望

GLM-5的首发版本主要处理文本输入和输出,社区测试指出其暂无直接的多模态处理能力(图像、音频等)。然而,智谱AI表示未来可能扩展到多模态能力3。值得一提的是,GLM-5家族中已包含专门的变体,如用于高保真图像生成的GLM-Image,以及用于高级多模态推理的GLM-4.5V/4.6V(其中GLM-4.5V作为基于MoE架构的视觉推理模型,在视觉多模态榜单中表现SOTA)。

(3) 领先的推理能力

  • 编程能力:GLM-5在业内主流基准测试中取得了开源模型的最高分数,例如SWE-bench-Verified达到77.8%,Terminal Bench 2.0达到56.2%,性能表现超越Gemini 3 Pro。在内部Claude Code评估中,GLM-5在前端、后端、长程任务等编程开发任务上显著超越GLM-4.7,平均增幅超过20%,使用体感逼近Claude Opus 4.5。
  • Agent能力:该模型实现了开源SOTA,在BrowseComp(75.9%)、MCP-Atlas(67.8%)和τ²-Bench(89.7%)等多个评测基准中取得开源第一。在模拟商业运营长时程任务的Vending Bench 2中,GLM-5也获得了开源模型的最高分,经营表现接近Claude Opus 4.5。
  • 深度思考模式:GLM-5提供了多种思考模式,通过启用thinking参数,模型能够在生成最终输出前执行内部逻辑推导和规划,尤其适用于复杂的数学证明、逻辑谜题或多步骤策略规划。

3. 特别“亮眼”之处与创新功能

Agentic Engineering核心理念示意图

(1) Agentic Engineering核心定位

GLM-5被明确定义为“面向Agentic Engineering打造”,专注于解决复杂系统工程和长程Agent任务。它支持自主决策、工具调用、任务分解和工作流执行,旨在实现“一句话输入到完整交付物”的目标,大幅提升开发与交付效率。

(2) 硬件自主性

GLM-5完全在华为昇腾芯片上训练,并采用MindSpore框架,实现了对美国制造半导体硬件的完全独立。同时,该模型已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等主流国产芯片平台的深度推理适配与算子级优化,确保在国产算力集群上实现高吞吐、低延迟的稳定运行4

(3) 高效部署与可访问性

得益于复用DeepSeek架构,GLM-5可以直接受益于vLLM、SGLang等推理框架的优化,从而降低了部署门槛。模型提供了BF16、FP8和INT4等多种精度版本,以适应不同硬件环境的部署需求3。目前,GLM-5已通过GitHub、Hugging Face开源,并提供API服务(如chat.z.ai、OpenRouter),同时为新用户提供免费试用额度,极大地提升了可访问性。

(4) 实用应用场景

GLM-5在多个实用应用场景中展现出强大潜力,包括软件开发辅助(如自动化前后端代码生成、项目重构)、AI代理开发、技术文档生成(可直接转换为.docx、.pdf和.xlsx文件)、办公自动化和数据分析等。

(5) 市场定位

GLM-5旨在缩小与国际闭源模型(如GPT-5.2和Claude Opus 4.5)的差距,并在保持高性能的同时极致优化推理成本,提供高性价比的开源选择,为用户带来更为经济高效的解决方案。

4. 局限性与展望

(1) 当前局限

尽管GLM-5表现出色,但其首发版本在多模态能力方面有所欠缺。此外,模型输出有时可能较为冗长,速度中等(约52tokens/秒),在某些非推理版本中智能指数较低3。有评论指出,GLM-5更适合专业的程序员,而非编程基础薄弱的用户。

(2) 研发路径与行业影响

智谱AI选择开源集成技术,而非“闭源+自研”,反映了其务实的研发路径。这预示着AI行业将告别过去参数规模的“军备竞赛”,转而聚焦于推理效率的精细化运营,以提供更具成本效益和实用价值的AI解决方案。

模型能力与权威基准数据:数据说话,彰显卓越性能

智谱AI最新发布的GLM-5在模型能力上实现了显著飞跃,特别是在面向复杂系统工程与长程Agent任务的编程和智能体(Agent)能力方面,其表现已达到开源领域的领先水平(SOTA)5。通过一系列权威基准测试数据,GLM-5展现出强大的竞争力,甚至在某些关键指标上超越了顶尖的闭源模型。

编程能力卓越,超越Gemini 3 Pro,逼近Claude Opus 4.5

GLM-5在编程能力方面取得了开源模型的最高分数。例如,在业界主流的SWE-bench-Verified基准测试中,GLM-5达到了77.8%的优异成绩5。在Terminal Bench 2.0测试中,其得分高达56.2%5,这两项表现均超越了Google的Gemini 3 Pro5。智谱AI内部进行的Claude Code评估显示,GLM-5在前端、后端和长程任务等编程开发任务上的表现显著超越了上一代GLM-4.7,平均增幅超过20%,其使用体验已能逼近Anthropic的Claude Opus 4.55

智能体能力领跑开源赛道,商业运营表现接近Claude Opus 4.5

在智能体能力方面,GLM-5同样实现了开源领域的SOTA地位5。在多项重要评测基准中,GLM-5均取得了开源模型第一的佳绩,包括BrowseComp(75.9%)、MCP-Atlas(67.8%)和τ²-Bench(89.7%)5。特别是在模拟商业运营长时程任务的Vending Bench 2测试中,GLM-5获得了开源模型的最高分,其经营表现接近Claude Opus 4.5,进一步印证了其在复杂智能体任务上的强大实力5

长文本处理能力显著提升

GLM-5在长文本处理方面也取得了突破性进展,支持高达202K token的超长上下文窗口6,最大输出长度达到131072 token(128K token)3。结合DeepSeek稀疏注意力(DSA)机制,模型能够在保持长文本处理效果无损的同时,大幅降低部署成本并显著提升Token效率5

此外,GLM-5还引入了深度思考模式,通过启用thinking参数,模型能够在生成最终输出前进行内部逻辑推导和规划,这对于复杂的数学证明、逻辑谜题或多步骤策略规划等任务至关重要7

GLM-5 编程与智能体能力基准测试对比

综合来看,GLM-5旨在缩小与国际闭源模型(如GPT-5.2和Claude Opus 4.5)的差距5,并在保持高性能的同时,提供高性价比的开源选择。

与顶尖模型(如Claude Opus 4.5)的正面交锋:谁是新一代AI之王?

随着人工智能技术迭代加速,大语言模型(LLM)的竞争格局日趋白热化。由中国智谱AI推出的GLM-5与Anthropic的Claude Opus 4.5,作为各自阵营的旗舰产品,正展开一场能力与市场的全面对决。本节将深入剖析这两款模型在性能、功能、竞争优势及商业策略上的异同,旨在揭示当前AI模型格局的动态演变,并探讨谁更有潜力成为新一代AI之王。

1. 模型概览

1.1 GLM-5 (智谱AI)

GLM-5是智谱AI于2026年2月11日发布的第五代旗舰模型,专为复杂系统工程和长程智能体任务设计 。

在架构上,GLM-5采用混合专家(MoE)架构,总参数规模从GLM-4.5的355B扩展至744B,激活参数提升至40B 。预训练数据量增至28.5T 。该模型首次引入DeepSeek稀疏注意力机制(DSA),在保证长文本处理效果的同时,有效降低部署成本并提升Token利用效率 。值得注意的是,GLM-5完全基于华为昇腾芯片和MindSpore框架训练,实现了对美国制造硬件的零依赖,标志着中国在AI基础设施自主可控方面的重要突破 。

GLM-5作为开源模型发布,遵循MIT许可证,其权重可在HuggingFace和ModelScope上获取 。用户可通过chat.z.ai、Z.ai开放平台或OpenRouter访问,并兼容Claude Code用户通过GLM Coding Plan使用 。其核心能力聚焦于创意写作、编码、高级推理、智能体智能和长上下文处理,尤其在编码和智能体能力上达到开源领域的SOTA(State-of-the-Art)水平 。

1.2 Claude Opus 4.5 (Anthropic)

Claude Opus 4.5是Anthropic于2025年11月25日推出的最新AI模型,旨在成为在编码、智能体以及计算机操作方面表现领先的通用模型 。

该模型采用混合推理模型,并引入了独特的“思考模式”(thinking mode),使其能够在生成最终答案前进行内部推理和规划,从而提升任务处理的准确性 8。Claude Opus 4.5可通过Anthropic应用程序、API以及Google Cloud的Vertex AI等主流云平台开放使用 。

其核心能力包括在深度研究、演示文稿处理以及电子表格任务上的显著提升 。尤其在软件工程相关测试中表现卓越,并通过“Claude Code”工具链为开发者提供强大的集成能力,达到当前最先进水平 9。Anthropic强调Claude Opus 4.5是其迄今为止“对齐”程度最高的模型,推测其对齐水平在行业前沿模型中处于领先地位,并在防御提示注入攻击方面取得了实质性进展 。

2. 性能基准对比

GLM-5与Claude Opus 4.5在多项关键基准测试中展开激烈竞争,尤其在通用推理、软件工程和智能体任务上。

下表展示了GLM-5、Claude Opus 4.5以及其他顶尖模型在多个基准测试中的表现:

基准测试 GLM-5 Claude Opus 4.5 GPT-5.2 Gemini 3 Pro
Humanity's Last Exam (带工具) 50.4 43.4 45.8 45.5
SWE-bench Verified 77.8% 80.9% 76.2% 80.0%
SWE-bench Multilingual 73.3% 77.5% 65.0% 72.0%
Terminal-Bench 2.0 56.2% 59.3% 54.2% 54.0%
BrowseComp 75.9 (🥇) 67.8 59.2 65.8
MCP-Atlas 67.8 65.2 66.6 68.0
τ²-Bench 89.7 91.6 90.7 85.5
Vending Bench 2 $4,432.12 (🥇OS) $4,967.06 $5,478.16 $3,591.33
  • 通用推理能力: 在衡量人类级别通用推理能力的“Humanity's Last Exam (带工具)”中,GLM-5以50.4分领先Claude Opus 4.5的43.4分 。
  • 软件工程任务: 在“SWE-bench Verified”软件工程任务解决验证集中,Claude Opus 4.5以80.9%的成绩略高于GLM-5的77.8% 。在“SWE-bench Multilingual”多语言软件工程任务中,Claude Opus 4.5同样以77.5%的表现优于GLM-5的73.3% 。
  • 智能体任务: 在“Terminal-Bench 2.0”终端环境智能体任务中,Claude Opus 4.5以59.3%的成绩稍胜GLM-5的56.2% 。然而,在“BrowseComp”网页浏览与信息理解任务中,GLM-5以75.9分夺冠,显著领先Claude Opus 4.5的67.8分 。在“MCP-Atlas”大规模端到端工具调用中,GLM-5和Claude Opus 4.5的表现较为接近 。在“τ²-Bench”复杂场景下自动代理工具规划与执行中,Claude Opus 4.5的91.6分略高于GLM-5的89.7分 。
  • 长期运营能力: “Vending Bench 2”衡量长期运营能力,GLM-5在开源模型中排名第一 。

GLM-5与GLM-4.7内部评估对比 (CC-Bench-V2) 智谱AI的内部工程评估套件CC-Bench-V2显示,GLM-5相较于前代GLM-4.7有显著提升,并且已能与Claude Opus 4.5在多个指标上缩小差距,甚至有所超越 。

评估指标 GLM-5 Claude Opus 4.5
前端构建成功率 98.0% 93.0%
端到端正确性 74.8% 75.7%
后端端到端正确性 25.8% 26.9%
长周期大型仓库 65.6% 64.5%
多步骤任务 52.3% 61.6%

其他特定对比:

  • 人工智能分析智能指数(Intelligence Index): GLM-5在开源模型中得分50,成为新的开源领导者,相较GLM-4.7的42分有8点提升,主要归功于智能体性能和知识/幻觉方面的改进。在经济价值工作任务的代理基准测试GDPval-AA中,GLM-5的ELO分数达1412,在开源模型中排名第三,仅次于Claude Opus 4.6和GPT-5.2 (xhigh) 10
  • 幻觉率: GLM-5在AA-Omniscience指数上得分-1,相较GLM-4.7的-36有显著改善,幻觉率降低了56个百分点 10

3. 核心功能与能力对比

3.1 编程能力

  • GLM-5: 被智谱AI描述为从“随性编码(vibe coding)到智能体工程(agentic engineering)的飞跃” 。它在系统工程和全栈开发方面表现出色,特别是在CC-Bench-V2中的前端构建成功率高达98.0% 11。GLM-5能够以极少人工干预,自主完成Agentic长程规划与执行、后端重构、深度调试等复杂系统工程任务 12,并兼容Python、Java、C++等主流语言及Rust、Go等小众语言 13
  • Claude Opus 4.5: 被誉为“全球编码王座”的“编程之王”,在SWE-bench Verified上以80.9%的准确率位居世界第一 。其在真实世界的软件工程测试中,得分超过了历来所有人类候选人 。内部评估显示,Opus 4.5与Claude Code联动使用,平均生产效率暴增220% 14。即使面对模糊信息和复杂多系统漏洞,它也能权衡利弊并找出修复方法 14。通过Claude Code提供原生VS Code插件、优化的终端界面和Claude Agent SDK,支持更深度的代码辅助和自主开发 。

3.2 智能体能力

  • GLM-5: 构建了全新的“Slime”训练框架,支持更大规模模型架构与更复杂的强化学习任务,显著提升强化学习后训练流程效率 。它引入异步智能体强化学习算法,使模型具备从长程交互中持续学习的能力 12。其Agent Mode(Beta版)能自动分解任务、编排工具和执行工作流,以生成即用型结果 。在MCP-Atlas和BrowseComp等智能体基准测试中表现出色 11
  • Claude Opus 4.5: 通过其独特的“思考模式”在内部进行更彻底的推理,特别是在智能体工作流中,能够进行“思考-行动-思考-行动”的交错式思考,从而大幅降低幻觉与错误传递 8
Claude Opus 4.5 的“思考模式”示意图

该模型拥有强大的工具调用能力,如“Tool Search Tool”可按需发现工具以减少上下文消耗,以及“Programmatic Tool Calling”允许模型在代码执行环境中调用工具,进一步提高效率和降低Token使用 。它还能有效管理子智能体团队,构建复杂、协调良好的多智能体系统 。

3.3 推理与长上下文处理

  • GLM-5: 上下文窗口支持最高200K token,最大输出可达131K token,处于行业最高水平 。在“Humanity's Last Exam”等推理基准测试中取得领先成绩 。它具备深度思考模式,可用于复杂的数学证明、逻辑谜题或多步骤战略规划 15
  • Claude Opus 4.5: 上下文窗口支持200K输入token和64K输出token 16。其“思考模式”是核心优势,允许模型在生成响应前进行内部推理,提升复杂任务处理的准确性 8。通过effort参数,开发者可以在速度、成本与能力之间进行调节,在中等投入度下,可大幅减少Token使用量 。

3.4 多模态能力

  • GLM-5: GLM-5家族包括专门的变体,如GLM-Image(高保真图像生成)和GLM-4.6V/4.5V(高级多模态推理,结合视觉和语言理解) 。它能够处理文本、图像,并可能扩展到视频输入 17
  • Claude Opus 4.5: 支持文本、代码、图片、文档作为输入模态 16。在视觉、推理与数学方面也取得了显著进步 。

4. 竞争优势与独特卖点

4.1 GLM-5 的竞争优势

  • 开源与成本效益: GLM-5的开放权重和MIT许可证使其对开发者社区极具吸引力 。第三方API定价远低于Claude Opus 4.5的官方定价,例如Novita AI上每百万输入/输出Token分别为$1/$3.2,甚至有报道称比Claude Opus 4.6便宜46倍 。这使得GLM-5成为高性价比的选择,尤其对于需要大规模推理的应用程序 18
  • 国产自主与硬件独立性: GLM-5完全在华为昇腾芯片上训练,采用MindSpore框架,体现了中国在AI领域实现硬件自给自足的能力,具有重要的地缘战略意义 。这使得GLM-5在面临国际技术限制时,能够提供一个独立可靠的AI算力栈 11
  • Agentic Engineering与前端能力: 在前端构建成功率上表现优异(CC-Bench-V2,98.0%),且通过“Slime”训练框架在智能体能力上实现突破,擅长Agentic Engineering 。
  • 用户体验: 即使在早期用户测试中,GLM-5在处理复杂任务时也能提供比上一代GLM-4.7更强的体感 19

4.2 Claude Opus 4.5 的竞争优势

  • 顶尖编程精度与人类级表现: 在SWE-bench Verified基准上稳居世界第一,并在人类软件工程测试中超越所有人类候选者 。其代码编写质量和解决复杂漏洞的能力备受赞誉 14
  • 深度推理与“思考模式”: 独特的“思考模式”使其在处理复杂、模糊的任务(如科学研究、新型架构设计)时表现卓越,能够进行有效的自我校正和规划 8
  • 企业级成熟度与生态系统: 围绕Claude Code构建的工具链(如VS Code插件、Agent SDK、Checkpoint功能)和API特性(如结构化输出、Tool Search Tool、Programmatic Tool Calling)使其在企业级研发场景中具有强大的生产力 。Anthropic致力于将其模型对齐高安全标准(ASL-3),并在减少误报率上做出了努力 20
  • 商业模式转型与定价调整: 尽管历史价格昂贵,但Opus 4.5发布时,其API定价有所下降,以吸引更多用户 。Anthropic也明确将战略重点转向企业市场,提供长期可靠的企业级服务 21
  • 地缘政治影响: 鉴于Anthropic对特定地区(如中国资本持有的公司)施加的服务限制,使得Claude Opus 4.5在某些市场可能面临接入挑战,但这同时也巩固了其在美国及其盟友中的战略地位 。

5. 接入与商业化

在API接入和商业化策略上,GLM-5和Claude Opus 4.5展现出截然不同的路径。

  • GLM-5: 智谱AI采取了开放共享的策略,其API服务可通过Novita AI、GMI Cloud等第三方提供商接入,定价相对较低,例如Novita AI每百万输入/输出Token分别为$1/$3.2 。智谱AI积极通过“Claude API用户特别搬家计划”吸引受Claude限制影响的用户,提供兼容协议和优惠资源,以降低国内企业和开发者使用顶尖AI编程能力的门槛 。
  • Claude Opus 4.5: 可通过Anthropic官网、API及主要云平台(如Google Cloud Vertex AI)访问 。其API定价为每百万输入Token$5,每百万输出Token$25,虽然较之前有所下降,但仍高于GLM-5的第三方定价 。Anthropic致力于将其服务推向全球企业市场 21。然而,出于法律、监管和安全风险考虑,Anthropic已停止向多数股权由中国资本持有的公司提供服务,这为GLM-5等国产模型提供了市场机遇 22

以下图表展示了主要大模型API的定价对比,直观反映了GLM-5在成本效益方面的优势:

API定价对比图

6. 结论与战略意义

GLM-5的推出清晰表明,中国AI模型在技术能力上正迅速追赶并挑战国际顶尖水平。在一些特定基准测试中(如BrowseComp、Humanity's Last Exam带工具),GLM-5已展现出超越Claude Opus 4.5的潜力 11。其开源、高性价比以及完全国产硬件支持的特点,使其成为中国乃至全球开源社区的重要力量,有力地挑战了西方在AI领域的传统主导地位,具有重要的地缘战略意义 。智谱AI通过“平替”和“搬家计划”的策略,积极应对国际竞争,为国内企业和开发者提供了顶尖AI编程能力的可及性 。

与此同时,Claude Opus 4.5凭借其卓越的编程精度、创新的“思考模式”以及成熟的企业级生态系统,继续巩固其在商业化和高复杂度任务解决方面的领先地位 。Anthropic在AI安全和合规性方面的投入,以及其战略性地转向企业市场,都体现了其在构建可持续商业模式上的努力 21。然而,其受地缘政治影响而实施的服务限制,也为GLM-5等其他模型进入特定市场提供了重要机遇,加速了全球AI格局的多元化 22

总体而言,GLM-5与Claude Opus 4.5的竞争不仅是技术能力的较量,更是商业模式、生态构建和地缘战略的深度博弈。GLM-5的崛起,预示着全球AI格局的多元化趋势,为开发者和企业提供了更广泛的选择,并加速了AI编程和智能体工程的普及。

References

0
0