AI 行业动态汇总
智谱 AI 发布 GLM-5.1,754B MoE MIT 开源,200K 上下文 + 128K 最大输出,是业界单次输出最长的模型,面向长程 Agent 编程场景。
Anthropic 确认 Claude Mythos Preview 存在但仅限 Project Glasswing 约 50 家合作方使用。该模型 SWE-bench 达 93.9%,但因其能力过强(发现大量零日漏洞)而被限制发布。
2026 年 4 月,阿里云发布 Qwen 3.6 系列。Max 版 MMLU 92.3 国产第一全球第三,多项编码和 Agent 基准同时 #1。推出[截图写前端]和[智能 PPT Agent]两大杀手级功能。
2026 年 4 月 23-24 日,DeepSeek 连续发布 V4-Pro 和 V4-Flash。V4-Pro 1.6T/49B MoE,混合注意力架构 CSA+HCA,1M+ 上下文。V4-Flash 输出仅 $0.07/M token,是 GPT-5.5 的 1/400。
2026 年 4 月 23 日,OpenAI 正式发布 GPT-5.5 系列。Terminal-Bench 2.0 得分 82.7% 业界第一,OSWorld-Verified 78.7%,SWE-bench Verified ~88.7%。GPT-5.5 Pro 支持并行测试时计算,FrontierMath Tier 4 达 39.6%。首次在旗舰模型中支持原生语音输入。
2026 年 4 月 16 日,Anthropic 发布 Claude Opus 4.7,SWE-bench Verified 87.6% 量产模型第一,SWE-bench Pro 64.3% 防污染基准第一。长文本事实性幻觉率仅 36%,远低于 GPT-5.5 的 86%。
月之暗面发布 Kimi K2.6,1.1T MoE 架构,Modified MIT 许可,在 AA Intelligence Index 开源模型中排名第一,编码与 Agent 稳定性出色。
2026 年,百度推出 ERNIE 6.0,C-Eval 得分 96 分国产第一,依托百万级中文知识图谱和 120+ 领域专家库,在政企、金融、医疗等垂直领域保持领先。
配合 Forge Code harness,Gemini 3.1 Pro 在 Terminal-Bench 2.0 取得 78.4%,展现出色的 Agent 终端能力。
2026 年 3 月 9 日,xAI 发布 Grok 4.20 Multi-Agent Beta。首创 4-16 个 Agent 并行辩论架构,AA-Omniscience 78% 幻觉率业界最低。2M 上下文 + 267 tok/s,AIME 93.3%。
2026 年 2 月 19 日,Google DeepMind 发布 Gemini 3.1 Pro,GPQA Diamond 94.3% 业界最高。1M token 生产级上下文窗口,$2/$12 per 1M token 美国最便宜旗舰。3 月 6 日起成为 API 默认版本。
法国 Mistral AI 发布 Mistral Large 3,675B/41B MoE,Apache 2.0 许可,256K 上下文 + 多模态支持,是非中国开源模型中的综合最强。
Meta 推出 Llama 4 Maverick,400B MoE 架构,10M token 上下文窗口创开源模型新纪录,可处理整本书级别的内容。