最新资讯

2026 年 4 月 23 日，OpenAI 正式发布 GPT-5.5 系列。Terminal-Bench 2.0 得分 82.7% 业界第一，OSWorld-Verified 78.7%，SWE-bench Verified ~88.7%。GPT-5.5 Pro 支持并行测试时计算，FrontierMath Tier 4 达 39.6%。首次在旗舰模型中支持原生语音输入。

2026年4月23日

查看原文 →

Claude Anthropic 发布 Claude Opus 4.7：多文件代码推理新标杆

2026 年 4 月 16 日，Anthropic 发布 Claude Opus 4.7，SWE-bench Verified 87.6% 量产模型第一，SWE-bench Pro 64.3% 防污染基准第一。长文本事实性幻觉率仅 36%，远低于 GPT-5.5 的 86%。

2026年4月16日

查看原文 →

Kimi Kimi K2.6 发布：AA Intelligence Index 开源第一

月之暗面发布 Kimi K2.6，1.1T MoE 架构，Modified MIT 许可，在 AA Intelligence Index 开源模型中排名第一，编码与 Agent 稳定性出色。

2026年4月15日

查看原文 →

文心一言百度发布 ERNIE 6.0：C-Eval 96 分中文理解新高度

2026 年，百度推出 ERNIE 6.0，C-Eval 得分 96 分国产第一，依托百万级中文知识图谱和 120+ 领域专家库，在政企、金融、医疗等垂直领域保持领先。

2026年3月20日

查看原文 →

Gemini Gemini 3.1 Pro 在 Terminal-Bench 2.0 达 78.4%

配合 Forge Code harness，Gemini 3.1 Pro 在 Terminal-Bench 2.0 取得 78.4%，展现出色的 Agent 终端能力。

2026年3月15日

查看原文 →

Grok xAI 发布 Grok 4.20：多智能体辩论架构重新定义低幻觉

2026 年 3 月 9 日，xAI 发布 Grok 4.20 Multi-Agent Beta。首创 4-16 个 Agent 并行辩论架构，AA-Omniscience 78% 幻觉率业界最低。2M 上下文 + 267 tok/s，AIME 93.3%。

2026年3月9日

查看原文 →

ChatGPT GPT-5.2 数学推理 AIME 2025 满分

OpenAI 宣布 GPT-5.2 在 AIME 2025 数学竞赛中取得 100% 正确率，成为首个在该基准取得满分的模型。

2026年3月1日

查看原文 →

Gemini Google 发布 Gemini 3.1 Pro：GPQA Diamond 推理第一

2026 年 2 月 19 日，Google DeepMind 发布 Gemini 3.1 Pro，GPQA Diamond 94.3% 业界最高。1M token 生产级上下文窗口，$2/$12 per 1M token 美国最便宜旗舰。3 月 6 日起成为 API 默认版本。

2026年2月19日

查看原文 →

Mistral Large 3 Mistral AI 发布 Mistral Large 3：欧洲最强开源模型

法国 Mistral AI 发布 Mistral Large 3，675B/41B MoE，Apache 2.0 许可，256K 上下文 + 多模态支持，是非中国开源模型中的综合最强。

2026年2月10日

查看原文 →

豆包豆包深度整合飞书/抖音/剪映生态

字节跳动旗下豆包大模型全面接入飞书、抖音、剪映等产品线，打造办公协作+内容创作一站式 AI 体验。

2026年1月20日

查看原文 →

Llama 4 Meta 发布 Llama 4 Maverick：10M 上下文开源新纪录

Meta 推出 Llama 4 Maverick，400B MoE 架构，10M token 上下文窗口创开源模型新纪录，可处理整本书级别的内容。

2026年1月15日

查看原文 →