AI Hub
首页对比资讯

AI Hub © 2026 — AI 产品导航与对比平台

最新资讯

AI 行业动态汇总

GLM-5.1智谱发布 GLM-5.1:128K 最大输出业界最长

智谱 AI 发布 GLM-5.1,754B MoE MIT 开源,200K 上下文 + 128K 最大输出,是业界单次输出最长的模型,面向长程 Agent 编程场景。

2026年5月10日
查看原文 →
DeepSeek V4DeepSeek V4 开源冲击波:全球下载量一周破百万

DeepSeek V4 系列 MIT 开源一周内,模型权重全球下载量突破百万次,引发新一轮 AI 民主化讨论。

2026年5月5日
查看原文 →
ClaudeClaude Mythos 内部测试成绩曝光:SWE-bench 93.9%

Anthropic 确认 Claude Mythos Preview 存在但仅限 Project Glasswing 约 50 家合作方使用。该模型 SWE-bench 达 93.9%,但因其能力过强(发现大量零日漏洞)而被限制发布。

2026年5月1日
查看原文 →
通义千问Qwen 3.6-72B 开源,Apache 2.0 可商用

Qwen 3.6-72B 以 Apache 2.0 许可开源,全球下载量累计超 10 亿次,成为最受欢迎的开源中文大模型。

2026年4月28日
查看原文 →
通义千问阿里发布通义千问 Qwen 3.6:多项基准同时登顶

2026 年 4 月,阿里云发布 Qwen 3.6 系列。Max 版 MMLU 92.3 国产第一全球第三,多项编码和 Agent 基准同时 #1。推出[截图写前端]和[智能 PPT Agent]两大杀手级功能。

2026年4月25日
查看原文 →
DeepSeek V4DeepSeek 发布 V4 系列:MIT 开源,API 仅为 GPT 的 1/400

2026 年 4 月 23-24 日,DeepSeek 连续发布 V4-Pro 和 V4-Flash。V4-Pro 1.6T/49B MoE,混合注意力架构 CSA+HCA,1M+ 上下文。V4-Flash 输出仅 $0.07/M token,是 GPT-5.5 的 1/400。

2026年4月24日
查看原文 →
ChatGPTOpenAI 发布 GPT-5.5:Agent 终端自动化全面领先

2026 年 4 月 23 日,OpenAI 正式发布 GPT-5.5 系列。Terminal-Bench 2.0 得分 82.7% 业界第一,OSWorld-Verified 78.7%,SWE-bench Verified ~88.7%。GPT-5.5 Pro 支持并行测试时计算,FrontierMath Tier 4 达 39.6%。首次在旗舰模型中支持原生语音输入。

2026年4月23日
查看原文 →
ClaudeAnthropic 发布 Claude Opus 4.7:多文件代码推理新标杆

2026 年 4 月 16 日,Anthropic 发布 Claude Opus 4.7,SWE-bench Verified 87.6% 量产模型第一,SWE-bench Pro 64.3% 防污染基准第一。长文本事实性幻觉率仅 36%,远低于 GPT-5.5 的 86%。

2026年4月16日
查看原文 →
KimiKimi K2.6 发布:AA Intelligence Index 开源第一

月之暗面发布 Kimi K2.6,1.1T MoE 架构,Modified MIT 许可,在 AA Intelligence Index 开源模型中排名第一,编码与 Agent 稳定性出色。

2026年4月15日
查看原文 →
文心一言百度发布 ERNIE 6.0:C-Eval 96 分中文理解新高度

2026 年,百度推出 ERNIE 6.0,C-Eval 得分 96 分国产第一,依托百万级中文知识图谱和 120+ 领域专家库,在政企、金融、医疗等垂直领域保持领先。

2026年3月20日
查看原文 →
GeminiGemini 3.1 Pro 在 Terminal-Bench 2.0 达 78.4%

配合 Forge Code harness,Gemini 3.1 Pro 在 Terminal-Bench 2.0 取得 78.4%,展现出色的 Agent 终端能力。

2026年3月15日
查看原文 →
GrokxAI 发布 Grok 4.20:多智能体辩论架构重新定义低幻觉

2026 年 3 月 9 日,xAI 发布 Grok 4.20 Multi-Agent Beta。首创 4-16 个 Agent 并行辩论架构,AA-Omniscience 78% 幻觉率业界最低。2M 上下文 + 267 tok/s,AIME 93.3%。

2026年3月9日
查看原文 →
ChatGPTGPT-5.2 数学推理 AIME 2025 满分

OpenAI 宣布 GPT-5.2 在 AIME 2025 数学竞赛中取得 100% 正确率,成为首个在该基准取得满分的模型。

2026年3月1日
查看原文 →
GeminiGoogle 发布 Gemini 3.1 Pro:GPQA Diamond 推理第一

2026 年 2 月 19 日,Google DeepMind 发布 Gemini 3.1 Pro,GPQA Diamond 94.3% 业界最高。1M token 生产级上下文窗口,$2/$12 per 1M token 美国最便宜旗舰。3 月 6 日起成为 API 默认版本。

2026年2月19日
查看原文 →
Mistral Large 3Mistral AI 发布 Mistral Large 3:欧洲最强开源模型

法国 Mistral AI 发布 Mistral Large 3,675B/41B MoE,Apache 2.0 许可,256K 上下文 + 多模态支持,是非中国开源模型中的综合最强。

2026年2月10日
查看原文 →
豆包豆包深度整合飞书/抖音/剪映生态

字节跳动旗下豆包大模型全面接入飞书、抖音、剪映等产品线,打造办公协作+内容创作一站式 AI 体验。

2026年1月20日
查看原文 →
Llama 4Meta 发布 Llama 4 Maverick:10M 上下文开源新纪录

Meta 推出 Llama 4 Maverick,400B MoE 架构,10M token 上下文窗口创开源模型新纪录,可处理整本书级别的内容。

2026年1月15日
查看原文 →