ChatGPT

OpenAI

OpenAI 旗舰 AI 助手，GPT-5.5 支持 Agent 终端自动化与多模态推理

★★★★4.3 (4 评价)

对话代码图像语音

价格方案

免费版

免费

GPT-5.5 mini
有限次数
基础功能

Plus

$20/月

GPT-5.5
更高额度
DALL·E 绘图
优先体验

Pro

$200/月

GPT-5.5 Pro
并行测试时计算
最高优先
无限使用

API

$5/$30 per 1M token

输入/输出
函数调用
流式输出

ChatGPT 是 OpenAI 开发的大型语言模型对话产品，2026 年已迭代至 GPT-5.5 系列。

最新版本：GPT-5.5（2026 年 4 月）

GPT-5.5 在 Agent 终端自动化领域全面领先，Terminal-Bench 2.0 得分 82.7%，OSWorld-Verified 78.7%，SWE-bench Verified ~88.7%。

核心能力

Agent 自动化最强：终端操作、浏览器 Agent、函数调用生态最成熟
原生多模态：文本 + 视觉 + 语音输入（首款支持原生语音的旗舰模型）
GPT-5.5 Pro：支持并行测试时计算，FrontierMath Tier 4 达 39.6%
函数调用：业界最成熟的工具链和插件生态
AIME 2025：100%（数学推理满分）

适用场景

代码开发、OS 级自动化、Agent 工作流、数学推理、函数调用密集型应用

👍 优点

Agent 终端自动化业界第一
函数调用生态最成熟
原生语音+视觉多模态
数学推理 AIME 满分
OS 级操作能力最强

👎 缺点

长文本幻觉率较高（86%）
输出价格最贵（$30/M token）
敏感行业合规不如 Claude
免费版限制较多

模型详情

基础信息

品牌归属

OpenAI

核心性能

上下文窗口

128K token（标准），Pro 版支持更长

多模态支持

文本 · 图像理解 · 图像生成(DALL·E) · 原生语音输入

代码能力

SWE-bench Verified ~88.7%，Terminal-Bench 2.0 82.7% 业界第一

长文本处理

支持 128K 上下文，但长文本幻觉率较高（86%）

推理速度

Pro 版支持并行测试时计算，推理速度灵活可调

关键基准

◆AIME 2025: 100%（数学推理满分）
◆SWE-bench Verified: ~88.7%
◆Terminal-Bench 2.0: 82.7%
◆OSWorld-Verified: 78.7%
◆FrontierMath Tier 4: 39.6%（GPT-5.5 Pro）

优势与不足

优势

+Agent 终端自动化业界第一，可直接操作终端完成任务
+函数调用生态最成熟，工具链和插件生态最完善
+原生语音+视觉多模态，首款支持原生语音的旗舰模型
+数学推理 AIME 满分，复杂公式推导非常准确
+OS 级操作能力最强

不足

−长文本幻觉率较高（86%），事实准确性不如 Claude
−API 输出价格最贵（$30/M token）
−敏感行业合规不如 Claude
−免费版限制较多

适用场景

代码开发与 OS 级自动化Agent 工作流与函数调用密集型应用数学推理与科学计算多模态对话与图像生成

更新动态

2026年4月发布 GPT-5.5 系列，Terminal-Bench 2.0 得分 82.7% 业界第一。GPT-5.5 Pro 支持并行测试时计算，FrontierMath Tier 4 达 39.6%。首次在旗舰模型中支持原生语音输入。

更新动态

2026年4月23日

OpenAI 发布 GPT-5.5：Agent 终端自动化全面领先

2026年3月1日

GPT-5.2 数学推理 AIME 2025 满分

用户评价

暂无评价，成为第一个评价的人

核心能力

Agent 自动化最强：终端操作、浏览器 Agent、函数调用生态最成熟

原生多模态：文本 + 视觉 + 语音输入（首款支持原生语音的旗舰模型）

GPT-5.5 Pro：支持并行测试时计算，FrontierMath Tier 4 达 39.6%

函数调用：业界最成熟的工具链和插件生态

AIME 2025：100%（数学推理满分）

模型详情

基础信息

品牌归属

OpenAI

核心性能

上下文窗口

128K token（标准），Pro 版支持更长

多模态支持

文本 · 图像理解 · 图像生成(DALL·E) · 原生语音输入

代码能力

SWE-bench Verified ~88.7%，Terminal-Bench 2.0 82.7% 业界第一

长文本处理

支持 128K 上下文，但长文本幻觉率较高（86%）

推理速度

Pro 版支持并行测试时计算，推理速度灵活可调

关键基准

◆AIME 2025: 100%（数学推理满分）
◆SWE-bench Verified: ~88.7%
◆Terminal-Bench 2.0: 82.7%
◆OSWorld-Verified: 78.7%
◆FrontierMath Tier 4: 39.6%（GPT-5.5 Pro）

优势与不足

优势

+Agent 终端自动化业界第一，可直接操作终端完成任务
+函数调用生态最成熟，工具链和插件生态最完善
+原生语音+视觉多模态，首款支持原生语音的旗舰模型
+数学推理 AIME 满分，复杂公式推导非常准确
+OS 级操作能力最强

不足

−长文本幻觉率较高（86%），事实准确性不如 Claude
−API 输出价格最贵（$30/M token）
−敏感行业合规不如 Claude
−免费版限制较多

适用场景

代码开发与 OS 级自动化Agent 工作流与函数调用密集型应用数学推理与科学计算多模态对话与图像生成