GPT-5.5 Pro 벤치마크: OpenAI가 공개한 수치들(그리고 공개하지 않은 것들)

OpenAI는 2026년 4월 23일에 GPT-5.5 Pro를 출시했으며, 가격은 입력 토큰 백만 개당 $30, 출력 토큰 백만 개당 $180입니다. 이는 기본 GPT-5.5의 $5/$30에서 6배 인상된 가격입니다. 이 가격대로는 BrowseComp에서 90.1%의 점수를 얻는 고성능 변형 모델을 받습니다. 하지만 헤드라인에는 안 나오는 부분이 있습니다: OpenAI 자체 평가 테이블에서 GPT-5.5 Pro의 코딩 행이 비어 있습니다. 컴퓨터 사용(computer-use)도 마찬가지입니다. 장문맥(long-context)도 마찬가지입니다. 따라서 모델의 SWE-Bench Pro 점수를 검색해도 찾을 것이 없습니다. 우리가 공개된 테이블을 수집해 각 수치를 직접 검증했습니다.

핵심 답변:

GPT-5.5 Pro는 새로운 모델이 아니라 GPT-5.5의 고성능 변형 모델(2026년 4월 23일 출시)입니다.
웹 검색(BrowseComp 90.1%)과 최첨단 수학에서 선두를 달리지만, OpenAI는 코딩, 컴퓨터 사용, 장문맥 행을 비워 두었습니다.
존재하는 코딩 행에서 기본 GPT-5.5는 Claude Fable 5(SWE-Bench Pro 58.6% vs 80.3%)보다 뒤처집니다.
Claude Fable 5는 현재 중단된 상태입니다(미국 수출 통제 지침, 약 2026년 6월 12일경). 따라서 그 우위는 "지금은 구매할 수 없음"이라는 주석이 붙습니다.

벤치마크 포스트에서는 속도보다 정확성이 더 중요하므로 방법론에 대한 간단한 설명을 덧붙입니다. 아래의 수치들은 OpenAI와 Anthropic의 공개 테이블, SWE-Bench Pro 논문(arXiv 2509.16941)과 교차 검증되었습니다. 한 공급업체만 수치를 보고한 경우에는 명시합니다. OpenAI가 Pro 점수를 발표하지 않은 경우에는 기본 수치를 조용히 대체하지 않고 "미공개"라고 기재합니다.

GPT-5.5 Pro 벤치마크: OpenAI가 실제로 공개한 것

GPT-5.5 Pro의 공개된 벤치마크는 좁은 범위를 다룹니다: 웹 검색, 최첨단 수학, 전문 지식 작업, 유전학 및 광범위한 추론입니다. OpenAI는 모든 평가를 연구 환경에서 추론 수준(reasoning effort) xhigh로 실행했으며, 이는 프로덕션 ChatGPT 기본값과 다릅니다. 주요 수치는 BrowseComp 90.1%이며, 기본 GPT-5.5의 84.4%를 훨씬 상회합니다.

전체 테이블은 다음과 같으며, OpenAI가 각 테스트에 대해 별도의 Pro 점수를 발표했는지 여부를 나타내는 열을 포함합니다:

아래 블록을 주의 깊게 읽으세요. OpenAI는 웹 검색과 수학에 대해 GPT-5.5 Pro 점수를 발표했지만, 코딩, 컴퓨터 사용, 사이버 보안 및 장문맥 행을 비워 두었습니다. BrowseComp, FrontierMath, GDPval-base 수치는 보조 추적기(secondary tracker)에 대해 확인되었습니다. GDPval-Pro 82.3%, GeneBench 33.2%, Investment Banking 수치는 OpenAI가 보고했지만 독립적으로 검증되지 않았으므로 명시하지 않고 귀속시킵니다.

"Pro"의 실제 의미: 새 모델이 아닌 병렬 테스트 타임 컴퓨트

GPT-5.5 Pro는 다른 아키텍처가 아니라 훨씬 더 많은 추론 노력으로 실행되는 동일한 GPT-5.5 모델입니다. 새 엔진이라기보다는 답변 전에 더 길고 병렬로 실행되는 동일한 엔진으로 생각하면 됩니다. OpenAI는 이를 추론 수준(reasoning effort)이라 부르며, Pro는 최상위 단계인 xhigh로 설정합니다.

GPT-5.5 Pro는 GPT-5.5와 다른 모델인가요?

아닙니다. 동일한 가중치, 동일한 학습입니다. gpt 5.5 pro vs gpt 5.5 thinking이나 vs xhigh를 검색하는 사람들은 실제로는 한 가지를 묻고 있습니다: 모델이 답변하기 전에 얼마나 열심히 생각하는가 하는 것입니다. "병렬 테스트 타임 컴퓨트"는 모델이 여러 추론 경로를 동시에 탐색한 후 최선의 것을 선택한다는 의미이며, 이는 더 많은 토큰과 벽시계 시간이 소비됩니다. 그 추가 컴퓨트가 6배 가격의 원인입니다.

다른 사양은 공유됩니다. GPT-5.5 Pro는 약 1.1M 토큰의 입력 컨텍스트 윈도우와 128K의 출력을 가집니다. 따라서 더 큰 메모리나 더 똑똑한 기본 모델을 사는 것이 아닙니다. 이미 알고 있는 모델에 더 많은 생각 시간을 사는 것입니다.

GPT-5.5 Pro vs GPT-5.5(표준): 6배 가격이 실제로 작동하는 곳

GPT-5.5 Pro는 가장 어려운 작업들에서 기본 GPT-5.5를 능가합니다: 웹 검색, 최첨단 수학, 유전학. 일상적인 작업에서는 최소한의 이점을 제공합니다. 가장 명확한 이득은 BrowseComp 90.1% vs 84.4%로, 심층 웹 조사에서 5.7포인트의 상승입니다. FrontierMath Tier 4에서는 35.4%에서 39.6%로 올라갑니다.

그러나 더 많은 컴퓨트가 항상 높은 점수를 의미하지는 않습니다. GDPval에서 OpenAI 테이블은 실제로 Pro가 기본 GPT-5.5보다 낮다고 기재합니다(OpenAI 주장 82.3% vs 확인된 기본값 84.9%). 이는 직관에 어긋나며, Pro가 일부 원점수를 교정 정확성으로 트레이드오프한 것으로 보고됩니다. 요점은 여전히 동일합니다: 더 많이 지불하는 것이 보장되지 않습니다.

Pro가 앞서가는 곳:
- BrowseComp: 90.1% vs 84.4% (+5.7)
- FrontierMath T4: 39.6% vs 35.4% (+4.2)
- GeneBench: 33.2% vs 25.0%(OpenAI 주장)
- HLE with tools: 57.2%(주장) vs 52.2%(확인된 기본값)

평탄하거나 더 나쁜 곳:
- GDPval: 82.3%(주장) vs 84.9% 기본값
- HLE no-tools: 43.1% vs 41.4%, 거의 움직임 없음

여러분의 작업이 주로 일상적인 초안 작성, 코드 리뷰 및 요약인 경우, 6배 프리미엄은 정당하기 어렵습니다. 수학 계산은 작업이 정말 어려울 때만 맞춰집니다. 비용이 문제라면, LLM API 비용을 절감하는 가이드에서 쉬운 80%는 더 저렴한 모델로 라우팅하고 어려운 20%만 Pro로 예약하는 방법을 다룹니다.

GPT-5.5 Pro vs Claude Fable 5

두 공급업체가 모두 보고한 코딩 벤치마크에서 Claude Fable 5는 기본 GPT-5.5를 결정적으로 능가합니다. 그러나 Fable 5는 현재 중단되어 있어서 그 승리는 주석이 붙습니다. 그리고 OpenAI가 GPT-5.5 Pro 코딩 점수를 전혀 발표하지 않았기 때문에 비교는 보기보다 더 복잡합니다. 따라서 정직한 대조는 실제로 코딩에서 Fable 5 vs 기본 GPT-5.5이며, Pro는 없습니다.

3방향 테이블은 다음과 같습니다. Fable 5 수치는 Anthropic의 공개 테이블에 귀속됩니다. 빈 Pro 셀은 정확히 그렇습니다:

해당 테이블에는 두 가지 주의사항이 있습니다. 첫째, Terminal-Bench: 기본 GPT-5.5는 v2.0에서 82.7%, v2.1에서 83.4%를 기재하는 반면, Fable의 88.0%는 v2.1입니다. 차이를 선언하기 전에 동일한 버전을 읽고 있는지 확인하세요. 둘째, GDPval-AA는 백분율이 아닙니다. Elo 스타일 점수(Fable은 1932, 기본 GPT-5.5는 1769)이며, 완전히 다른 스케일이므로 백분율 행과 정신적으로 정렬하지 마세요. HLE no-tools Fable 수치도 출처에 따라 흔들립니다: CodingFleet은 56.8%를 나열하는 반면 다른 요약에서는 59.0%를 말하므로 범위를 보고합니다.

SWE-Bench Pro는 에이전트 코딩의 고정점 벤치마크입니다. 41개의 활성 저장소에 걸쳐 1,865개의 문제를 실행합니다(arXiv 2509.16941에 따름), 시니어 엔지니어가 몇 시간 또는 몇 일이 걸리고 다중 파일 패치가 필요한 작업들입니다. 해당 테스트에서 Fable 5의 80.3%와 기본 GPT-5.5의 58.6%는 큰 차이입니다.

이제 주석입니다. Claude Fable 5는 미국 수출 통제 지침에 따라 2026년 6월에 중단되었습니다(약 6월 12일경). 따라서 "Fable이 코딩에서 승리"는 수치상으로는 참이지만 현재 결제 시점에서는 무의미합니다. Anthropic 측의 더 깊은 그림을 원한다면, Claude Fable 5 전체 분석을 참조하세요. 수학에 대해 모델 GPT-5.5의 테이블 벤치마크를 비교하려면, Claude Opus 4.8을 참조하세요.

OpenAI가 Pro에 대해 발표하지 않은 벤치마크

OpenAI는 GPT-5.5 Pro에 대해 코딩(SWE-Bench Pro), 컴퓨터 사용(OSWorld-Verified), 사이버 보안, 장문맥 회상 또는 추상적 추론에 대한 점수를 발표하지 않았습니다. 공식 테이블에서 이 행들은 비어 있습니다. 비어 있다는 것이 모델이 그 분야에서 나쁘다는 것을 의미하지 않습니다. 발표된 수치가 없다는 의미이며, 누군가 그것을 인용한다면 추측하거나 기본 점수를 실수로 인용하는 것입니다.

이것이 중요한 이유는 가장 많이 검색되는 격차이기 때문입니다. GPT-5.5 Pro의 SWE-Bench Pro 점수를 검색했다면, 없습니다. OpenAI가 절대 발표하지 않았습니다. GPT-5.5 제품군에 해당 벤치마크에 대해 존재하는 유일한 수치는 기본 모델의 58.6%이며, 이는 Pro 수치가 아니라 기본 수치입니다. 우리는 의도적으로 그렇게 표시하고 있습니다.

우리가 책임감 있게 말할 수 있는 것:

코딩(SWE-Bench Pro): Pro 미공개. 기본 GPT-5.5 = 58.6%(기본, Pro 아님).
컴퓨터 사용(OSWorld-Verified): Pro 미공개. 기본 = 78.7%(기본, Pro 아님).
사이버 보안: Pro 미공개, 테이블에 사용 가능한 기본 대리 없음.
장문맥: Pro 미공개, 사용 가능한 기본 대리 없음.
추상적 추론: Pro 미공개.

Pro의 병렬 컴퓨트가 이 기본 수치를 올릴 수 있을까요? 웹 검색과 수학의 패턴을 고려하면 아마도 그럴 겁니다. 그러나 "아마도"는 벤치마크가 아니며, 우리는 이를 인용하지 않을 것입니다.

출처 바로가기