
Anthropic이 2026년 5월 28일 Claude Opus 4.8을 출시했습니다. 단 41일 전의 4.7 이후 가장 빠른 출시입니다. SWE-Bench Pro에서의 69.2%라는 대표 수치는 실제이지만, 함정이 있습니다. 하나의 벤치마크에서 명백히 지고 있습니다. 여기서 무엇이 바뀌었는지, 그리고 지금 바로 기본 모델을 변경할지 아니면 기다릴지 알아봅시다.
주요 내용:
- Claude Opus 4.8은 2026년 5월 28일 4.7 출시 후 41일만에 출시되었으며, Claude.ai, Claude Code, API에서 사용 가능합니다.
- Anthropic 벤치마크 7개 중 6개를 주도하지만 Terminal-Bench 2.1에서 GPT-5.5에 패배합니다(74.6% vs 78.2%).
- 가격은 토큰당 $5/$25로 변함없지만, 새로운 Fast Mode는 약 2.5배 빠른 속도로 $10/$50입니다.
오늘 출시된 것: 1분에 정리하는 Claude Opus 4.8
Claude Opus 4.8은 Anthropic의 최신 모델로, 2026년 5월 28일 출시되었으며 오늘부터 Claude.ai, Claude Code, API에서 사용 가능합니다. 모델 ID는 claude-opus-4-8이고, 1M 토큰 컨텍스트 버전은 claude-opus-4-8[1m]입니다. 표준 가격은 4.7과 동일하게 토큰당 $5/$25입니다. 간단한 결론: 코딩과 지식 작업에서 실질적인 개선을 이뤘으며, 한 가지 예외가 있습니다.
이는 부분 업그레이드이지, 바닥부터 다시 만든 것이 아닙니다. Claude Opus 4.7에서 오신 분이라면, 이미 알고 있는 대부분이 그대로입니다: API 형태, effort-control 개념, Claude Code 통합. 차이점은 벤치마크 상한선, 더 저렴한 Fast Mode, 그리고 코드베이스 규모 작업을 위한 새로운 연구 미리보기 기능입니다.
Opus 4.8은 4.7 출시 후 단 41일 만에 출시되었습니다. 이는 Anthropic이 출시한 가장 빠른 Opus 주기입니다. 1M 토큰 컨텍스트 버전은 claude-opus-4-8[1m]으로 존재하지만, 공개 Models-overview 문서 페이지에서는 아직 따라가고 있을 수 있습니다. Anthropic의 발표에 따르면, 이는 그들의 "가장 솔직한" 모델이라고 합니다. 이 주장은 나중에 다시 살펴보겠습니다.
Opus 4.8 vs 4.7에서 실제로 바뀐 점은?
4.7에서 4.8로 가장 큰 변화는 정렬(alignment), 도구 호출 효율성, 그리고 새로운 오케스트레이션 기능입니다. Anthropic은 Opus 4.8이 자신이 작성한 코드의 결함을 표시하지 않을 확률이 4.7보다 약 4배 낮으며, 에이전트 작업을 더 적은 단계로 완료하고, 대규모 마이그레이션을 위한 Dynamic Workflows를 도입한다고 말합니다. 가격과 핵심 API는 그대로입니다.
정직함과 정렬
그들의 발표에 따르면, Opus 4.8은 불확실성을 표시할 가능성이 더 높고, 지원되지 않는 주장을 피하며, 방금 작성한 코드의 문제를 지적합니다. Anthropic은 부정렬 행동 비율이 "Opus 4.7보다 실질적으로 낮다"고 말하며, Bridgewater의 증언을 인용하여 모델이 적극적으로 문제를 제기했다고 합니다. AI를 코드 결함 포착에 의존하는 누구에게나 이 "결함을 표시하지 않을 확률이 4배 낮다"는 수치는 주목할 만한 정보입니다. 자신의 풀 리퀘스트에서 테스트할 때까지는 벤더 주장으로 취급하세요.
Effort control과 Messages API 변경
이제 effort 레벨을 Claude.ai에서 직접 선택할 수 있으므로, 더 작은 모델로 전환하지 않고도 토큰 사용량과 깊이를 맞춤할 수 있습니다. 또한 작은 하지만 실질적인 개발자 경험 변화가 있습니다: Messages API는 이제 시스템 항목을 최상위 시스템 매개변수가 아닌 메시지 배열 내에 수용합니다. 에이전트를 구축한다면, 이는 대화 중 시스템 명령어를 더 깔끔하게 관리하게 해줍니다.
더 효율적인 도구 호출
Anthropic은 도구 호출을 "의미 있게 더 효율적이며, 같은 지능으로 더 적은 단계"로 설명하며, CursorBench에서 모든 effort 레벨에서 측정했습니다. 그들의 내부 Super-Agent 벤치마크에서, Opus 4.8이 GPT-5.5와 같은 비용으로 모든 경우를 end-to-end로 완료한 유일한 모델이었다고 합니다. 작업당 도구 호출이 적다는 것은 에이전트 빌더를 위한 직접적인 비용 요소이므로, 이는 들리는 것보다 더 중요합니다.
Opus 4.8 벤치마크: 이기는 곳 (그리고 지는 한 곳)
Opus 4.8은 SWE-Bench Pro (69.2%)와 GDPval-AA (1890 Elo)를 포함한 Anthropic 벤치마크 7개 중 6개를 주도합니다. 예외, 그리고 솔직히 인정해야 할 점은: GPT-5.5는 여전히 Terminal-Bench 2.1의 에이전트 터미널 코딩에서 이기고 있습니다. Opus 4.8의 74.6%에 비해 78.2%를 기록합니다. 따라서 당신의 작업이 터미널에서 이루어진다면, 전체적으로 가장 좋은 모델이 당신을 위한 최고의 모델은 아닙니다.

절댓값만 읽지 말고 변화를 읽으세요. SWE-Bench Pro는 +4.9포인트 상승했습니다(64.3에서 69.2로). 이것이 주요 코딩 개선입니다. Terminal-Bench 2.1은 +8.5포인트 상승했습니다(66.1에서 74.6으로). 이는 4.7에서 4.8로의 가장 큰 단일 도약입니다. 그럼에도 불구하고 GPT-5.5에 뒤떨어져 있습니다. GDPval-AA는 +137 Elo 상승했습니다(1753에서 1890으로). 이는 지식 작업에서의 큰 도약이며, GPT-5.5(1769)를 큰 폭으로 앞지릅니다. OSWorld-Verified는 단 +0.6만 이동했습니다(82.8에서 83.4로). 컴퓨터 사용은 이미 4.7에서 한계 근처에 있었으므로, 체감상 차이를 기대하지 마세요. Finance Agent v2는 +2.4포인트를 더했습니다.
결론은 명확합니다: Opus 4.8이 7개 벤치마크 중 6개를 이기고 있으며, 지는 한 곳인 에이전트 터미널 코딩도 GPT-5.5로 넘어갑니다. 이 수치는 Anthropic의 발표와 OfficeChai 벤치마크 종합 분석으로 검증되었습니다.
Fast Mode가 뭐고, 더 저렴한가요?
Fast Mode는 Opus 4.8을 약 2.5배 빠르게 실행하며, 토큰당 $10/$50입니다. Claude Code에서 /fast로 활성화됩니다. Anthropic은 이를 "이전 모델보다 3배 저렴하다"고 말합니다. 표준 가격은 토큰당 $5/$25로 4.7과 동일하게 유지됩니다. 핵심 포인트: Fast Mode는 전체 Opus 모델을 유지하며, 더 작은 모델로 다운그레이드하지 않습니다.
그럼 작업당 이것이 무엇을 의미할까요? 같은 모델 지능으로 약 2.5배의 속도를 얻기 위해 2배의 가격 프리미엄을 지불합니다. 출력을 기다리는 인터랙티브 Claude Code 세션의 경우, 이 트레이드는 종종 그 자체로 대가를 합니다. 벽 시계 시간이 중요하지 않은 장시간 배치 작업의 경우, 표준 가격이 더 저렴한 선택입니다.
API에 대한 더 광범위한 Fast Mode 접근은 당신의 계정 관리자나 대기 목록을 통해 출시됩니다. 이미 속도 제한에 걸려 있다면, Claude 사용 제한에 대한 우리 가이드에서 계층이 비용과 어떻게 상호 작용하는지 설명합니다. 하나의 솔직한 주의: "이전보다 3배 저렴하다"는 것은 Fast Mode 자체가 이전 Fast 계층에 비해 저렴해졌다는 의미이지, 표준 Opus 가격보다 저렴하다는 의미가 아닙니다. 저렴하지 않습니다.
Dynamic Workflows: 병렬 서브에이전트를 사용한 코드베이스 규모의 마이그레이션
Dynamic Workflows는 Enterprise, Team, Max 플랜의 연구 미리보기 기능으로, "에이전트 무리"인 단일 세션에서 수백 개의 병렬 서브에이전트를 조율합니다. Claude Code와 Opus 4.8과 결합하면, Anthropic은 수십만 줄에 걸친 코드베이스 규모의 마이그레이션을 시작부터 병합까지 최소한의 개입으로 실행할 수 있다고 말합니다.
Dynamic Workflows는 하나의 Claude Code 세션을 수백 개의 병렬 서브에이전트로 확산시켜 전체 코드베이스를 마이그레이션합니다. 프레임워크 업그레이드, 의존성 대규모 개선, 또는 일반적으로 엔지니어의 일주일을 소모하는 리포 규모 리팩터링을 생각해보세요. 이전에 병렬 코딩 에이전트로 작업한 경험이 있다면, 이것은 그 아이디어가 확대되고 당신이 아닌 모델로 오케스트레이션되는 것입니다.
두 가지 솔직한 주의가 있습니다. 첫째, 이는 연구 미리보기이므로 거친 부분을 예상하고 프로덕션 중요 마이그레이션을 검토 없이 진행하지 마세요. 둘째, 플랜 제한이 있으며, Enterprise, Team, Max 접근이 필요합니다. TechCrunch는 Dynamic Workflows를 경쟁 실험실의 압박에 대한 Anthropic의 대답으로 표현했으며, 이 관점이 타당합니다: 이것이 이번 출시의 헤드라인 개발자 기능입니다.
우리는 Claude Code에서 Opus 4.8을 실행했습니다: 우리가 측정한 것
우리는 콘텐츠 파이프라인 리포의 기본 모델을 claude-opus-4-7에서 claude-opus-4-8로 변경하고 매일 사용하는 같은 에이전트 작업을 다시 실행했습니다. 조기 실제 사용 후 솔직하게 말할 수 있는 것이 여기 있습니다. 우리가 하드한 이전/이후 수치를 가지지 않은 곳에서는 질적이며, 우리가 하는 곳에서는 구체적입니다.
...