Claude Fable 5 vs Opus 4.8: 정말 전환해야 할까? (신화급, 벤치마크 분석)

Anthropic이 2026년 6월 9일 Claude Fable 5를 공개했습니다. SWE-Bench Pro에서 80.3%를 기록했으며, Opus 4.8은 69.2%, GPT-5.5는 58.6%입니다. 이건 반올림 오차가 아닙니다. 흥미로운 점은 Fable 5가 새로운 '신화급' 모델의 공개·보안 버전이며, Claude Mythos 5라는 제한된 접근 프로그램으로 보호되는 대응 모델이 존재한다는 것입니다. 여기서는 변경 사항, 실제 작업 비용($10/$50 per million tokens), 그리고 스택을 Opus 4.8에서 옮겨야 할지 여부를 살펴봅시다.

빠른 답변

Fable 5는 SWE-Bench Pro에서 80.3%를 기록하고, Opus 4.8은 69.2%, GPT-5.5는 58.6%입니다.
가격은 백만 토큰당 입력 $10 / 출력 $50으로 Mythos Preview의 절반 이하입니다.
Fable 5는 고위험 사이버/생물/화학 쿼리에 대해 자동으로 Opus 4.8으로 폴백됩니다(세션의 5% 미만).
2026년 6월 22일까지 Pro/Max/Team/Enterprise 플랜에서 무료이며, 6월 23일부터 사용 크레딧이 적용됩니다.

실제 출시된 것: Fable 5, Mythos 5, '신화급' 라인

신화급은 Anthropic의 새로운 최상위 능력 계층이며, 두 가지 모델로 제공됩니다. Claude Fable 5는 오늘 호출할 수 있는 공개·보안 버전입니다. Claude Mythos 5는 동일한 최첨단 모델이지만 보안 조치가 제거되었으며, 제한된 접근 프로그램 뒤에 보관됩니다. 같은 핵심, 두 가지 공개 방식입니다.

분할이 바로 이 이야기의 핵심입니다. Anthropic의 뉴스룸 공지에 따르면, Mythos 5는 실제 피해를 입힐 수 있는 공격적 사이버 기술을 포함한 완전한 최첨단 기능을 유지하므로, Anthropic은 모든 사용자에게 공개하지 않습니다. Fable 5는 동일한 모델을 가져와 고위험 요청을 탐지하고 조용히 대신 Opus 4.8으로 라우팅하는 분류기로 감쌉니다.

따라서 Fable 5를 호출할 때, 위험하지 않은 모든 것에 대해 신화급 추론을 얻고, 위험한 작은 부분에 대해서는 더 안전한 폴백 모델을 얻습니다. CNBC는 이를 Anthropic이 "신화급 AI를 대중에게 공개하는 것"으로 표현했으며, 이는 정확하지만 정확한 메커니즘이 헤드라인보다 더 중요합니다.

Fable 5와 Mythos 5는 동일한 최첨단 모델을 둘로 나눈 것입니다: 하나는 오늘 사용할 수 있고, 다른 하나는 Anthropic이 제한된 접근으로 유지합니다. 이름 지정에 대해 기억할 한 가지가 있다면 바로 이것입니다. 신화급은 계층이고, Fable과 Mythos는 두 가지 접근 방식입니다.

Opus 4.x 라인 대비 변경 사항

Anthropic이 공개한 모든 코딩 및 추론 평가에서 Fable 5는 Opus 4.8을 크게 초과합니다. SWE-Bench Pro는 69.2%에서 80.3%로 상승합니다. FrontierCode Diamond는 13.4에서 29.3으로 상승합니다. 가격도 내려갔고, 모델은 새로운 추론 노력 다이얼로 확장됩니다. 이것은 Opus 4.x 라인에 대한 포인트 릴리스가 아니라 진정한 최첨단 단계입니다.

위의 13개 벤치마크 스윕이 한눈에 보기 버전입니다. 다음은 팀들이 실제로 비교하는 세 가지 모델에 대한 주요 부분입니다.

비교의 기준점은 Claude Opus 4.8로, Fable 5가 최첨단에서 대체하는 모델이자 Fable 5가 고위험 쿼리에서 폴백하는 동일한 모델입니다. 지난 두 릴리스에 걸쳐 Opus 4.x 라인을 추적했다면 패턴은 점진적 개선이었습니다. Fable 5는 그 패턴을 깹니다.

테이블을 곧이곧대로 읽기 전에 두 가지 플래그를 지적해야 합니다. 첫째, 이는 Anthropic 자체 공개 평가이지 독립적 테스트가 아닙니다. 둘째, 추론 노력 다이얼은 단일 벤치마크 숫자가 비용 곡선을 숨긴다는 의미입니다. 가격 책정 섹션에서 자세히 다룰 것이므로 계산을 바꿉니다.

빌더에게 중요한 벤치마크

네 가지 숫자가 실질적 무게를 지닙니다: SWE-Bench Pro 80.3%, FrontierCode Diamond 29.3, Terminal-Bench 2.1 88.0%, GPQA-AA 1932 Elo. 함께 실제 저장소 작업, 가장 어려운 합성 코딩 문제, 에이전트 셸 작업, 대학원 수준의 추론을 다룹니다. 워크로드가 이 중 하나라도 만지면, 이 섹션이 그 숫자가 당신의 업무에 매핑되는지 여부를 알려줍니다.

이 게시물 맨 위의 영웅 차트가 증거입니다: SWE-Bench Pro 80.3 vs 69.2 vs 58.6, FrontierCode 29.3 vs 13.4 vs 5.7. 이제 그것들이 실제로 무엇을 측정합니까?

SWE-Bench Pro는 모델이 실제 저장소에 실제 풀 요청을 제공할 수 있는지 테스트합니다: 복제, 이해, 패치, 테스트 통과. SWE-Bench Pro는 모델이 실제 저장소에 실제 풀 요청을 제공할 수 있는지를 측정하며, Fable 5는 10개 중 8개를 착지시킵니다. 이것이 "내 실제 작업을 할 수 있는가"에 가장 가깝습니다.
Terminal-Bench 2.1은 에이전트 셸 작업을 점수 매깁니다: 명령 실행, 출력 읽기, 오류 복구. 88.0%는 터미널에서 살아가는 AI 코딩 에이전트를 구축하는 경우 중요합니다.
FrontierCode Diamond는 가장 어려운 코딩 문제 계층이며, 대부분 모델이 한 자리 수로 점수를 매깁니다. 29.3은 절대 용어로는 낮지만 Opus 4.8의 13.4보다 2배 이상입니다.
GPQA-AA는 대학원 수준의 과학 추론이며, Elo 등급으로 점수 매깁니다. 1932는 코드를 넘어선 강한 다단계 추론을 신호합니다.

Opus 4.x 라인 전반의 Claude Code 워크플로우에서 반복되는 한계는 장기간 에이전트 작업이었습니다: 모델은 다중 파일 변경 중간에 실을 잃어버립니다. Fable 5의 Terminal-Bench 및 SWE-Bench Pro 숫자는 그 한계가 이동했음을 시사합니다. 당신의 저장소에 대해 그것이 이동했는지 여부는 유일한 테스트가 중요하지만, 공개된 숫자는 신경 쓸 올바른 종류의 숫자입니다.

실제 테스트 사례: Fable 5가 이전 모델이 할 수 없던 것

Anthropic은 Fable 5가 이제 처리할 수 있는 문제의 분류를 보여주는 세 가지 구체적 예시를 공개했습니다: 몇 개월에서 하루로 압축된 Stripe 코드베이스 마이그레이션, 비전만으로 완성된 비디오 게임, 자체 검증에서 3배 성능 향상. 각각은 이전 모델이 도달할 수 없는 능력을 가리킵니다. 셋 모두 Anthropic 소싱이므로 우리의 테스트가 아닌 그들의 공지를 인용하고 있습니다.

각각이 증명하는 것은 다음과 같습니다:

Stripe Ruby 마이그레이션. Anthropic은 Fable 5가 Ruby 코드베이스 마이그레이션을 약 2개월에서 약 하루로 압축했다고 보고합니다. Stripe는 Ruby 마이그레이션을 2개월에서 단 하루로 압축했으며, 이것이 이 모델이 바꾸는 문제의 크기입니다. 이것이 전체 코드베이스를 머릿속에 품어야 하는 인간 팀이 필요했던 장기간 리팩터의 분류입니다.
Pokémon FireRed 비전만으로. Anthropic에 따르면, Fable 5는 이전 모델이 게임 상태를 텍스트로 공급하기 위해 복잡한 커스텀 하네스가 필요했던 곳에서 Pokémon FireRed를 비전만 사용하여 완료했습니다. 이것은 공간 및 시각적 추론 도약입니다: 모델이 화면을 읽고 행동합니다, 스캐폴딩 없음.
Slay the Spire, 3배. 최대 추론 노력에서 Anthropic은 Fable 5가 자신의 이동을 자체 검증하고 지속적 메모리를 통해 3배 더 나은 성능에 도달했다고 말합니다. 요점은 게임이 아닙니다; 모델이 긴 계획 지평 위에서 자신의 작업을 확인하고 그로부터 개선할 수 있다는 것입니다.

이 중 어느 것도 당신의 워크로드에 대한 신앙으로 해야 할 것들입니다. 하지만 그들은 위 테이블의 벤치마크 점프에 깔끔하게 매핑됩니다: 장기간 코딩(SWE-Bench Pro), 공간 추론(비전), 자체 검증(추론 노력 다이얼). 정성적 승리와 정량적 승리가 동일한 이야기를 말합니다.

가격 책정 및 작업당 실제 비용

Fable 5는 백만 입력 토큰당 $10, 백만 출력 토큰당 $50입니다. Anthropic은 이를 "Claude Mythos Preview 가격의 절반 미만"으로 표현합니다. 또한 대략 Opus 4.8의 토큰당 2배입니다. 둘 다 맞습니다. 함정은 토큰 가격이 잘못된 단위라는 것입니다. 당신이 실제로 지불하는 것은 완성된 작업이며, 이것이 Fable 5의 수학이 흥미로워지는 부분입니다.

추론 노력은 요청당 설정하는 다이얼입니다. 낮은 노력은 더 적은 내부 추론 토큰과 더 저렴하고 빠른 답변을 의미하고, 최대 노력은 모델이 더 오래 생각하고 더 많은 출력 토�

출처 바로가기