Claude Code 빠른 모드는 모델을 다운그레이드하지 않는다. 이것이 대부분의 사람들이 놓치는 핵심이다. /fast를 토글하면 정확히 동일한 Opus 4.8 가중치를 사용하여 출력 속도는 2.5배까지 빨라지고, 비용은 표준 $5/$25 대신 $10/$50(백만 토큰당)으로 청구된다. 더 작은 두뇌로 비용을 아끼는 것이 아니라, 속도를 위해 더 많은 비용을 낸다. Anthropic은 2026-05-28에 Opus 4.8 빠른 모드의 저렴한 요금(Opus 4.7에서는 $30/$150)을 출시했으며, Claude Code v2.1.36 이상에서 실행된다. 즉, 코드가 더 어리석어지는 것이 아니다. 단지 더 빨리 도착할 뿐이다.

핵심 요약

  • 빠른 모드는 더 작은 모델이 아닌 동일한 Claude Opus 모델을 2.5배 빠른 출력으로 실행한다.
  • Opus 4.8에서는 백만 토큰당 $10/$50(입력/출력)이다. 더 싼 가격이 아니라 더 많은 비용을 낸다.
  • Claude Code에서 /fast 명령으로 활성화할 수 있다(v2.1.36+ 필요하고 사용 크레딧 활성화 필요).
  • "fast mode disabled by your organization"는 관리자가 콘솔에서 활성화해야 함을 의미한다.

Claude Code 빠른 모드란?

Claude Code 빠른 모드는 동일한 Claude Opus 모델을 다른 API 구성으로 실행하여 초당 최대 2.5배 높은 출력 토큰을 제공하는 연구 미리보기 서빙 옵션이다. 모델이 어떻게 생각하는지가 아니라 얼마나 빠르게 쓰는지를 변경한다. /fast로 활성화하면 Claude Code가 자동으로 Opus로 전환된다.

빠른 모드가 켜져 있으면 터미널에서 ↯ 상태 아이콘을 보게 된다. 설정은 기본적으로 세션 간에 유지되므로, 한 번 토글하면 끌 때까지 계속 유지된다. 현재 상태를 확인하거나 토글하려면 언제든 /fast를 실행하면 된다. 주의점: CLI 기능이므로 VS Code 확장 프로그램은 아직 지원하지 않는다.

여기서 경쟁사가 빼먹는 정확한 세부사항이 있다. 빠른 모드는 출력 토큰/초(OTPS, 모델이 답변 스트리밍을 시작한 후의 속도)를 빠르게 한다. 첫 토큰까지의 시간(TTFT, 첫 단어가 나타나기 전의 일시 정지)을 단축하지는 않는다. 따라서 짧은 프롬프트는 훨씬 더 빨라 보이지 않겠지만, 긴 코드 생성은 그럴 것이다. 이 차이가 빠른 모드가 워크플로에 가치가 있는지를 결정하는데, 이에 대해서는 나중에 다룬다.

빠른 모드는 Opus에 머물게 한다. 실제로 다른 모델을 원한다면, 그것은 별개의 제어다. /model을 사용하여 Claude 모델 간 전환하는 가이드를 참고하자.

빠른 모드가 Claude를 더 멍청하게 만드나? (아니다, 이유는 여기)

아니다. 빠른 모드는 더 작거나 저렴한 모델을 사용하지 않으며 품질을 감소시키지도 않는다. Anthropic의 공식 Claude Code 문서에 따르면, "빠른 모드는 다른 모델이 아니다. 다른 API 구성을 사용하는 Claude Opus를 실행한다... 더 빠른 응답으로 동일한 품질과 기능을 얻는다." 동일한 가중치, 동일한 추론, 더 빠른 전달이다.

혼동은 노력 수준(effort level)이라는 형제 제어에서 비롯된다. 이것은 완전히 다른 제어다. 노력 수준을 낮추면 모델이 실제로 덜 생각하므로 품질이 떨어질 수 있다. 빠른 모드는 절대 추론에 손을 대지 않는다. 이것이 사람들이 빠지는 함정이다: "더 빠르다"는 것이 "더 싸고 나쁘다"는 뜻이라고 가정할 때, 빠른 모드는 실제로는 그 반대다: 동일한 두뇌, 더 높은 청구액이다.

다른 편집 가이드는 보여주지 않는 나란히 비교:

이들은 독립적이다. 빠른 모드와 낮은 노력 수준을 함께 실행하거나, 둘 중 하나만 실행할 수 있다. 그들은 다른 문제를 해결한다.

빠른 모드는 실제로 어떻게 작동하나?

빠른 모드는 서버 측 최적화다. Anthropic은 동일한 Opus 4.8 가중치를 처리량에 최적화된 서빙 구성으로 실행하므로, 출력 토큰이 대략 2.5배 빠르게 스트리밍되는 동안 첫 토큰까지의 시간은 거의 동일하게 유지된다. 비용은 표준 요금제 할당이 아니라 사용 크레딧에서 차감된다.

빠른 모드가 활성화된 동안 속도 제한에 도달하면, Claude Code는 자동으로 표준 속도로 폴백되고 회색 ↯를 짧은 냉각 시간과 함께 표시한 후, 제한이 해제되면 빠른 모드를 다시 활성화한다. 아무것도 할 필요가 없다; 자동으로 복구된다.

API 경로의 경우, 제어는 단일 필드다. 이는 platform.claude.com 빠른 모드 문서와 일치한다:

동일한 모델 문자열, 하나의 추가 필드. 이것이 전체 API 변경이다.

Claude Code에서 빠른 모드를 활성화하는 방법

빠른 모드를 활성화하려면: Claude Code v2.1.36 이상이 있는지 확인하고, 요금제에 대해 사용 크레딧이 켜져 있는지 확인하고, /fast를 실행하여 토글한 후, ↯ 지표가 활성화되어 있는지 확인하면 된다(회색이 아님). Claude Code는 빠른 모드를 활성화할 때 자동으로 Opus로 전환한다.

단계별:
- 버전을 확인하자. claude --version을 실행하고 v2.1.36 이상인지 확인하자. 더 오래된 CLI는 토글이 없다.
- 요금제 또는 조직에 사용 크레딧을 켜자. 빠른 모드는 크레딧에서 청구되므로 이것을 활성화해야 한다.
- Claude Code에서 /fast를 실행하여 켜자. 이는 자동으로 세션을 Opus로 전환한다.
- ↯ 지표가 활성화되어 있는지 확인하자(회색이 아님). 회색은 표준 속도에서 속도 제한 냉각 중임을 의미한다.
- 선택 사항, 팀의 경우: 빠른 모드가 항상 켜져 있지 않도록 세션당 옵트인을 활성화하자. 비용을 예측 가능하게 유지하려면 관리되는 설정에 다음을 추가하자:

끄려면 /fast를 다시 실행하거나, 환경 변수 CLAUDE_CODE_DISABLE_FAST_MODE=1을 설정하여 완전히 비활성화하자(CI에서 유용하거나 자동화된 실행에서 지출을 제한하는 데 편리함).

이와 같은 토글에 대해 더 많은 제어를 원한다면, Claude Code 슬래시 명령 가이드에서 플래그 패턴을 다루고 있으며, Claude Code 파워 유저 설정 가이드에서는 관리되는 설정을 깊이 있게 다룬다.

Opus 4.8에서 빠른 모드의 비용은?

Opus 4.8에서 빠른 모드는 백만 입력 토큰당 $10, 백만 출력 토큰당 $50이고, Opus 4.7의 이전 $30/$150 빠른 모드 요금보다 대략 3배 저렴하다. 표준 Opus 4.8은 $5/$25이므로, 빠른 모드는 표준 가격의 2배다. 일반 요금제 사용량이 아니라 사용 크레딧에서 청구된다.

모델별 내용은 다음과 같다:

몇 가지 청구 뉘앙스를 알 가치가 있다. 빠른 모드는 사용 크레딧에서 차감되므로, Max 요금제 사용자와 API 사용자는 다르게 경험한다: API에서는 빠른 속도로 토큰당 비용을 지불하는 반면, 구독에서는 속도 향상이 크레딧 할당량을 더 빠르게 소모한다. 대부분의 "그럴 가치가 있나" 글이 빼먹는 부분이다. 완전한 그림을 보려면, Opus 4.8 출시 세부사항과 Claude 사용 크레딧 작동 방식 분석을 참고하자.

신선도 포인트가 여기서 중요하다: 현재 순위를 매기는 모든 편집 가이드는 Opus 4.7의 $30/$150에 대해 작성되었다. 게시물이 여전히 그 숫자를 인용하면, 한 세대 뒤쳐진 것이다. VentureBeat의 2026-05-28 출시 커버리지는 새로운 $10/$50 요금을 확인한다.

왜 빠른 모드가 "Your Organization에서 비활성화"되나?

팀 및 엔터프라이즈 요금제에서 빠른 모드는 기본적으로 꺼져 있다. "fast mode has been disabled by your organization" 메시지는 거의 항상 관리자가 아직 활성화하지 않았음을 의미하며, 아무것도 깨진 것이 아니다. 해결책은 콘솔의 관리자 토글과 사용 크레딧이 켜져 있고, v2.1.36+이 필요하다.

이것이 가장 많이 검색되는 빠른 모드 문제이며, 자신의 GitHub 이슈(anthropics/claude-code #30891)가 있는데, 이는 사람들이 얼마나 자주 이것에 부딪히는지를 보여준다. 여기가 해결 표다:

그 목록을 차례대로 거쳐가면 거의 모든 경우에 오류가 해결된다.

빠른 모드가 실제로 어떤 느낌인지 (Opus 4.8에서 우리가 실행함)

Claude Code(v2.1.41)에서 Opus 4.8에 대해 6일간 일반 클라이언트 작업을 위해 /fast를 실행했다: 에이전트 구축, 리팩토링, 그리고 많은 편집/디버그 루프. 출력 처리량 점프는 실제였고 명백했다. 전에 기어가 걸리던 긴 생성은 이제 첫 문단을 읽는 동안 끝났다.

동일한 리포지토리의 반복된 600줄 모듈 리팩토링에서 측정한 내용은 다음과 같다(동일한 프롬프트, 각각 5번):

따라서 긴 출력에서 우리는 Anthropic이 인용하는 2.5배 상한선에 가까운 것을 봤다. 첫 토큰까지의 시간은 변하지 않았다. 첫 단어가 나타나기 전의 일시 정지는 정확히 문서화된 대로 동일하게 느껴졌다.

...

출처 바로가기