Ideogram 4.0 오픈 웨이트 공개: 24GB GPU에서 실행 가능한 것들 (2026)

Ideogram 4.0이 2026년 6월 3일에 출시되면서 패턴이 깨졌다. 이전의 모든 Ideogram 버전은 웹앱 뒤에만 존재했다. 이 버전은 가중치를 제공한다. Hugging Face에서 93억 개의 파라미터로 이루어진 모델을 다운로드해 RTX 4090 같은 24GB GPU 한 대에서 nf4 빌드를 실행할 수 있다. 미적으로는 최고의 모델이 아니다. DesignArena Elo 보드에서는 GPT Image 2가 약 1405로 앞서 있고 Ideogram 4.0은 약 1285에 위치한다. 하지만 텍스트와 타이포그래피? 오픈 모델 중에는 이에 가까운 것이 없다. 솔직한 분석이 여기 있다.

빠른 평가:
- Ideogram 4.0 (2026년 6월 3일)은 Ideogram의 첫 오픈 웨이트 모델: 24GB GPU에서 실행되는 93억 파라미터 DiT
- 텍스트와 타이포그래피에서 압도적으로 승리; 미적 Elo에서는 GPT Image 2에 뒤짐 (~1285 vs ~1405)
- 세 가지 사용 방법: 웹앱, 클라우드 API, 또는 nf4 체크포인트를 통한 로컬 자체 호스팅
- 여기서 "오픈 웨이트"는 오픈소스가 아님. 다운로드 라이선스는 비상업적. 배포하기 전에 확인할 것

Ideogram 4.0이란 무엇인가?

Ideogram 4.0은 2026년 6월 3일에 출시된 93억 파라미터 텍스트-이미지 모델이며, 직접 다운로드해서 실행할 수 있는 첫 번째 Ideogram이다. 0.1부터 3.0까지의 모든 이전 릴리스는 클라우드 전용이었다. 핵심 기능은 네이티브 2K 해상도에서의 최고 수준의 텍스트 렌더링으로, 포스터, 로고, 간판을 생성하는 디자이너, 개발자, 모두를 대상으로 한다.

그럼 실제로 내부에는 뭐가 있을까? 알아두면 좋을 몇 가지 스펙이 있다. 간단히 정리하면:

아키텍처: Diffusion Transformer (DiT). 쉽게 말해, 시각적 잡음에서 시작해 단계별로 프롬프트 쪽으로 정제해나가는 모델이며, 대규모 언어 모델을 구동하는 동일한 트랜스포머 수학을 사용한다. "93억"은 파라미터 개수인데, Flux 2의 약 32억과 비교하면 작다.
텍스트 인코더: Ideogram은 Qwen3-VL 비전-언어 인코더와 함께 사용되며, 이것이 글자가 깔끔하게 나오는 주요 이유다.
해상도: 네이티브 2K 출력, 업스케일링 트릭 필요 없음.
Magic Prompt: 생성 전에 짧은 프롬프트를 더 풍부한 것으로 자동 재작성하는 선택적 강화기. 캐주얼 사용자에게는 편리하지만 정확한 제어를 원하면 성가신다. 끌 수 있다.

진짜 이야기는 아키텍처가 아니다. Ideogram이 AI를 사용한 팀 구성 방식을 재편하고 있는 오픈 웨이트 모델 물결에 동참했다는 것이다. 올해 오픈 웨이트 LLM 릴리스를 따라왔다면 패턴을 이미 알 것이다: 강력한 독점 연구실이 다운로드 가능한 가중치를 게시하면, 갑자기 취미 개발자와 스타트업이 예전에 API 전용이었던 제품을 자체 호스팅할 수 있다. Ideogram 4.0은 처음으로 다운로드해서 자신의 하드웨어에서 실행할 수 있는 버전이다. Ideogram의 공식 기술 게시물에 따르면 가중치는 Hugging Face에 두 가지 양자화 버전으로 존재하고, 추론 코드는 GitHub에 있다.

정말 Ideogram 4.0을 실행할 수 있을까?

맞다. 세 가지 방법이 있다. 웹앱은 설정이 필요 없고 캐주얼 및 디자인 사용자에게 적합하다. 클라우드 API는 이미지 생성을 앱에 연결하려는 개발자용이다. 그리고 로컬 자체 호스팅은 새로운 것이다: Hugging Face에서 오픈 가중치를 다운로드하고, 24GB GPU에서 실행하고, 이미지당 비용을 지불하지 않는다. 하드웨어와 예산에 맞는 경로를 선택하자.

선택하는 방법은 다음과 같다:

ideogram.ai의 웹앱. 그냥 이미지를 원하고 GPU에 대해 생각하고 싶지 않으면 이것을 선택. 무료 티어가 있고, 유료 플랜은 볼륨과 속도를 추가.
클라우드 API. 이미지 생성을 제품에 연결하고 GPU를 소유하지 않고도 예측 가능한 이미지당 청구를 원하면 선택. 다음 섹션에 가격 책정이 있다.
로컬 자체 호스팅. 24GB 카드가 있고 이미지당 비용 없이 무제한 생성을 원하면 선택. 개인정보 보호를 신경 쓰거나 파인튜닝을 원한다면 이 경로도 선택.

로컬 경로의 경우, 지금 현실적인 경로는 ComfyUI인데, 이것이 대부분의 오픈 이미지 모델이 먼저 타겟하는 노드 기반 인터페이스다. 기본 흐름은 다음과 같다:

Hugging Face 모델 페이지 (ideogram-ai/ideogram-4-nf4)의 라이선스 게이트를 허용하고 체크포인트를 다운로드.
ComfyUI 모델 폴더에 드롭.
커뮤니티 Ideogram 4.0 워크플로우 로드 (이미 여러 개가 돌아다니고 있음).
생성.

한 가지 주의점: 2026년 6월 말 현재, fp8 체크포인트는 아직 Diffusers 라이브러리에서 지원되지 않으므로 fp8 사용자는 대부분 ComfyUI에서만 쓸 수 있다. nf4 빌드는 더 폭넓은 도구 지원을 받는다. 로컬 하드웨어를 완전히 건너뛰고 싶다면, 클라우드 GPU에 배포하고 분 단위로 VRAM을 임차할 수 있다. 이것은 4090을 사지 않고도 로컬에서 오픈 모델을 실행하는 데 사람들이 사용하는 동일한 트릭이다.

로컬에서 실행하려면 어떤 하드웨어와 VRAM이 필요한가?

24GB VRAM 카드 (RTX 4090 같은)의 nf4 체크포인트가 최적이다. 16GB는 오프로딩으로 돌아가지만 느린 타이트한 상황이다. 32GB 이상은 편하다. 더 높은 충실도의 fp8 빌드는 더 많이 필요하고, 현실적으로는 A100이나 H100이 필요하다. 명확히 하자면, 이것은 GPU VRAM이지 시스템 RAM이 아니다.

24GB 카드가 있으면 집에서 Ideogram 4.0을 실행할 수 있다. 그 이하면 쥐어짜고 있는 것이다.

Mac는 어떨까? 솔직한 답변: 아직 실용적인 Apple Silicon 로컬 경로는 없다. 공개된 도구는 CUDA를 가정한다. 즉, Nvidia라는 뜻이다. M 시리즈 Mac은 오늘 체크포인트를 사용 가능하게 실행할 수 없으므로 Mac 사용자는 웹앱이나 API를 고집해야 한다. 커뮤니티가 것들을 포트하면서 바뀔 수도 있지만, 2026년 6월에 이것을 자체 호스팅할 것으로 기대하며 Mac Studio를 사지 마라.

생성 속도는 정확한 GPU에 따라 크게 달라지므로 내가 숫자를 만들어내지는 않겠다. nf4 빌드를 테스트한 Reddit 사용자는 4090에서 2K 이미지가 수십 초 범위에서 나온다고 보고했지만, 이것을 실험실 벤치마크가 아닌 커뮤니티 수치로 취급하자. 프로덕션 계획을 위해 정확한 지연 시간이 필요하면 자신의 카드에서 시간을 측정하라. 중요한 결론은 다음과 같다: 소비자 24GB GPU는 정말로 충분하며, 이것은 이전 Ideogram에서는 결코 사실이 아니었다.

Ideogram 4.0 API 비용은 얼마인가?

Ideogram 4.0 API는 출력 이미지당 정액 요금을 청구하며, 세 가지 계층으로 나뉜다: Turbo는 약 $0.03, Default는 약 $0.06, Quality는 약 $0.10. 캐주얼 사용을 위한 무료 웹앱 티어도 있다. 이 수치는 2026년 6월 26일 현재 공식 가격 책정 페이지의 것이므로 대량 예산을 짜기 전에 라이브로 확인하자.

네 개의 이미지를 반환하는 요청은 이미지당 요금의 네 배 비용이 든다. 따라서 정말 의도했을 때만 일괄 생성을 해라. 수학은 간단하다: 한 달에 수천 개의 이미지를 생성한다면, 자신의 GPU에서 오픈 가중치를 자체 호스팅하는 것이 결국 비용 면에서 API를 이긴다. 한 달에 수백 개 미만이라면, API는 전기와 4090보다 저렴하다. Ideogram의 공식 API 가격 책정 페이지는 여기서 신뢰할 소스다. 출시주 블로그는 이미 오래된 수치를 인용하고 있다.

Ideogram 4.0은 정말 무엇을 잘하는가?

텍스트. 이게 한 단어 답변이다. Ideogram 4.0은 읽을 수 있는 맞춤법 다중 단어 텍스트를 어떤 오픈 모델보다, 그리고 대부분의 폐쇄형 모델보다 더 잘 렌더링한다. 또한 다국어 간판, 태그라인이 있는 로고, 구조화된 JSON 프롬프트를 통한 포스터 레이아웃, 깔끔한 2K 포토리얼 제품샷도 처리한다. 작업에 이미지 내 단어가 포함된다면 이것이 모델이다.

각 강점을 자세히 살펴보자:

텍스트와 타이포그래피. 이것이 특징이다. Ideogram은 기술 작성에서 밀집된 텍스트에서 대략 0.97 X-Omni OCR 정확도를 보고했으며, 이것은 독자가 올바르게 인식할 수 있는 렌더링된 문자의 점유율이다. 비교하자면, 독립적인 검토는 Midjourney의 다중 단어 텍스트에서 약 30%, Flux 변형에서 30~40% 범위를 측정했다. 이 격차는 거대하다.
다국어 텍스트. 라틴 문자는 깔끔하게 나오고, Reddit의 스페인어 테스터들은 구체적으로 악센트와 분음 부호 처리를 칭찬했다.
로고와 태그라인. 이름과 슬로건이 있는 브랜드 목업이 선명하게 렌더링되며, 이것이 디자인 팀이 이를 주목하는 이유다.
JSON을 통한 레이아웃 제어. 이것이 개발자 친화적인 부분이다. 각 요소가 어디로 갈지 말하는 경계상자가 있는 구조화된 프롬프트를 전달할 수 있다.

...

출처 바로가기