
지난주 RTX 4090에 k2-fsa에서 제공하는 OmniVoice v0.1.5를 설치했습니다. 영어 음성 6초 클립을 입력하고 같은 음성으로 문단을 세 가지 언어로 읽도록 요청했습니다. 콜드 스타트(모델 로드 포함)는 약 14초가 걸렸습니다. 그 다음 따뜻한 실행은? RTF 약 0.03, 즉 약 30배 실시간 속도입니다. 이 리뷰의 핵심: 네, 이 오픈소스 프로젝트는 특정 유형의 사용자를 위한 진정한 오픈소스 ElevenLabs 대체제입니다. 하지만 모두에게 완성도 높은 클라우드 API를 대체하지는 못합니다. 누가 누구인지 자세히 살펴보겠습니다.
주요 요점:
- OmniVoice는 k2-fsa에서 개발한 무료 Apache-2.0 라이센스 TTS로, 600+ 언어를 지원하며 제로샷 음성 복제가 가능합니다.
- 우리의 테스트에서 RTX 4090에서 RTF ~0.03을 달성했습니다. 약 8GB의 VRAM이면 충분하게 실행됩니다.
- 언어 지원(646개 대 약 32개), 비용($0 대 $5–$330/월), 개인정보 보호에서는 ElevenLabs를 능가하지만, 완성도나 실시간 스트리밍에서는 뒤떨어집니다.
- 더빙, 온프레미스 작업, 저자원 언어에 가장 적합합니다. 300ms 이하 응답 시간이 필요한 대화형 에이전트에는 부적합합니다.
OmniVoice란 무엇인가 (그리고 왜 중요한가)?
OmniVoice는 Kaldi와 k2 뒤의 음성 연구팀 k2-fsa가 개발한 오픈소스 Apache-2.0 텍스트-투-스피치 모델입니다. 0.6B 파라미터의 확산 언어 모델 스타일 TTS로, 로컬에서 실행되며 600+ 언어를 지원하고 제로샷 음성 복제가 가능합니다. 중요한 이유는 처음으로 완전히 무료인 로컬 모델이 유료 클라우드 서비스에 충분히 가까워져서 트레이드오프가 이론적이 아닌 현실적이기 때문입니다.
리포지토리(github.com/k2-fsa/OmniVoice)는 약 7.1k 스타를 보유하고 있으며, 최신 릴리스는 2026년 4월 28일의 v0.1.5입니다. 내부적으로는 Qwen3-0.6B-Base에서 파인튜닝되었으며 24kHz 오디오를 출력합니다. 최고의 AI 음성 도구 모음을 읽었다면, OmniVoice를 그 스펙트럼의 자체 호스팅 끝으로 생각하세요. 데이터가 서버를 떠날 수 없을 때 선택하는 옵션입니다.
k2-fsa의 혈통은 대부분의 리뷰가 건너뛰는 부분입니다. 이것은 익명의 계정에서 만든 주말 프로젝트가 아닙니다. 10년 이상 오픈소스 음성 인식을 형성해온 같은 계보이며, 이것이 초기 단계에서 품질이 여기까지 올 수 있었던 큰 이유입니다.
OmniVoice의 주요 기능
OmniVoice는 유료 플랫폼에서 기대하는 기능 세트를 한 번만 다운로드하는 모델에 담았습니다. HuggingFace 모델 카드에서 가져온 주요 수치는 다음과 같습니다: 646개 언어, 약 3초 참조 클립에서의 제로샷 복제, RTF 0.025만큼 낮은 수치로 약 40배 실시간 속도입니다.
실제로 제공되는 기능:
- 짧은 클립에서 음성 복제, 제로샷, 음성별 훈련 불필요
- 속성별 음성 설계: 성별, 나이, 음역, 방언 또는 악센트, 심지어 속삭이는 모드
- 비언어 기호와 까다로운 이름의 발음 교정으로 세밀한 제어
- 세 가지 인터페이스: Gradio 웹 UI(omnivoice-demo), 세 가지 생성 모드의 Python API, CLI(omnivoice-infer)
- 속도: 배치 RTF 0.022, 약 1.3초에 약 60초 오디오 생성
품질 측면에서 OmniVoice는 다국어 테스트에서 ElevenLabs의 0.655에 대해 0.830의 화자 유사성(SIM-o) 점수를 보고하며, Seed-TTS 중국어 세트에서 단지 0.84%의 단어 오류율을 기록하여 해당 벤치마크에서 ElevenLabs v2와 MiniMax를 능가합니다. HuggingFace에서 월간 약 2.5M 다운로드로 많은 사람들이 이러한 주장을 검증하고 있습니다.
OmniVoice를 실행했을 때 본 결과
우리는 리포지토리 주장이 아닌 실제 수치를 원했으므로 직접 테스트했습니다. 2026년 6월 RTX 4090(24GB)에서 pip install omnivoice를 실행하고, 깨끗한 6초 영어 참조 녹음을 가져온 후, 같은 단일 참조에서 영어, 터키어, 아랍어로 60초 문단을 생성했습니다.
콜드 스타트는 첫 모델 로드를 포함하여 약 14초가 걸렸습니다. 그 후 따뜻한 배치 실행은 RTF 0.03 주변에서 안정화되어, 우리 시스템에서 약 30배 실시간 속도로, 리포지토리의 0.025 주장보다 약간 느리지만 가깝고, 배치 더빙 작업에 충분히 빠릅니다. VRAM 사용량은 24GB 카드에서 제공하는 것보다 편안하게 낮았으며, 모델 카드의 약 8GB 권장사항이 실제로 적용되었습니다.
품질 측면에서 영어와 터키어는 깨끗하고 자연스럽게 나왔으며, 복제된 음색은 6초 샘플에서 명확하게 인식 가능했습니다. 아랍어는 짧은 문장에서는 견고했지만 긴 문장에서는 프로소디가 약간 평평해졌습니다. 이해는 가능하지만 표현력이 떨어집니다. 주목할 가치가 있는 한 가지: 최고의 복제 충실도를 위해 ref_text(참조 클립의 전사)를 전달하는 것이 좋습니다. 이를 건너뛰면 음성 매칭이 벗어납니다. 전사와 함께 시도했을 때 유사성이 눈에 띄게 증가했습니다.
이는 거친 부분에 충분히 인식하면서도 OmniVoice가 다국어 파이프라인에 대해 진지하게 고려할 가치가 있다는 것을 보여주는 결과입니다.
OmniVoice vs ElevenLabs: 얼마나 다른가?
OmniVoice와 ElevenLabs는 같은 문제를 반대쪽 끝에서 해결합니다. ElevenLabs는 거대한 사전 설정된 음성 라이브러리와 낮은 스트리밍 지연시간을 갖춘 완성도 높은 클라우드 API입니다. OmniVoice는 20배의 언어 커버리지와 제로 문자별 비용의 무료 로컬 모델입니다. 올바른 선택은 제어 및 개인정보 보호를 중시하는지, 아니면 편의성과 완성도를 중시하는지에 따라 달라집니다.
AI 음성 에이전트를 위한 음성 스택의 비용을 책정하려면 이 표는 빠르게 수학을 변경하며, 특히 ElevenLabs의 문자별 청구가 누적되는 규모에서 더욱 그렇습니다(음성 에이전트 가격 책정 가이드에서 이를 분석했습니다). 솔직한 평결: ElevenLabs는 더 일관되고 쉽습니다. OmniVoice는 더 저렴하고, 더 개인정보 보호 친화적이며, 훨씬 더 다국어입니다.
OmniVoice는 다른 오픈소스 TTS 모델과 어떻게 비교되는가?
OmniVoice는 유일한 오픈소스 경쟁자가 아니며 모든 범주에서 우승하지 못합니다. 월등히 가장 넓은 언어 커버리지를 가지고 있지만, Chatterbox는 맹검 영어 테스트에서 우수하고, Fish Audio는 독립적인 EmergentTTS-Eval 리더보드에서 1위이며, 음성 복제가 필요 없다면 Kokoro가 더 빠릅니다. 객관적인 비교는 다음과 같습니다.
대부분은 fp16에서 4–8GB VRAM으로 실행되므로, 하드웨어는 결정 요인이 아닙니다. 사용 사례가 결정 요인입니다. 우리는 최고의 AI 음성 도구 모음에서 실행 목록을 계속 업데이트합니다.
실제로 OmniVoice를 언제 사용해야 하는가?
OmniVoice는 언어 범위, 비용 또는 데이터 제어가 완성도 높은 클라우드 API의 필요성을 능가하는 곳에서 빛을 발합니다. 실시간 대화 엔진이 아니라 배치 작업용이므로, 미리 오디오를 생성하거나 자신의 하드웨어에서 작업을 실행하는 작업에 맞춰 사용하세요.
- 하나의 참조 음성에서 수십 개 언어로의 비디오 더빙, 문자별 가격이 큰 부담이 되는 AI 비디오 더빙 워크플로우
- 다국어 IVR 및 음성 에이전트 TTS: 식당 음성 에이전트나 콜센터 음성 에이전트를 대체하는 시스템의 음성 계층
- 지연시간보다 RTF가 더 중요한 긴 배치 실행의 오디오북
- 클라우드 공급업체가 지원하지 않는 언어의 접근성 및 스크린리더 내레이션
- ElevenLabs가 지원하지 않는 저자원 언어
- 오디오가 제3자 서버에 접근할 수 없는 온프레미스 및 HIPAA 민감 작업
마지막 항목이 조용한 킬러 기능입니다. 의료 또는 법률 클라이언트의 경우 "오디오가 우리 머신을 떠나지 않는다"는 것은 선택 사항이 아니라, 클라우드 TTS가 제외되는 핵심 이유입니다.
OmniVoice의 장점과 단점 (적합하지 않은 사항 포함)
OmniVoice는 그 별점을 벌었지만, 모든 팀을 위한 ElevenLabs의 드롭인 대체제는 아닙니다. 장점은 자유도와 범위에 대한 것이고, 단점은 완성도, 지연시간, 자신의 모델을 실행하는 운영상의 부담에 대한 것입니다.
장점:
- Apache-2.0 하에서 무료, 문자별 청구 없음, 상한선 없음
- 주요 클라우드 공급업체가 지원하지 않는 언어를 포함한 646개 언어
- 완전히 로컬에서 실행, 데이터는 그대로 유지
- 3초 클립에서 강력한 다국어 복제 품질(SIM-o 0.830)
- 빠른 배치 처리량(우리 테스트에서 RTF ~0.03)
단점, 솔직한 한계:
- 300ms 이하의 대화형 실시간 턴 테이킹을 위해 설계되지 않음
- ElevenLabs와 같은 상위 상용 음성보다 덜 완성도 높고 일관성 없음
- 관리되는 지원이나 SLA 없음, GitHub 이슈에 의존
- GPU 필요(약 8GB VRAM), CPU는 약 3배 느림
- ElevenLabs 카탈로그보다 더 작은 사전 제작된 음성 라이브러리
...