한국어 TTS 비교 후기: EdgeTTS를 거쳐 Supertonic-2로 정착하기까지

들어가며

텔레그램에서 바로 보낼 한국어 음성메시지용 TTS가 필요했습니다. 조건은 비교적 분명했습니다. WSL에서 돌아가야 했고, 외장 GPU 없이도 실사용 가능해야 했으며, 무엇보다 한국어가 어색하지 않아야 했습니다. 단순히 음성이 생성되는 정도가 아니라, 실제로 계속 쓸 수 있을 정도의 품질이 필요했습니다.

처음에는 EdgeTTS로 시작했습니다. 붙이기 쉽고 결과도 빨리 나와서 시작점으로는 나쁘지않았습니다. 다만 쓰다 보니 욕심이 생겼습니다. “조금 더 자연스럽고, 조금 더 만족스러운 한국어 TTS가 없을까?”라는 생각이 들었고, 그다음으로 Kokoro를 직접 붙여봤습니다. 이후 여러 모델 데모를 더 비교해 본 끝에, 최종적으로는 Supertonic-2에 정착하게 됐습니다.

참고로 ElevenLabs도 꽤 궁금했습니다. 실제로 한 번 써보고 싶기도 했습니다. 다만 GPU가 없는 환경에서 직접 구축해서 계속 돌리는 쪽에 더 무게를 두고 있었기 때문에, 결과적으로는 그 방향 대신 로컬에 가까운 쪽으로 계속 비교하게 됐습니다. 그리고 결론적으로는 지금 정착한 조합에 매우 만족하고 있습니다.

이번에 비교할 때 중요하게 본 기준

이번에 TTS를 고를 때 제가 중요하게 본 기준은 아래 네 가지였습니다.

WSL에서 무리 없이 돌릴 수 있는가
GPU 없이도 실사용 가능한가
한국어가 외국어 억양처럼 들리지 않는가
텔레그램 음성메시지로 바로 쓰기에 충분한가

여기서 특히 중요했던 건 세 번째였습니다. 많은 TTS가 “한국어 지원”은 하지만, 실제로 들어보면 자연스러운 한국어와는 거리가 있는 경우가 생각보다 많았습니다. 문서를 보면 좋아 보이는데, 직접 들어보면 바로 탈락하는 경우가 적지 않았습니다.

1단계: EdgeTTS는 빠르게 시작하기에 좋았습니다

가장 먼저 사용한 것은 EdgeTTS였습니다. 이유는 단순했습니다. 바로 붙이기 쉽고, 결과를 빠르게 볼 수 있기 때문입니다. 한국어 문장을 읽히고, 파일로 뽑고, 음성메시지로 보내는 흐름을 확인하는 데는 정말 편했습니다.

2단계: Kokoro는 기대가 컸지만, 한국어 스피치는 아쉬웠습니다

Kokoro는 꽤 기대하고 붙였습니다. 모델 자체에 대한 평도 좋았고, 한 번 직접 비교해 볼 가치가 충분해 보였습니다. 그래서 실제로 WSL 환경에 설치하고, 문장을 넣어서 음성을 생성해 봤습니다.

그런데 여기서 느낀 점은 꽤 분명했습니다. 모델 평판과 실제 한국어 TTS 경험은 다를 수 있다는 점이었습니다.

문제는 단순히 품질이 낮다기보다, 한국어가 자연스러운 한국어처럼 들리지 않는다는 점이었습니다. 전체적으로는 외국인이 한국어를 따라 읽는 느낌이 강했습니다. 문장이 부드럽게 흘러가기보다, 한국어 음절을 외국어 화자가 조심스럽게 흉내 내는 듯한 인상이 있었습니다.

특히 일본어 계열 보이스는 더 그랬습니다. 거의 한본어에 가까운 느낌이었습니다. 조금 과장해서 말하면, “독도”라고 넣었을 때 “다케시마”라고 해도 이상하지 않을 것 같은 수준의 이질감이 있었습니다. 한국어 TTS를 기대하고 들었는데, 실제로는 한국어 발음을 흉내 내는 외국어 보이스에 가까웠습니다.

이 부분은 단순한 취향 문제라기보다, 제가 원하는 용도와 맞지 않는 문제였습니다. 저는 실험용 샘플이 아니라, 실제 텔레그램 음성메시지에 바로 붙일 수 있는 결과가 필요했기 때문입니다. 그 기준에서는 Kokoro를 기본 TTS로 정착시키기 어려웠습니다.

왜 Kokoro를 포기했는가

Kokoro를 제 기준에서 정리하면 이렇습니다.

장점: 기대하게 만드는 모델이고, 직접 써볼 가치는 충분했습니다
단점: 제가 원하는 “자연스러운 한국어 TTS”와는 거리가 있었습니다
결론: 비교 대상으로는 의미 있었지만, 기본 TTS로 정착하긴 어려웠습니다

즉, "모델이 나쁘다"기보다, 제가 필요한 한국어 음성메시지 용도에는 맞지 않았다 에 더 가까웠습니다.

그다음은 문서보다 데모를 더 많이 봤습니다

Kokoro에서 한 번 아쉬움을 느끼고 나니 기준이 더 분명해졌습니다. 그 뒤로는 모델 카드 설명이나 평판만 보기보다, 가능한 한 데모를 직접 들어보는 쪽으로 방향을 바꿨습니다. Hugging Face 쪽도 계속 참고했고, 설명이 좋아 보여도 실제 청감이 별로면 바로 제외했습니다.

이 과정에서 다시 확인한 건 단순했습니다.

"한국어 인식"이라고 적혀 있는 것과
"실제로 한국어가 자연스럽게 들리는 것"은 전혀 다르다는 점입니다

문서만 보면 괜찮아 보이는 모델도, 실제 샘플을 몇 개만 들어보면 금방 감이 옵니다. 특히 텔레그램처럼 짧은 음성메시지로 바로 들리는 환경에서는 어색한 억양이 더 잘 드러났습니다.

직접 써본 흐름 기준 비교

후보	접근 방식	장점	아쉬운 점
EdgeTTS	가장 먼저 실제 사용	붙이기 쉽고 빠르게 결과를 볼 수 있었습니다	예민하게 들으면 너무 음성합성 티가 많이나는거같았습니다.
Kokoro	직접 설치 후 한국어 음성 생성 테스트	기대하게 만드는 모델이었고 비교 가치는 충분했습니다	외국인이 한국어를 읽는 듯한 느낌이 강했고, 특히 일본어 계열 보이스는 "한본어"에 가까웠습니다
Supertonic-2	여러 데모 비교 후 실제 정착	한국어 청감이 가장 납득 가능했고 실사용 방향이 분명했습니다	처음부터 바로 도달한 후보는 아니었습니다
ElevenLabs	관심은 있었지만 이번 방향에서는 보류	품질 기대치가 높았습니다	당시에는 GPU 없는 환경에서 직접 구축해 운용하는 방향에 더 집중했습니다

최종적으로 Supertonic-2에 정착한 이유

여러 데모를 듣고 비교한 뒤, 결국 정착한 것은 Supertonic-2였습니다. 이 모델이 좋았던 이유는 단순히 “소리가 괜찮다” 수준이 아니었습니다.

한국어가 상대적으로 훨씬 자연스럽게 들렸습니다
WSL + GPU 없는 환경에서도 현실적인 선택지였습니다
텔레그램 음성메시지 용도로 붙였을 때 거슬림이 적었습니다

무엇보다 중요했던 건, 처음으로 “아, 이건 계속 써도 되겠다”는 느낌이 들었다는 점입니다. EdgeTTS는 편했고, 시작점으로도 좋았습니다. Kokoro는 기대를 안고 갔지만 실제 한국어 청감에서는 아쉬움이 컸습니다. 반면 Supertonic-2는 적어도 제가 원하는 사용처에서는 가장 균형이 좋았습니다.

그리고 지금 기준으로는 이 조합에 매우 만족하고 있습니다. 처음에는 단순히 TTS 하나를 붙이는 작업이라고 생각했는데, 막상 해보니 “어떤 모델이 실제 내 환경에서 가장 덜 어색한가”를 찾는 과정에 가까웠습니다. 그 기준에서 현재까지는 Supertonic-2가 가장 납득 가능한 답이었습니다.

이번 비교를 한 줄로 정리하면

EdgeTTS: 빠르게 시작하기 좋았고 실제로도 만족스러웠습니다
Kokoro: 기대는 컸지만, 제 기준의 한국어 TTS로는 외국어처럼 들렸습니다
Supertonic-2: 여러 데모를 비교해 본 끝에 가장 만족스럽게 정착한 선택지였습니다

이번 구축에서 얻은 결론

이번에 가장 크게 느낀 건, 한국어 TTS는 모델 평판보다 실제 청감이 훨씬 중요하다는 점입니다. “좋다고 들었다”는 말만 믿고 가기엔 실제 결과 차이가 꽤 컸습니다. 특히 한국어는 어색하면 바로 티가 납니다.

결국 이번 선택은 이렇게 정리할 수 있습니다.

빠르게 시작한 것은 EdgeTTS였습니다
더 나은 결과를 기대하고 Kokoro까지 갔습니다
하지만 실제 한국어 청감에서는 실망한 부분이 있었습니다
그 뒤 여러 데모를 더 비교해 본 끝에 Supertonic-2로 정착했습니다

지금 기준에서 제 결론은 명확합니다. WSL에서, GPU 없이, 한국어 음성메시지를 꾸준히 만들려면 결국 “제 귀에 가장 덜 어색한 모델”이 정답이었습니다. 그리고 현재 제 기준에서 그 답은 Supertonic-2입니다.

이제 여기에 더해서 합성된 음성을 따로 플레이버튼 누르지 않아도, 필요할때 "띵동" 하고 말해주는 시스템을 구축해볼 생각입니다.

긴글 읽어주셔서 감사합니다.

저작자표시 비영리 변경금지 (새창열림)

'Study > AI' 카테고리의 다른 글

Hermes Agent core 수정 없이 Supertonic2 TTS 붙이기 (0)	2026.04.24
insane-search-hermes를 공개했습니다 (0)	2026.04.22
Google AI Studio, 구독만으로 더 넓어진 실험 한도 (0)	2026.04.21
OpenClaw 에이전트로 민방위 인터넷 교육 이수 (0)	2026.04.15
OpenClaw 에서 Hermes 로 옮겨오기까지 (1)	2026.04.14

들어가며

이번에 비교할 때 중요하게 본 기준

1단계: EdgeTTS는 빠르게 시작하기에 좋았습니다

2단계: Kokoro는 기대가 컸지만, 한국어 스피치는 아쉬웠습니다

왜 Kokoro를 포기했는가

그다음은 문서보다 데모를 더 많이 봤습니다

직접 써본 흐름 기준 비교

최종적으로 Supertonic-2에 정착한 이유

이번 비교를 한 줄로 정리하면

이번 구축에서 얻은 결론

'Study > AI' 카테고리의 다른 글

티스토리툴바