Supertonic 3 업그레이드 후기 — 온디바이스 TTS 프록시를 v2에서 v3로 올리며
·
Study/AI
들어가며며칠 전 Supertonic 3가 릴리즈되었다는 소식을 들었다. Supertonic은 한국 스타트업 Supertone이 만든 온디바이스 TTS 엔진으로, ONNX Runtime 기반으로 로컬에서 구동되어 클라우드 의존성이 전혀 없다. 나는 이걸 OpenAI /v1/audio/speech 규격으로 감싸는 프록시(supertonic-openai-tts-proxy)를 만들어 Hermes Agent의 TTS 백엔드로 쓰고 있었는데, 이번에 v3로 업그레이드하면서 경험한 내용을 정리해본다.참고로 이 작업에는 Hermes Agent를 쓰고 있고, 백엔드 모델로 이번에는`deepseek/deepseek-v4-flash`를 사용했다. AI 에이전트한테 "Supertonic 3 나왔대, 비교해봐"부터 시작해서 모..
Hermes Agent core 수정 없이 Supertonic2 TTS 붙이기
·
Study/AI
Hermes에서 TTS 엔진을 조금 바꿔보고 싶어서 작은 프록시 서버를 만들었습니다.저장소는 여기입니다.https://github.com/sanguneo/supertonic-openai-tts-proxy GitHub - sanguneo/supertonic-openai-tts-proxy: OpenAI-compatible local TTS proxy for supertonicOpenAI-compatible local TTS proxy for supertonic. Contribute to sanguneo/supertonic-openai-tts-proxy development by creating an account on GitHub.github.com 이 프로젝트는 supertone-inc/supertonic..
insane-search-hermes를 공개했습니다
·
Study/AI
최근에 blocked-site retrieval 쪽을 조금 더 실전적으로 써보고 싶어서, insane-search-hermes라는 스킬을 따로 정리했습니다.원본은 fivetaku/insane-search이고, 저는 그 문제의식과 접근 방식을 Hermes 흐름에 맞게 다시 구성해봤습니다. 그냥 웹 검색이 안 되는 순간 포기하는 게 아니라, 어떤 경로로 한 번 더 뚫어볼지 순서를 잡아주는 쪽에 가깝습니다.어떤 걸 하려고 만든 스킬인가요?사이트가 막혔을 때 보통은 여기서 끝나는 경우가 많습니다.403WAFCAPTCHA빈 SPA로그인 벽이럴 때 web_extract 하나만 보고 끝내지 않고, 다음 순서로 다시 시도해보도록 정리했습니다.Jina Reader공개 JSON APIRSS / Atomcurl_cffi 기..
Google AI Studio, 구독만으로 더 넓어진 실험 한도
·
Study/AI
최근 Google이 AI Studio의 진입 장벽을 꽤 낮췄습니다.Google AI Studio의 사용 한도가 넓어졌습니다.Google AI Pro와 Ultra 구독자는 이제 AI Studio에서 더 높은 사용 한도를 받을 수 있고, Nano Banana Pro와 Gemini Pro 모델도 바로 활용할 수 있게 됐습니다.겉으로 보면 단순히 "쓸 수 있는 범위가 넓어졌다"는 정도로 보일 수 있습니다. 하지만 실제로는 아이디어를 더 자주, 더 오래 실험할 수 있게 해준다는 점에서 의미가 큽니다.예전에는 무료 한도를 넘기면 테스트 흐름이 쉽게 끊겼습니다. 조금 더 써보려는 순간 종량제 API 세팅으로 넘어가야 해서, 초반 탐색이 번거롭게 느껴질 때가 있었거든요.이번 변화는 그 중간을 더 자연스럽게 이어줍니다...
한국어 TTS 비교 후기: EdgeTTS를 거쳐 Supertonic-2로 정착하기까지
·
Study/AI
들어가며텔레그램에서 바로 보낼 한국어 음성메시지용 TTS가 필요했습니다. 조건은 비교적 분명했습니다. WSL에서 돌아가야 했고, 외장 GPU 없이도 실사용 가능해야 했으며, 무엇보다 한국어가 어색하지 않아야 했습니다. 단순히 음성이 생성되는 정도가 아니라, 실제로 계속 쓸 수 있을 정도의 품질이 필요했습니다.처음에는 EdgeTTS로 시작했습니다. 붙이기 쉽고 결과도 빨리 나와서 시작점으로는 나쁘지않았습니다. 다만 쓰다 보니 욕심이 생겼습니다. “조금 더 자연스럽고, 조금 더 만족스러운 한국어 TTS가 없을까?”라는 생각이 들었고, 그다음으로 Kokoro를 직접 붙여봤습니다. 이후 여러 모델 데모를 더 비교해 본 끝에, 최종적으로는 Supertonic-2에 정착하게 됐습니다.참고로 ElevenLabs도 꽤..