AI 이미지 생성기 4종 비교 — GPT vs Nano Banana vs MAI vs Grok (실사 인물 i2i 테스트)
·
Study/AI
프롬프트는 @reactor_art 님의 프롬프트를 변형해, i2i 인물 유지용으로 다듬어 사용했습니다. 좋은 출발점을 주신 데 감사드려요. 🙏🧪 테스트 방법조건은 최대한 공정하게 맞췄습니다.동일한 참조 사진 사용동일한 프롬프트(글 맨 아래 전문 첨부)를 4개 도구에 그대로 입력핵심 평가 기준은 두 가지 — ① 인물 동일성 유지, ② 분위기·무드 재현참고사진은 이렇게 두개입니다. 테스트한 도구는 아래 4종입니다.Google — Nano Banana Pro (Imagen 계열)Microsoft — MAI Image 2.5OpenAI — GPT Image Gen2xAI — Grok자, 그럼 하나씩 결과를 볼까요?1️⃣ Google — Nano Banana Pro가장 먼저 구글의 나노바나나 프로입니다.✅ 사..
Supertonic TTS 커스텀 프록시에서 공식 serve로 갈아탄 썰
·
Study/AI
로컬 TTS 서버를 운영한 지 꽤 됐다. Supertonic이라는 한국 회사(Supertone)가 만든 TTS 엔진을 FastAPI로 직접 감싸서 OpenAI 호환 /v1/audio/speech 엔드포인트로 만들어 쓰고 있었는데 — 예전에 썼던 Supertonic 3 업그레이드 후기 — 온디바이스 TTS 프록시를 v2에서 v3로 올리며 에서 다뤘던 그 프록시다 — v1.3.1부터 공식 serve CLI가 나오면서 모든 게 달라졌다. 원래 구조예전에는 이렇게 생겼었다:supertonic_openai_tts_proxy/├── main.py # FastAPI 앱, 엔드포인트 정의├── schemas.py # Pydantic 요청 모델├── synth.py # super..
Supertonic 3 업그레이드 후기 — 온디바이스 TTS 프록시를 v2에서 v3로 올리며
·
Study/AI
들어가며며칠 전 Supertonic 3가 릴리즈되었다는 소식을 들었다. Supertonic은 한국 스타트업 Supertone이 만든 온디바이스 TTS 엔진으로, ONNX Runtime 기반으로 로컬에서 구동되어 클라우드 의존성이 전혀 없다. 나는 이걸 OpenAI /v1/audio/speech 규격으로 감싸는 프록시(supertonic-openai-tts-proxy)를 만들어 Hermes Agent의 TTS 백엔드로 쓰고 있었는데, 이번에 v3로 업그레이드하면서 경험한 내용을 정리해본다.참고로 이 작업에는 Hermes Agent를 쓰고 있고, 백엔드 모델로 이번에는`deepseek/deepseek-v4-flash`를 사용했다. AI 에이전트한테 "Supertonic 3 나왔대, 비교해봐"부터 시작해서 모..
Hermes Agent core 수정 없이 Supertonic2 TTS 붙이기
·
Study/AI
Hermes에서 TTS 엔진을 조금 바꿔보고 싶어서 작은 프록시 서버를 만들었습니다.저장소는 여기입니다.https://github.com/sanguneo/supertonic-openai-tts-proxy GitHub - sanguneo/supertonic-openai-tts-proxy: OpenAI-compatible local TTS proxy for supertonicOpenAI-compatible local TTS proxy for supertonic. Contribute to sanguneo/supertonic-openai-tts-proxy development by creating an account on GitHub.github.com 이 프로젝트는 supertone-inc/supertonic..
insane-search-hermes를 공개했습니다
·
Study/AI
최근에 blocked-site retrieval 쪽을 조금 더 실전적으로 써보고 싶어서, insane-search-hermes라는 스킬을 따로 정리했습니다.원본은 fivetaku/insane-search이고, 저는 그 문제의식과 접근 방식을 Hermes 흐름에 맞게 다시 구성해봤습니다. 그냥 웹 검색이 안 되는 순간 포기하는 게 아니라, 어떤 경로로 한 번 더 뚫어볼지 순서를 잡아주는 쪽에 가깝습니다.어떤 걸 하려고 만든 스킬인가요?사이트가 막혔을 때 보통은 여기서 끝나는 경우가 많습니다.403WAFCAPTCHA빈 SPA로그인 벽이럴 때 web_extract 하나만 보고 끝내지 않고, 다음 순서로 다시 시도해보도록 정리했습니다.Jina Reader공개 JSON APIRSS / Atomcurl_cffi 기..