Neural Text-to-Speech

Checking…

Qwen3-TTS and Kokoro voices on MLX or CUDA backends. Streaming audio with Preston-Blair visemes.

Real-time factor—

Cache hit—

Voices37

Realtime

Streaming WebSocket synthesis with Preston-Blair visemes.

High-quality single-shot synthesis with LUFS normalization.

Up to 32 items per request — server-bounded parallelism.