Этот проект предоставляет инструменты для работы с синтезом речи (TTS) и распознаванием речи (STT) с помощью OpenAI API.
tts.py — преобразует текст в аудиофайл (Text-to-Speech)
stt.py — преобразует аудиофайл в текст (Speech-to-Text)
Использование:
Синтез речи (TTS)
python tts.py "Текст для озвучивания" output.mp3
Если текст не указан, программа спросит его интерактивно.
Параметры:
output.mp3 — имя выходного аудиофайла (по умолчанию speech.mp3)
--model — модель для синтеза (по умолчанию gpt-4o-mini-tts)
--voice — голос (по умолчанию nova)
Распознавание речи (STT)
python stt.py path/to/audio.mp3 output.txt
Если путь к аудиофайлу не указан, программа спросит его интерактивно.
Параметры:
output.txt — имя выходного текстового файла (по умолчанию transcription.txt)
--model — модель для распознавания (по умолчанию gpt-4o-mini-transcribe)