Клиенту требовалась утилита, способная записывать речь с микрофона или принимать на вход готовый аудиофайл, после чего выполнять автоматическую транскрипцию с помощью нейросетевой модели. Цель проекта упростить процесс получения текста из аудио, например, для стенограмм, интервью, заметок или автоматической подготовки документов на основе голосовых комментариев. Ключевые требования: простота запуска, поддержка командной строки, стабильная работа и интеграция модели OpenAI Whisper.
Я разработал консольный Python-скрипт, который реализует два режима:
mic запись аудио с микрофона фиксированное время или до ручной остановки
file транскрипция заранее записанного файла.
Реализация включала:
Настройку записи с микрофона с помощью sounddevice и сохранение в WAV soundfile
Загрузку и предварительную обработку аудио через librosa,
Распознавание речи с помощью модели whisper (вариант base),
Автоматическое сохранение расшифровки в текстовый файл с датой и временем,
Обработку ошибок, поддержку аргументов командной строки (argparse) и создание выходной папки при первом запуске.
Скрипт работает на всех популярных ОС с Python и подходит как для ручного использования, так и для последующей интеграции в другие системы.
Результатом стала автономная консольная программа, которая позволяет пользователям быстро получать расшифровку речи без использования сторонних сервисов. Программа сохраняет как аудиозапись, так и текстовую транскрипцию, что удобно для дальнейшей обработки. Её уже применяют для оцифровки голосовых заметок, интервью и подготовки текстов на основе устной речи. Благодаря удобному интерфейсу и использованию открытых библиотек, решение легко развивать и масштабировать.