Реализовано ПО для перевода речи в реальном времени - с английского языка на русский и с русского языка на английский. Приложение разворачивается как на API сервисах, так и полностью на локальных GPU мощностях. В качестве транскрибатора используется Whisper, конвертированный в формат TensorRT и оптимизированный для параллельных вычислений. В качестве синтезатора используется XTTS v2. Обе нейронные сети разворачиваются на Triton-сервере. Использовать приложение можно на любом компьютере с помощью программ-клиентов. Задержка до получения переведённой синтезированной речи варьируется от 1.5 до 4 секунд.
Таким образом, в данном приложении используется самая быстрая транскрибация, которая существует на данный момент, а локальный синтезатор не многим уступает таким API-сервисам как elevelabs.