Евгений Мамонтов
Был на сайте: 16.09.2024 13:04

Евгений Мамонтов mamss

Паспорт не верифицирован

Переводчик в реальном времени на TensorRT-LLM и Triton 

  • 7
  • Опубликовано: 2024-08-23
Реализовано ПО для перевода речи в реальном времени - с английского языка на русский и с русского языка на английский. Приложение разворачивается как на API сервисах, так и полностью на локальных GPU мощностях. В качестве транскрибатора используется Whisper, конвертированный в формат TensorRT и оптимизированный для параллельных вычислений. В качестве синтезатора используется XTTS v2. Обе нейронные сети разворачиваются на Triton-сервере. Использовать приложение можно на любом компьютере с помощью программ-клиентов. Задержка до получения переведённой синтезированной речи варьируется от 1.5 до 4 секунд.
Таким образом, в данном приложении используется самая быстрая транскрибация, которая существует на данный момент, а локальный синтезатор не многим уступает таким API-сервисам как elevelabs.

Прикрепленные файлы:

Комментариев нет
оставить комментарий могут только авторизованные пользователи
Другие работы автора:
Обнаружение возгорания и задымления на видеопотоке

Обнаружение возгорания и задымления на видеопотоке Реализован алгоритм распознавания дыма и пламени на видеоизображении. Алгоритм выполняет специализированную обработку видеопотока, после чего использует классический алгоритм машинного (SVM) обучения для формирования вывода о наличии пламени на видео…

Предсказание отсутствующих признаков в данных

Предсказание отсутствующих признаков в данных В реальной жизни мы часто сталкиваемся с тем, что в данных, которые у нас есть –есть пробелы, пропуски. Для того чтобы в дальнейшем использовать такие данные, необходимо сначала заполнить эти пропущенные признаки. Такая задача может решаться различны…

Оценка расположения руки человека

Оценка расположения руки человека Тот же проект из области медицины и схожая задача. На этот раз была развёрнута готовая модель распознавания руки и её ключевых точек на мини-компьютере Jetson Xavier NX. Произведена оптимизация модели при помощи фреймворка вычислительной оптимизаци…

Обнаружение квадрокоптера на видеопотоке

Обнаружение квадрокоптера на видеопотоке Задача решена дообучением модели детектирования объектов YOLOv7 под свой класс объектов (в данном случае один класс - квадрокоптеры). Модель YOLOv7 реализована на фреймворке PyTorch и развернута на мини-компьютере Jetson Xavier NX. Датасет был сфо…

Голосовой чат-бот c whisper, llama-3, xtts v2, tensorRT и triton

Голосовой чат-бот c whisper, llama-3, xtts v2, tensorRT и triton Голосовой чат-бот - это ассистент, обученных на ваших данных, который может общаться с пользователем голосом. Он может как обмениваться голосовыми сообщениями, так и общаться в реальном времени. Я сделал реализацию как на API-сервисах, так и полность…

Прототип робота для сбора яблок

Прототип робота для сбора яблок рототип выполнен в рамках гранта и является первой в России технологией, которая достигла скорости сборки 6 яблок в минуту, то есть 10 секунд на одно яблоко. В качестве Hardware использует Raspberry Pi 4 на OS Linux. Видеопоток обеспечивается кам…

АI Консультант для туристической компании

АI Консультант для туристической компании Данный AI ассистент занимается подбором туристических направлений для клиентов заказчик, выясняя у пользователя все детали поездки - когда и сколько человек хотелл бы отправится в отпуск, есть ли дети, какие страны интересует, какой бюджет и т. п. В…

Первые AI боты в Телеграм имитирующие живое общение.

Первые AI боты в Телеграм имитирующие живое общение. Программное обеспечение для общения юзер-ботов в Telegram группах под видом обычных пользователей. Такой инструмент по сути своей является средством рекламы и продвижения подобно сарафанному радио. Боты ведут диалог в чатах, отвечают реальным пользо…