Евгений Мамонтов
Был на сайте: 16.09.2024 13:04

Евгений Мамонтов mamss

Паспорт не верифицирован

Голосовой чат-бот c whisper, llama-3, xtts v2, tensorRT и triton 

  • 4
  • Опубликовано: 2024-08-23
Голосовой чат-бот - это ассистент, обученных на ваших данных, который может общаться с пользователем голосом. Он может как обмениваться голосовыми сообщениями, так и общаться в реальном времени.
Я сделал реализацию как на API-сервисах, так и полностью на своём железе.
Если запускать на своих видеокартах, то использует самый быстрый способ ускорения нейронных сетей на CUDA - tensorRT и tensorRT-LLM, а для развертывания triton-сервер. Так, для транскрибации разворачивается whisper, а для ассистента используется llama-3 или mistral. Для того чтобы использовать данные пользователя, делается дообучение модели или ассистент строится на RAG-системе. Для синтеза использует лучший open source вариант - XTTS v2.
Таким образом, имеется возможность создавать быстрых и качественных голосовых ботов на своих локальных мощностях, то есть не оплачивая какие-либо сторонние сервисы.

Прикрепленные файлы:

Комментариев нет
оставить комментарий могут только авторизованные пользователи
Другие работы автора:
Прототип робота для сбора яблок

Прототип робота для сбора яблок рототип выполнен в рамках гранта и является первой в России технологией, которая достигла скорости сборки 6 яблок в минуту, то есть 10 секунд на одно яблоко. В качестве Hardware использует Raspberry Pi 4 на OS Linux. Видеопоток обеспечивается кам…

АI Консультант для туристической компании

АI Консультант для туристической компании Данный AI ассистент занимается подбором туристических направлений для клиентов заказчик, выясняя у пользователя все детали поездки - когда и сколько человек хотелл бы отправится в отпуск, есть ли дети, какие страны интересует, какой бюджет и т. п. В…

Оценка расположения руки человека

Оценка расположения руки человека Тот же проект из области медицины и схожая задача. На этот раз была развёрнута готовая модель распознавания руки и её ключевых точек на мини-компьютере Jetson Xavier NX. Произведена оптимизация модели при помощи фреймворка вычислительной оптимизаци…

SportImages (детекция и распознавание номеров спортсменах на спо

SportImages (детекция и распознавание номеров спортсменах на спо Проект, реализованный для компании ООО "СпортИмаджес" - предназначен для автоматической разметки номеров спортсменов на сотнях тысяч изображений, полученных со спортивных мероприятий. С помощью свёрточной нейронной сети детектируется места…

Обнаружение квадрокоптера на видеопотоке

Обнаружение квадрокоптера на видеопотоке Задача решена дообучением модели детектирования объектов YOLOv7 под свой класс объектов (в данном случае один класс - квадрокоптеры). Модель YOLOv7 реализована на фреймворке PyTorch и развернута на мини-компьютере Jetson Xavier NX. Датасет был сфо…

Умный Telegram-бот Gnom

Умный Telegram-бот Gnom Гном помощник - это серьёзный коммерческий проект с кучей нейронок и api-сервисов под капотом. Актуальный функционал: ✅ Решение математических примеров ✅ Создание презентаций ✅ Написание сочинений и перефразирование ✅ Написа…

Предсказание отсутствующих признаков в данных

Предсказание отсутствующих признаков в данных В реальной жизни мы часто сталкиваемся с тем, что в данных, которые у нас есть –есть пробелы, пропуски. Для того чтобы в дальнейшем использовать такие данные, необходимо сначала заполнить эти пропущенные признаки. Такая задача может решаться различны…

Переводчик в реальном времени на TensorRT-LLM и Triton

Переводчик в реальном времени на TensorRT-LLM и Triton Реализовано ПО для перевода речи в реальном времени - с английского языка на русский и с русского языка на английский. Приложение разворачивается как на API сервисах, так и полностью на локальных GPU мощностях. В качестве транскрибатора используется …