Задача клиента
Клиент — B2B-компания, работающая с металлическими деталями. Ежедневно сотрудники совершают десятки звонков: регистрация лидов, подтверждение заказов, контроль выполнения задач. Ручной аудит звонков отнимал до 20 часов в неделю — менеджеры прослушивали записи, сверяли с CRM, выявляли пропущенные или некачественные диалоги. Требовалось полностью автоматизировать процесс контроля.
Цель проекта
Создать ИИ-агента (MVP), который:
подключается к телефонной линии через SIP-протокол;
принимает входящие и инициирует исходящие звонки;
в реальном времени распознаёт речь, анализирует диалог на предмет выполнения регламента (регистрация, подтверждение, решение вопроса);
автоматически фиксирует результат в CRM и Google Sheet.
Ключевые требования заказчика
Точность распознавания намерений — не менее 85%.
Задержка обработки — не более 5 секунд.
Полная замена ручного аудита без участия человека.
Я выбрал MVP-подход с фокусом на быстрый запуск работающего прототипа на проверенном технологическом стеке: baresip (SIP-клиент), Yandex SpeechKit (распознавание и синтез речи), openclaw (оркестратор сессий и интеграция с LLM).
1. Архитектура
baresip — лёгкий модульный SIP-клиент. Настроил его в headless-режиме с автоответом (auto answer) для приёма звонков без участия человека. Через модуль python_sip_client передал аудиопоток в обработчик на Python.
Yandex SpeechKit — подключил по REST API:
ASR (распознавание) — потоковый режим, модель для телефонных переговоров (ru-RU).
TTS (синтез) — стандартный голос с регулировкой темпа для естественных подсказок оператору.
openclaw — оркестратор, который соединил каналы связи с LLM. Он управляет сессиями, маршрутизирует транскрипты в языковую модель и возвращает решение.
2. Разработка сценариев контроля
Написал промпты для LLM, анализирующие транскрипт по трём критериям:
была ли регистрация (название компании, контактное лицо);
выполнены ли обещанные действия («перезвонить через час», «выслать КП»);
достигнута ли цель звонка (договорённость, подтверждение, отказ).
Настроил отправку результатов в CRM клиента через REST API (webhook).
3. MVP-функционал
Пассивный режим — прослушивание всех звонков, анализ, запись метрик в дашборд.
Активный режим — при отсутствии регистрации в первые 30 секунд ИИ-агент через TTS Yandex SpeechKit вставляет голосовую подсказку оператору.
Дашборд — логи звонков, оценка LLM, аудио-фрагменты проблемных диалогов.
4. Тестирование
Провёл 200+ тестовых звонков с разными акцентами, уровнем шума и длительностью. Добился:
точности распознавания намерений — 88% (выше плана);
задержки обработки — не более 2 секунд.
MVP запущен за 3 недели с полным соблюдением требований заказчика.
Снижение трудозатрат на контроль звонков на 90% (с 20 часов до 2 часов в неделю).
Количество неотслеженных звонков сократилось до 0 — каждый диалог теперь фиксируется и анализируется автоматически.
Время реакции на пропущенные регистрации сократилось с часов до секунд благодаря активным подсказкам ИИ-агента.
Заказчик инициировал второй этап — интеграцию с CRM Bitrix24 и добавление прогнозирования результатов звонков на основе истории диалогов.
Итог: компания перестала терять лиды из-за человеческого фактора и получила масштабируемое решение для 50+ одновременных линий без увеличения штата.