Multi-Tool-Assistant. AI Telegram-bot. Генерация изображений, анализ фото, вопросы и ответы голосом, база знаний (RAG). OpenAI/OpenRouter (Gemini), TTS, Whisper-STT

Описание

✨ Возможности
🧠 Интеллектуальный диалог
GPT-4o для естественного общения
GPT-4o-mini для быстрых ответов
Контекстная память разговора
Поддержка различных режимов работы
🎨 Генерация изображений
Google Gemini 2.5 Flash Image для создания изображений
Автоматическое распознавание запросов на генерацию
Быстрая генерация через OpenRouter
🎤 Голосовые возможности
Whisper для распознавания речи
TTS для озвучивания ответов
6 различных голосов на выбор
Полноценный голосовой режим
👁️ Анализ изображений
GPT-4o Vision для понимания картинок
Детальное описание содержимого
Ответы на вопросы по изображениям
Анализ документов и схем
📚 База знаний (RAG)
Загрузка собственных документов
Поиск по содержимому файлов
ChromaDB для векторного поиска
Поддержка PDF, TXT, MD форматов

Решение

🎯 Режимы работы
Режим Описание Команда
📝 Text Обычный текстовый диалог /mode text
🎤 Voice Ответы голосом /mode voice
👁️ Vision Анализ изображений /mode vision
📚 RAG Работа с базой знаний /mode rag
💬 Основные команды
/start - Начать работу с ботом
/mode - Показать/изменить режим работы
/image <текст> - Создать изображение
/voice <голос> - Изменить голос для TTS
/reset - Очистить историю диалога
/help - Показать справку

Результат

🎨 Генерация изображений
Бот автоматически распознает запросы на создание изображений:

✅ "Нарисуй кота в космосе"
✅ "Создай изображение заката"
✅ "Сгенерируй картинку города будущего"
Используется:

Модель: Google Gemini 2.5 Flash Image
Провайдер: OpenRouter
Преимущества: быстрая генерация, бесплатное использование
🎵 Голосовые настройки
Доступные голоса для TTS:

alloy - Нейтральный
echo - Мужской
nova - Женский
fable - Мужской (британский)
onyx - Мужской (глубокий)
shimmer - Женский (теплый)
📁 Структура проекта
├── handlers/ # Обработчики сообщений
├── services/ # Сервисы (OpenAI, TTS, STT)
├── rag/ # Система RAG
├── utils/ # Утилиты и помощники
├── data/ # Данные и документы
│ ├── documents/ # Документы для RAG
│ └── chroma_db/ # База векторов
├── tests/ # Тесты
└── main.py # Точка входа
🔧 Технологии
Компонент Технология
LLM OpenAI GPT-4o, GPT-4o-mini
Генерация изображений Google Gemini 2.5 Flash (OpenRouter)
Анализ изображений GPT-4o Vision
Голос Whisper (STT), TTS-1
Эмбеддинги text-embedding-3-small
Векторная БД ChromaDB
Фреймворк LangChain
Бот pyTelegramBotAPI