ElzParser — универсальный модульный парсер для автоматического сбора бизнес-данных из открытых источников. Архитектура построена на FastAPI и Playwright для надёжного асинхронного веб-скрапинга. Основные возможности: - Парсинг компаний с firmas.lv и zl.lv с выгрузкой в xlsx, csv или json - Входные данные через Excel/CSV/JSON (список компаний или категорий) - Модульная архитектура для быстрого добавления новых источников - Кастомные настройки через .env файл - Гибкая обработка ошибок и подробное логирование - REST API для запуска парсинга и получения результатов Проект поддерживает деплой через скрипты и автоматизацию (GitHub Actions, systemd). Модульная структура позволяет быстро подключать новые парсеры и расширять функциональность.
Модульная архитектура на FastAPI с Playwright для асинхронного скрапинга. Каждый источник данных — отдельный модуль с единым интерфейсом. Pandas для обработки и экспорта данных. Подробное логирование всех операций. GitHub Actions для CI/CD.
- Разработка FastAPI-сервиса для парсинга с обходом защит
- Реализация Playwright для эмуляции браузера
- Настройка работы через прокси и ротация IP
- Создание планировщика задач для автоматического парсинга
- Разработка REST API для управления парсингом
Парсинг 5,000+ компаний за один запуск. Модульная архитектура позволила добавить 3 новых источника за неделю. Экспорт данных в 3 форматах для разных систем. Автоматизация сбора бизнес-данных для аналитики.