В банке существовало несколько разрозненных систем с большим количеством таблиц в разных песочницах на разных СУБД (Oracle, MS SQL). Отсутствовала документация, управление данными было хаотичным. Требовалось объединить все источники в единый кластер на импортозамещённом ПО с централизованным управлением и стандартами доступа.
Спроектировал и реализовал единую платформу DRP на базе Greenplum от Arenadata. Разработал собственный ETL-фреймворк на Airflow и Python. Мигрировал порядка 10 000 таблиц из различных источников (АСРМ, Озеро, Хранилище, пользовательские песочницы). Разработал ролевую модель доступа и выделенные схемы для каждого бизнес-подразделения. Реализовал интеграции с BI-платформой Visiology и платформой ИИ (RAISA). Все объекты описаны в бизнес-глоссарии и актуализированы на Confluence. Путь от разработки до внедрения с DevOps — 6 месяцев.
Единое место исследования и анализа данных для 500+ пользователей головного офиса банка. Ежедневная загрузка и обновление 2 500+ объектов из трёх систем-источников за 1 час 40 минут. Полный отказ от локальных песочниц. Бизнес-подразделения получили самостоятельный доступ к данным, которые раньше приходилось запрашивать файлами или выгружать из исходных систем вручную.