Необходимо написать движок для регламентного парсинга сайтов с курсами (в рамках этой задачи - Pluralsight, Udemy, Coursera). Основа для backend обсуждается, но сейчас в основном используется Linux + PHP + Oracle. Блоки работы с БД должны быть отдельно выделены, так как возможен переезд на другую СУБД. На уровне БД необходимо реализовать staging-слой (STG), в который будет собираться доступная информация с источника без преобразований, далее все источники должны быть приведены к единой структуре в целевом слое данных (DDS). В STG слое для разных источников необходимо использовать различные таблицы, если структура данных отличается, на уровне DDS добавляются атрибуты принадлежности данных к конкретному источнику данных (SOURCE_SYSTEM_CD), флаг удаления (DELETED_FLG), дата-время обновления (PROCESSED_DTTM, обновляется только если строка была изменена). Регламент должен обеспечивать: - добавление новых курсов, актуализацию информации о добавленных ранее (например, об изменении цены), а также учет удалений, то е...
Видеть полную информацию и оставлять заявки могут только авторизованные пользователи.
Заявок нет
Оставлять заявки могут только авторизованные пользователи.
Регламентный парсинг сайтов
Реклама
Регламентный парсинг сайтов
Необходимо написать движок для регламентного парсинга сайтов с курсами (в рамках этой задачи - Pluralsight, Udemy, Coursera).
Основа для backend обсуждается, но сейчас в основном используется Linux + PHP + Oracle. Блоки работы с БД должны быть отдельно выделены, так как возможен переезд на другую СУБД.
На уровне БД необходимо реализовать staging-слой (STG), в который будет собираться доступная информация с источника без преобразований, далее все источники должны быть приведены к единой структуре в целевом слое данных (DDS). В STG слое для разных источников необходимо использовать различные таблицы, если структура данных отличается, на уровне DDS добавляются атрибуты принадлежности данных к конкретному источнику данных (SOURCE_SYSTEM_CD), флаг удаления (DELETED_FLG), дата-время обновления (PROCESSED_DTTM, обновляется только если строка была изменена).
Регламент должен обеспечивать:
- добавление новых курсов, актуализацию информации о добавленных ранее (например, об изменении цены), а также учет удалений, то е...