Задача спарсить табличные данные с сайта здорового питания https://health-diet.ru/table_calorie в котором указываются калорийность, жиры, белки, и углеводы продуктов.
Сайт состоит из главной страницы на которой размещены ссылки с названиями категорий продуктов или их бренды.
Требуется создать парсер который получит все ссылки на страницы с табличными данными для дальнейшей выкачки данных в формате .CSV
В конце работы все полученные CSV файлы преобразовать в Excel файлы.
На основе знаний языка Python и его модулей я создал парсер который получает HTML код в котором указаны все ссылки на нужные нам страницы через url адрес главной страницы и затем прочесывает весь HTML код каждой страницы из которой получает табличные данные и параллельно заполняет в процессе созданный .CSV файл.
Для лучшего интерпретирования компьютером кириллицы настроил параметры восприятия языка (UTF-8)
1) Наличие парсера у заказчика (в случае пополнения информации на сайте).
2) Необходимые табличные данные Excel.
3) Корректный вывод данных.