Найти компании осуществляющие строительство загородных домов и коттеджей в Москве и московской области. Нужны были такие данные: Название, адрес, ИНН, Телефон, Электронная почта, сайт.
В качестве основного сайта откуда брал информацию был domclick.Там была самая полная база (870 компаний). Для получения данных из сайта был написан скрипт на Python, который парсил данные: Название, адрес, ИНН, Телефон.К сожалению редко где приводился сайт компании и почта.
Особой сложностью было преодоление защиты domclick. Вместо капчи этот сайт сразу забанивал мой скрипт. Был применен особый двухэтапный вход на сайт. После получения данных они заносились в эксель таблицу "Застройщики". Для получения сайтов компаний по значению ИНН из таблицы я на втором этапе парсил сайт rusprofile.ru. Однако все равно у многих компаний не была заполнена колонка с сайтами. Тогда на третьем этапе пришлось парсить поисковик от гугла.
В результате трех этапов(трех скриптов) были получены все данные. Причем по сайтам процент найденных сайтов компаний составляет более 95%.