Настройки сбора (парсинга) объявлений об аренде в Google Таблицы
Задание закрыто
Стоимость:
Договорная
Срок выполнения:
10 дней
Варианты оплаты:
По договоренности
Дата публикации:
2025-01-29 19:20
Был(а) на сайте:
2025-01-30 11:05
Реклама
Настройки сбора (парсинга) объявлений об аренде в Google Таблицы
Задача
Задача:
Настроить автоматический сбор объявлений об аренде недвижимости из Facebook-групп, Telegram-чатов и сайтов с последующим сохранением и фильтрацией в Google Sheets. Список групп, чатов, сайтов предоставлю. Ниже требования и возможный стек, но если у вас есть варианты лучше (например, хранить данные в MongoDB или другой базе данных / реализовывать через Python-скрипт итд), пишите, рассматриваю все варианты.
Что нужно сделать:
Скрейпинг Facebook-групп (только публичные группы!, без API Facebook, если возможно)
Парсинг Telegram-чатов с объявлениями об аренде
Сбор данных с сайтов-агрегаторов по аренде жилья
Собрать дату поста, текст, цену, район, срок аренды, ссылку на пост, фото
Автоматически сохранять в Google Таблицы с разбиением по столбцам
Настроить фильтрацию по ключевым параметрам (цена, район, долгосрочная/посуточная аренда)
Обеспечить автообновление данных (например, раз в 3-6 часов)
Возможные решения (обсуждаемо):
Facebook:
Axesso Facebook API + Google Apps Script / A...
Видеть полную информацию и оставлять заявки могут только авторизованные пользователи.
Вы хотите настроить автоматический сбор объявлений об аренде недвижимости из Facebook-групп, Telegram-чатов и различных сайтов, с последующим сохранением данных в Google Sheets, верно? Я вижу, что нужны данные, включая дату поста, текст, цену, район, срок аренды, ссылки и фото, которые должны автоматически обновляться через определённые промежутки времени.
У меня есть несколько уточняющих вопросов:
1. Поскольку вы упомянули парсинг Facebook-групп без использования API, планируете ли вы учитывать возможность блокировок со стороны Facebook?
2. Как вы хотите обрабатывать ситуации, когда в Telegram-чатах появляются объявления, которые для вас могут быть не актуальны?
3. Насколько строгие ваши критерии фильтрации по ключевым параметрам, и есть ли другие параметры, которые вы бы хотели добавить в будущем?
Я готов приступить к работе сразу и могу адаптировать компоненты и документацию из моих предыдущих проектов, чтобы сократить время разработки. Обязательно предоставлю примеры схожих работ, если потребуется.
По скрапперу на каждый чих выглядит довольно громоздко, все это можно сделать простым анализом html с помощью кастомного кода + запросы в апи если возможно(такое часто бывает). Для большей части задач может хватить и чистого Google Script. Нужно смотреть
Расскажу немного о себе: я, Рыжков Павел Андреевич, в июле 2021 года закончил бакалавриат физического факультета ВГУ по ядерной физике с отличием; летом 2019 закончил курсы по тестирование ПО от компании Surf(познакомился с основными видами тестирования, а также написал пару тест-кейсов и чек-листов, поработал в Postmаn), также в 2016 году получил диплом IT School Samsung по разработке Android-приложении на языке Java, в ходе обучения в IT School Samsung разработал защитил приложение "Змейка"; знаю 3 языка программирования почти в совершенстве: Pascal
Java, Python и SQL, хорошо знаком с языками программирования C++, Html, Javascript TypeScript, CSS; умею работать со всеми программами из пакета MS Office, а также с программами Libre Office и Android Eclipse, Maxima, Mathlab; уровень владения английским - Intermediate (B2). Личные качества: трудолюбивый, целеустремленный, терпеливый, усидчивый, ответственный, люблю все новое и неизведанное. Так получилось, что основной стек для меня - это Java 1.8(11) + Spring Boot для Backend и Java для Android. Работаю на языке Java 4 года(еще в школе впервые с ним познакомился и влюбился на всю жизнь), python - 2 года, node.js - 2 года, Kotlin - 2 года, php - 1,5 года, React.js - 2 года. Все мои работы находятся здесь: https://github.com/povilas1565. Мой ТГ: @Pavel5599. Поэтому резонно, что я делаю почти все на Java(Kotlin) и Python и Node.js. Мой ТГ:@Pavel5599. Также занимаюсь разработкой простых сайтов на React и статическом html,css,js. Также работаю на C# и React Native, а также Flutter. Занимаюсь профессиональной публикацией и выгрузкой приложений в google play. Также являюсь штатным тестировщиком с опытом в 2,5 года в компаниях Tech Usta и Active Computers. Я собаку съел на автотестах и мануал -тестах.
Здравствуйте, готовы предложить вариант решения вашей задачи. Большой опыт (с 2012 года) в создании веб-проектов любой степени сложности.
Реализуем ваш проект используя стек LAMP/WAMP (Linux/Windows, Apache, Mysql, PHP).
Также, ваш проект необходимо реализовывать с использованием эмуляции человеческих действий в браузере. Это необходимо для обхода возможных блокировок (в процессе совершения действий на сайтах где будет проводиться парсинг) со стороны антибот-систем, установленных на сайтах.
В качестве системы, имеющей готовые инструменты для эмуляции человеческих действий в браузере, предлагаем использовать программный комплекс ZennoPoster. А именно: бесплатный модуль ZennoBox. Более подробная информация о ZennoBox: https://zennolab.atlassian.net/wiki/spaces/RU/pages/495386651/ZennoBox?id=ru:zennobox
За период с 2012 года нами разработано большое количество проектов, использующих ZennoPoster в качестве программной основы для обхода антибот-систем различных веб-сервисов.
ZennoBox будет работать параллельно с основной программной системой, реализованной на стеке LAMP/WAMP.
---
Являемся экспертами в понимании принципов информационной безопасности. Имеется собственная разработка в данной области – Сканер уязвимостей Security-Scan (Подробная информация о нем имеется на нашем сайте: https://isaweb.tech/main/index.php?page=projects&hash=gjd2ydyokyd4xpmncc5 )
Работаем по официальному договору от имени юридического лица (ООО) по ТЗ. Имеется собственная система для проведения анализа-оценки ТЗ.
Здравствуйте. SLA тут однозначного ответа нет, все зависит проблем при разработке и ограничений API сервисов.
Предлагаю начальную интеграцию PyTelebot (интерефейс для взаимодействия с ботом - парсером) + SLQlite + Unit/Intagration тесты (для будущих доработок) + бекапы на google drive (ваша/моя почта). Цена и время нужно обсуждать лично.
Так же есть возможность добавить DevOps интеграцию (обсуждается отдельно), для оптимизации развертывания (Docker/Compose/CI/CD Gitlab/Versions).
Данное решение децентрализованное со стабильным сервисом (google drive) для бекапов.
Возможно решение в виде веб-сервиса (интерфейс управления, односточный вид).
@dedolot - мой телеграмм.
Оставлять заявки могут только авторизованные пользователи.
Настройки сбора (парсинга) объявлений об аренде в Google Таблицы
Реклама
Настройки сбора (парсинга) объявлений об аренде в Google Таблицы
Задача:
Настроить автоматический сбор объявлений об аренде недвижимости из Facebook-групп, Telegram-чатов и сайтов с последующим сохранением и фильтрацией в Google Sheets. Список групп, чатов, сайтов предоставлю. Ниже требования и возможный стек, но если у вас есть варианты лучше (например, хранить данные в MongoDB или другой базе данных / реализовывать через Python-скрипт итд), пишите, рассматриваю все варианты.
Что нужно сделать:
Скрейпинг Facebook-групп (только публичные группы!, без API Facebook, если возможно)
Парсинг Telegram-чатов с объявлениями об аренде
Сбор данных с сайтов-агрегаторов по аренде жилья
Собрать дату поста, текст, цену, район, срок аренды, ссылку на пост, фото
Автоматически сохранять в Google Таблицы с разбиением по столбцам
Настроить фильтрацию по ключевым параметрам (цена, район, долгосрочная/посуточная аренда)
Обеспечить автообновление данных (например, раз в 3-6 часов)
Возможные решения (обсуждаемо):
Facebook:
Axesso Facebook API + Google Apps Script / A...