Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных
Задание закрыто
Стоимость:
Договорная
Срок выполнения:
30 дней
Варианты оплаты:
По договоренности
Дата публикации:
2025-01-09 13:40
Был(а) на сайте:
2025-01-14 12:30
Реклама
Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных
Задача
Есть задача - сформировать ПО, которое умело бы с помощью ИИ обрабатывать базы данных ФТС РФ
Задача минимум, чтобы ПО с помощью ИИ обрабатывало столбец "Производитель" умело бы идентифицировать по-разному записанных одних и иех же производителей, присваивать им одно и тоже имя и указывать ссылку на их сайт.
Оставлять заявки могут только авторизованные пользователи.
Собрать в одном месте выгрузку из базы данных ФТС РФ (файл Excel/CSV/БД). Предположим, что в вашем распоряжении есть таблица, в которой один из столбцов называется «Производитель».
Предобработка
Очистить данные от лишних символов, например пробелов в начале/конце, специальных символов (\n, \r, и т.д.).
Опционально: привести названия производителей к единому регистру (строчные или прописные). Иногда полезно оставить регистр, если в нём содержатся важные различия (например, аббревиатуры).
Формирование «словаря» известных производителей (опорно-справочная информация)
Для успешного сопоставления разных записей одного и того же производителя желательно иметь базу-справочник с эталонными названиями производителей и, по возможности, с их сайтами.
Такой словарь можно собрать:
вручную, исходя из самых частых производителей в вашей базе, либо
частично автоматически, если есть официальные реестры/списки (например, реестр юридических лиц или какие-то открытые реестры производителей).
Механизм сопоставления / нормирования
Простые методы:
Fuzzy matching (библиотеки вроде TheFuzz/FuzzyWuzzy на Python, RapidFuzz и т.п.).
Правила и эвристики (например, удалять незначимые слова типа "Ltd", "Co", "ООО", "ЗАО" и т.д., потом сравнивать оставшуюся часть).
ML/AI методы:
Обучить модель на задачу entity matching (иногда называют record linkage). С помощью современных NLP-моделей (BERT, Sentence Transformers) можно получать векторные представления строк (названий компаний), а затем вычислять расстояния/сходства между ними.
Применить кластеризацию строк на основе их семантики. Все названия, которые принадлежат одной компании, будут лежать рядом в векторном пространстве.
Автоматическое присвоение «официального» имени производителя и ссылки на сайт
Когда строка «Производитель» сопоставляется с записями в «словаре» (справочнике), в результате мы получаем эталонное название. К нему же заранее можно привязать нужные метаданные: ссылку на сайт, контактные данные и т.п.
Основная специализация: Веб-разработка и Продуктовый дизайн
Приветствую, Илья! Я менеджер компании AV Studio (https://avdeevstudio.ru/?utm_source=frelanc).
Мы заинтересованы в разработке ПО, которое с помощью ИИ сможет обрабатывать базы данных ФТС РФ. Наша команда имеет опыт создания решений на основе искусственного интеллекта, включая задачи по обработке и анализу данных.
Мы понимаем, что важным требованием является умение идентифицировать и стандартизировать записи производителей, даже если они записаны по-разному. Мы сможем реализовать функционал, который будет присваивать одинаковые имена для одних и тех же производителей и обеспечивать ссылку на их сайты.
Мы ознакомились с требованиями и готовы предложить вам креативные и эффективные решения для вашей задачи.
Давайте обсудим детали в Телеграм: https://t.me/Avdeev_Vasiliy.
Здравствуйте!
Я занимаюсь разработкой различных сайтов, социальных сетей, созданием CRM-систем и LMS/СДО- платформ для дистанционного обучения.
Разрабатываю нейронные сети с обучением на статистических данных Заказчика. Также выполняю нестандартные проекты, требующие математического моделирования и подключения интеллектуальных систем.
Добрый день. Занимаюсь машинным и глубоким обучением (искусственным интеллектом). Специализируюсь в том числе на NLP. Занимался разработкой систем анализа текстов, классификации, распознавания текста, его кластеризации, распознавания поименованных сущностей для анализа различных документов бухгалтерского, юридического, медицинского, научного и другого содержания с помощью алгоритмов машинного обучения, нейронных сетей и LLM BERT, BART, ALBERT, GPT, Llama. Давайте обсудим.
Оставлять заявки могут только авторизованные пользователи.
Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных
Реклама
Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных
Есть задача - сформировать ПО, которое умело бы с помощью ИИ обрабатывать базы данных ФТС РФ
Задача минимум, чтобы ПО с помощью ИИ обрабатывало столбец "Производитель" умело бы идентифицировать по-разному записанных одних и иех же производителей, присваивать им одно и тоже имя и указывать ссылку на их сайт.