Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

Задание закрыто
Стоимость:Договорная
Срок выполнения:30 дней
Варианты оплаты:По договоренности
Дата публикации:2025-01-09 13:40
Был(а) на сайте:2025-01-14 12:30

Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

 
Задача

Есть задача - сформировать ПО, которое умело бы с помощью ИИ обрабатывать базы данных ФТС РФ

Задача минимум, чтобы ПО с помощью ИИ обрабатывало столбец "Производитель" умело бы идентифицировать по-разному записанных одних и иех же производителей, присваивать им одно и тоже имя и указывать ссылку на их сайт.

Оставлять заявки могут только авторизованные пользователи.
Роман Митюшин
Основная специализация: Веб-разработка и Продуктовый дизайн
    import pandas as pd
    from fuzzywuzzy import process

    # Загружаем данные в DataFrame
    data = {
    'Производитель': [
    'Samsung',
    'Samson',
    'samsung electronics',
    'Samsung Inc.',
    'APPLE',
    'Apple Inc.',
    'apple',
    'Appl',
    'Sony',
    'SONY Corp.'
    ]
    }

    df = pd.DataFrame(data)

    # Определяем стандартные имена производителей и их сайты
    standards = {
    'Samsung': 'https://www.samsung.com',
    'Apple': 'https://www.apple.com',
    'Sony': 'https://www.sony.com'
    }

    # Функция для нормализации имен производителей
    def normalize_brand(brand):
    # Нормализуем имя: приводим к нижнему регистру
    brand_cleaned = brand.strip().lower()

    # Получаем наиболее близкое совпадение с использованием fuzzywuzzy
    matched = process.extractOne(brand_cleaned, standards.keys())

    if matched[1] >= 80: # Порог нечеткого совпадения
    return matched[0]
    else:
    return None # если не найдено подходящее совпадение

    # Применяем нормализацию к DataFrame
    df['Нормализованный_производитель'] = df['Производитель'].apply(normalize_brand)
    df['Ссылка'] = df['Нормализованный_производитель'].map(standards)

    # Выводим результат
    print(df[['Производитель', 'Нормализованный_производитель', 'Ссылка']])
    Алексей Шкляр
    Основная специализация: Веб-разработка и Продуктовый дизайн
    Опыт: https://shklyar.ru/diz/su/

    Оставьте номер телефона, обсудим.
    Добрый день!

    Напишу скрипт для обработки столбца "Производитель". Можно использовать ИИ при необходимости сопоставлять названия

    Оплата по завершению работы
    Телеграм: @a_programist
    Почта: ans.200@mail.ru

    Программист PHP, MySQL, JS, jQuery и jQuery UI. Больше 3х лет опыта
    Сбор данных

    Собрать в одном месте выгрузку из базы данных ФТС РФ (файл Excel/CSV/БД). Предположим, что в вашем распоряжении есть таблица, в которой один из столбцов называется «Производитель».
    Предобработка

    Очистить данные от лишних символов, например пробелов в начале/конце, специальных символов (\n, \r, и т.д.).
    Опционально: привести названия производителей к единому регистру (строчные или прописные). Иногда полезно оставить регистр, если в нём содержатся важные различия (например, аббревиатуры).
    Формирование «словаря» известных производителей (опорно-справочная информация)

    Для успешного сопоставления разных записей одного и того же производителя желательно иметь базу-справочник с эталонными названиями производителей и, по возможности, с их сайтами.
    Такой словарь можно собрать:
    вручную, исходя из самых частых производителей в вашей базе, либо
    частично автоматически, если есть официальные реестры/списки (например, реестр юридических лиц или какие-то открытые реестры производителей).
    Механизм сопоставления / нормирования

    Простые методы:
    Fuzzy matching (библиотеки вроде TheFuzz/FuzzyWuzzy на Python, RapidFuzz и т.п.).
    Правила и эвристики (например, удалять незначимые слова типа "Ltd", "Co", "ООО", "ЗАО" и т.д., потом сравнивать оставшуюся часть).
    ML/AI методы:
    Обучить модель на задачу entity matching (иногда называют record linkage). С помощью современных NLP-моделей (BERT, Sentence Transformers) можно получать векторные представления строк (названий компаний), а затем вычислять расстояния/сходства между ними.
    Применить кластеризацию строк на основе их семантики. Все названия, которые принадлежат одной компании, будут лежать рядом в векторном пространстве.
    Автоматическое присвоение «официального» имени производителя и ссылки на сайт

    Когда строка «Производитель» сопоставляется с записями в «словаре» (справочнике), в результате мы получаем эталонное название. К нему же заранее можно привязать нужные метаданные: ссылку на сайт, контактные данные и т.п.
    Василий Авдеев
    Основная специализация: Веб-разработка и Продуктовый дизайн
      Приветствую, Илья! Я менеджер компании AV Studio (https://avdeevstudio.ru/?utm_source=frelanc).

      Мы заинтересованы в разработке ПО, которое с помощью ИИ сможет обрабатывать базы данных ФТС РФ. Наша команда имеет опыт создания решений на основе искусственного интеллекта, включая задачи по обработке и анализу данных.

      Мы понимаем, что важным требованием является умение идентифицировать и стандартизировать записи производителей, даже если они записаны по-разному. Мы сможем реализовать функционал, который будет присваивать одинаковые имена для одних и тех же производителей и обеспечивать ссылку на их сайты.

      Мы ознакомились с требованиями и готовы предложить вам креативные и эффективные решения для вашей задачи.

      Давайте обсудим детали в Телеграм: https://t.me/Avdeev_Vasiliy.
      Александр Алмазов
      Основная специализация: Искусственный интеллект
      Здравствуйте!
      Я занимаюсь разработкой различных сайтов, социальных сетей, созданием CRM-систем и LMS/СДО- платформ для дистанционного обучения.
      Разрабатываю нейронные сети с обучением на статистических данных Заказчика. Также выполняю нестандартные проекты, требующие математического моделирования и подключения интеллектуальных систем.
      Добрый день. Занимаюсь машинным и глубоким обучением (искусственным интеллектом). Специализируюсь в том числе на NLP. Занимался разработкой систем анализа текстов, классификации, распознавания текста, его кластеризации, распознавания поименованных сущностей для анализа различных документов бухгалтерского, юридического, медицинского, научного и другого содержания с помощью алгоритмов машинного обучения, нейронных сетей и LLM BERT, BART, ALBERT, GPT, Llama. Давайте обсудим.

      Оставлять заявки могут только авторизованные пользователи.