Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

Информация по заданию

Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

Задание закрыто
Стоимость:	Договорная
Срок выполнения:	30 дней
Варианты оплаты:	По договоренности
Дата публикации:	2025-01-09 13:40
Был(а) на сайте:	2025-01-14 12:30

Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

Задача
Есть задача - сформировать ПО, которое умело бы с помощью ИИ обрабатывать базы данных ФТС РФ Задача минимум, чтобы ПО с помощью ИИ обрабатывало столбец "Производитель" умело бы идентифицировать по-разному записанных одних и иех же производителей, присваивать им одно и тоже имя и указывать ссылку на их сайт.
Оставлять заявки могут только авторизованные пользователи.

Роман Митюшин mityroma

Основная специализация: Веб-разработка и IT

import pandas as pd
from fuzzywuzzy import process

# Загружаем данные в DataFrame
data = {
'Производитель': [
'Samsung',
'Samson',
'samsung electronics',
'Samsung Inc.',
'APPLE',
'Apple Inc.',
'apple',
'Appl',
'Sony',
'SONY Corp.'
]
}

df = pd.DataFrame(data)

# Определяем стандартные имена производителей и их сайты
standards = {
'Samsung': 'https://www.samsung.com',
'Apple': 'https://www.apple.com',
'Sony': 'https://www.sony.com'
}

# Функция для нормализации имен производителей
def normalize_brand(brand):
# Нормализуем имя: приводим к нижнему регистру
brand_cleaned = brand.strip().lower()

# Получаем наиболее близкое совпадение с использованием fuzzywuzzy
matched = process.extractOne(brand_cleaned, standards.keys())

if matched[1] >= 80: # Порог нечеткого совпадения
return matched[0]
else:
return None # если не найдено подходящее совпадение

# Применяем нормализацию к DataFrame
df['Нормализованный_производитель'] = df['Производитель'].apply(normalize_brand)
df['Ссылка'] = df['Нормализованный_производитель'].map(standards)

# Выводим результат
print(df[['Производитель', 'Нормализованный_производитель', 'Ссылка']])

Алексей Шкляр poshtman

Основная специализация: Веб-разработка и IT

Опыт: https://shklyar.ru/diz/su/

Оставьте номер телефона, обсудим.

Примеры моих работ

Система упраления бизнесом по цене велосипеда

Новая система без потери накопленного опыта

Андрей Демидов develop256

Основная специализация: Веб-разработка и IT

Добрый день!

Напишу скрипт для обработки столбца "Производитель". Можно использовать ИИ при необходимости сопоставлять названия

Оплата по завершению работы
Телеграм: @a_programist
Почта: ans.200@mail.ru

Программист PHP, MySQL, JS, jQuery и jQuery UI. Больше 3х лет опыта

Stanislav Ricci ricci

Основная специализация: Веб-разработка и IT

Сбор данных

Собрать в одном месте выгрузку из базы данных ФТС РФ (файл Excel/CSV/БД). Предположим, что в вашем распоряжении есть таблица, в которой один из столбцов называется «Производитель».
Предобработка

Очистить данные от лишних символов, например пробелов в начале/конце, специальных символов (\n, \r, и т.д.).
Опционально: привести названия производителей к единому регистру (строчные или прописные). Иногда полезно оставить регистр, если в нём содержатся важные различия (например, аббревиатуры).
Формирование «словаря» известных производителей (опорно-справочная информация)

Для успешного сопоставления разных записей одного и того же производителя желательно иметь базу-справочник с эталонными названиями производителей и, по возможности, с их сайтами.
Такой словарь можно собрать:
вручную, исходя из самых частых производителей в вашей базе, либо
частично автоматически, если есть официальные реестры/списки (например, реестр юридических лиц или какие-то открытые реестры производителей).
Механизм сопоставления / нормирования

Простые методы:
Fuzzy matching (библиотеки вроде TheFuzz/FuzzyWuzzy на Python, RapidFuzz и т.п.).
Правила и эвристики (например, удалять незначимые слова типа "Ltd", "Co", "ООО", "ЗАО" и т.д., потом сравнивать оставшуюся часть).
ML/AI методы:
Обучить модель на задачу entity matching (иногда называют record linkage). С помощью современных NLP-моделей (BERT, Sentence Transformers) можно получать векторные представления строк (названий компаний), а затем вычислять расстояния/сходства между ними.
Применить кластеризацию строк на основе их семантики. Все названия, которые принадлежат одной компании, будут лежать рядом в векторном пространстве.
Автоматическое присвоение «официального» имени производителя и ссылки на сайт

Когда строка «Производитель» сопоставляется с записями в «словаре» (справочнике), в результате мы получаем эталонное название. К нему же заранее можно привязать нужные метаданные: ссылку на сайт, контактные данные и т.п.

Василий Авдеев loveru88

Основная специализация: Веб-разработка и IT

Приветствую, Илья! Я менеджер компании AV Studio (https://avdeevstudio.ru/?utm_source=frelanc).

Мы заинтересованы в разработке ПО, которое с помощью ИИ сможет обрабатывать базы данных ФТС РФ. Наша команда имеет опыт создания решений на основе искусственного интеллекта, включая задачи по обработке и анализу данных.

Мы понимаем, что важным требованием является умение идентифицировать и стандартизировать записи производителей, даже если они записаны по-разному. Мы сможем реализовать функционал, который будет присваивать одинаковые имена для одних и тех же производителей и обеспечивать ссылку на их сайты.

Мы ознакомились с требованиями и готовы предложить вам креативные и эффективные решения для вашей задачи.

Давайте обсудим детали в Телеграм: https://t.me/Avdeev_Vasiliy.

Александр Алмазов alexmaz

Основная специализация: Искусственный интеллект

Здравствуйте!
Я занимаюсь разработкой различных сайтов, социальных сетей, созданием CRM-систем и LMS/СДО- платформ для дистанционного обучения.
Разрабатываю нейронные сети с обучением на статистических данных Заказчика. Также выполняю нестандартные проекты, требующие математического моделирования и подключения интеллектуальных систем.

Антон Краснов northwind0

Основная специализация: Веб-разработка и IT

Добрый день. Занимаюсь машинным и глубоким обучением (искусственным интеллектом). Специализируюсь в том числе на NLP. Занимался разработкой систем анализа текстов, классификации, распознавания текста, его кластеризации, распознавания поименованных сущностей для анализа различных документов бухгалтерского, юридического, медицинского, научного и другого содержания с помощью алгоритмов машинного обучения, нейронных сетей и LLM BERT, BART, ALBERT, GPT, Llama. Давайте обсудим.

Оставлять заявки могут только авторизованные пользователи.

Другие открытые задания:

поиск заданий

Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных - Задание для фрилансеров #1613148

Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

Консультация в сфере возможностей с помощью ИИ обрабатывать базы данных

Примеры моих работ