Рейтинг: 51
не верифицирован
Всего отзывов: 0
  • Работ в портфолио: 1
  • Типовых услуг: 0
  • Работ на продажу: 0
  • Возраст: 23 года
  • Стаж работы: 1 год
  • Зарегистрирован: 21.03.2021
  • Образование: Бакалавриат
  • Юридический статус:Частное лицо
Был на сайте:

Исследование методов интеллектуальной обработки коммерческих документов

Описание

Целью прооекта было исследование методов гибкой обработки коммерческих документов, а именно: распознование важных сущностей на скане документа, их выделение и сопоставление
Задачи:
1) анализ и выявление недостатков текущей модели;
2) поиск и анализ наиболее подходящих архитектур нейронных сетей для поставленной задачи;
3) доразметка набора данных: добавление новых примеров и сущностей;
4) обучение найденных моделей;
5) анализ и оценка полученных результатов, формирование выводов;

Решение

Мною было проведено исследование существующих решений по распознованию документов. Среди найженых моделей я провел необходимую оценку их работоспособности в контексте задачи

Результат

1) Был проведен анализ литературы, составлены требования к модели и выбрано несколько архитектур-кандидатов.
2) Написаны вспомогательные скрипты для разметки набора данных.
3) Был расширен исходный набор данных: добавлены документы новых типов, новая сущность «заголовок документа»
4) Выбранные модели были дообучены и оценены, проведен анализ результатов
5) Была выбрана наиболее перспективная модель – LayoutXLM.
6) Добавлена новая сущность (помимо ключ и значение) – заголовок.
7) Была проведена оценка способности модели успешно находить сущности в документах, тип которых она не видела.

Презентация проекта

BERT.png
LayoutXLM.png
RoBERTa.png

Оценили проект:

0