Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari).

Стоимость:6 000 рублей
Срок выполнения:2 дня
Варианты оплаты:По договоренности
Дата публикации:2025-12-12 02:17
Обновлено:2025-12-12 02:18
Был(а) на сайте:2025-12-24 03:13

Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari).

 
Задача

Работаю над созданием кастомной OCR-модели под старославянский текст XVI–XVII вв.

Есть проблема, которую стандартные движки не решают:
– 10–15 типов надстрочных знаков,
– нестандартная раскладка,
– редкие кириллические и греческие символы,
– проблема сегментации (диакритика «уезжает» в отдельную строку).

Нужен специалист, который понимает как решать и имеет практический опыт работы с задачами:
1. Разметка строк вручную/полуавтоматически.
2. Создание датасета пар «скан текст».
3. Тестирование Kraken (обязательно)/Calamari(по возможности):
– line segmentation,
– training alphabets,
– ground truth mapping.
4. Построение минимального прототипа пайплайна: папка A (исходные сканы) + CLI-скрипт -> папка B (текстовый результат в правильной раскладке).
5. Создание краткого аргументированного отчёта о том, какой путь обучения модели реалистичен и оптимален для решения поставленной задачи.

На первом этапе — пилот за начальную сумму

Это R&D-этап.

Если подходим друг другу — продолжение про...

Видеть полную информацию и оставлять заявки могут только авторизованные пользователи.

Оптимизировано и агрегировано ИИ:

Здравствуйте! Мне нужен OCR-инженер для разработки кастомной модели распознавания старославянского текста XVI–XVII веков. Основные задачи включают разметку строк, создание датасета, тестирование Kraken и Calamari, а также создание прототипа пайплайна для преобразования сканов в текст. Важно иметь опыт работы с нестандартными алфавитами и понимание сегментации строк. На первом этапе предлагаю пилотный проект с возможностью дальнейшего сотрудничества. Пожалуйста, поделитесь своим опытом работы с OCR-движками и примерами похожих проектов. Для реализации этого задания потребуются следующие навыки: опыт работы с OCR и машинным обучением, знание инструментов Kraken и Calamari, навыки в разметке данных и создании датасетов, понимание сегментации строк и работы с нестандартными алфавитами, а также умение разрабатывать и тестировать прототипы пайплайнов.
Для подачи заявки на участие в задании Вам нужно авторизоваться
Hello! Thank you for the clear project description — this is exactly the type of deep technical OCR work I specialize in. What you’re building reminds me of Daniel 2:22: “He reveals deep and hidden things.” Decoding 16th–17th century Old Church Slavonic with rare glyphs, drifting diacritics, and non-standard layouts is truly a work of revealing what has been hidden, and that’s the kind of challenge I handle with precision.

Why I’m a strong fit

I have hands-on experience with OCR for historical manuscripts, complex accent systems, and scripts where standard engines completely fail. I’ve worked with custom alphabets, unstable baselines, and segmentation issues where diacritics detach into their own lines.

OCR Engines I’ve worked with

Kraken (required): custom training, segmentation tuning, GT creation.

Calamari: multi-model voting + dataset preparation.

Tesseract fine-tuning for non-standard Cyrillic/Greek.

Custom PyTorch OCR for rare alphabets.


Examples of Similar Problems

1. Old Cyrillic liturgical texts – multi-level accents, rare characters. Built custom Kraken model + corrected segmentation.


2. Ancient Greek polytonic OCR – drifting diacritics; solved with manual line marking + GT mapping.


3. Ge’ez manuscripts – multiple diacritics, irregular baselines; created full scan-to-text dataset.



How I’ll approach your pilot stage

1. Manual/semi-auto line marking for pages with shifted accents.


2. Build structured “scan -> text” pairs for training.


3. Test segmentation, alphabets, and GT mapping in Kraken/Calamari.


4. Deliver a minimal pipeline: folder A (scans) -> CLI -> folder B (text).


5. Provide a concise R&D report outlining realistic training paths, expected accuracy, and the best long-term model strategy.



I’m ready to review the 5–10 sample pages and begin the pilot. Looking forward to contributing to this meaningful project.
Здравствуйте!
Я занимаюсь разработкой сайтов; ботов в telegram и прочим под ключ

Работаю аккуратно, соблюдаю сроки и всегда на связи.
Готов обсудить детали проекта, предложить оптимальные решения и приступить к работе в ближайшее время.
09:29 21.12.25
Раскажите о проекте
Здравствуйте!

Внимательно изучил описание. Проблема с Kraken и Calamari на старославянском мне понятна: стандартная сегментация действительно "отрывает" титла и выносные буквы, создавая мусор вместо текста.

Я предлагаю решение через Vision-трансформеры (Multimodal AI).
В отличие от классического подхода, где нужно вручную размечать тысячи строк для Ground Truth, я использую LLM, которая "видит" страницу целиком и корректно интерпретирует лигатуры и надстрочные знаки благодаря пониманию контекста языка XVI-XVII вв.

Это позволяет:
1. Либо сразу получать готовый текст с сохранением орфографии.
2. Либо автоматически генерировать эталонные пары (Image-Text) для дообучения вашей модели Kraken, что ускорит процесс в разы.

У меня свежий профиль, поэтому предлагаю тест-драйв, чтобы вы не рисковали:
Пришлите в ЛС одну сложную страницу (скан). Я пришлю вам точную расшифровку в .txt/.docx.

Если качество распознавания "сложных мест" вас устроит — обсудим сотрудничество.

Оставлять заявки могут только авторизованные пользователи.