Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari).
Стоимость:
6 000 рублей
Срок выполнения:
2 дня
Варианты оплаты:
По договоренности
Дата публикации:
2025-12-12 02:17
Обновлено:
2025-12-12 02:18
Был(а) на сайте:
2025-12-24 03:13
Реклама
Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari).
Задача
Работаю над созданием кастомной OCR-модели под старославянский текст XVI–XVII вв.
Есть проблема, которую стандартные движки не решают:
– 10–15 типов надстрочных знаков,
– нестандартная раскладка,
– редкие кириллические и греческие символы,
– проблема сегментации (диакритика «уезжает» в отдельную строку).
Нужен специалист, который понимает как решать и имеет практический опыт работы с задачами:
1. Разметка строк вручную/полуавтоматически.
2. Создание датасета пар «скан текст».
3. Тестирование Kraken (обязательно)/Calamari(по возможности):
– line segmentation,
– training alphabets,
– ground truth mapping.
4. Построение минимального прототипа пайплайна: папка A (исходные сканы) + CLI-скрипт -> папка B (текстовый результат в правильной раскладке).
5. Создание краткого аргументированного отчёта о том, какой путь обучения модели реалистичен и оптимален для решения поставленной задачи.
На первом этапе — пилот за начальную сумму
Это R&D-этап.
Если подходим друг другу — продолжение про...
Видеть полную информацию и оставлять заявки могут только авторизованные пользователи.
Здравствуйте! Мне нужен OCR-инженер для разработки кастомной модели распознавания старославянского текста XVI–XVII веков. Основные задачи включают разметку строк, создание датасета, тестирование Kraken и Calamari, а также создание прототипа пайплайна для преобразования сканов в текст. Важно иметь опыт работы с нестандартными алфавитами и понимание сегментации строк. На первом этапе предлагаю пилотный проект с возможностью дальнейшего сотрудничества. Пожалуйста, поделитесь своим опытом работы с OCR-движками и примерами похожих проектов.
Для реализации этого задания потребуются следующие навыки: опыт работы с OCR и машинным обучением, знание инструментов Kraken и Calamari, навыки в разметке данных и создании датасетов, понимание сегментации строк и работы с нестандартными алфавитами, а также умение разрабатывать и тестировать прототипы пайплайнов.
Hello! Thank you for the clear project description — this is exactly the type of deep technical OCR work I specialize in. What you’re building reminds me of Daniel 2:22: “He reveals deep and hidden things.” Decoding 16th–17th century Old Church Slavonic with rare glyphs, drifting diacritics, and non-standard layouts is truly a work of revealing what has been hidden, and that’s the kind of challenge I handle with precision.
Why I’m a strong fit
I have hands-on experience with OCR for historical manuscripts, complex accent systems, and scripts where standard engines completely fail. I’ve worked with custom alphabets, unstable baselines, and segmentation issues where diacritics detach into their own lines.
Здравствуйте!
Я занимаюсь разработкой сайтов; ботов в telegram и прочим под ключ
Работаю аккуратно, соблюдаю сроки и всегда на связи.
Готов обсудить детали проекта, предложить оптимальные решения и приступить к работе в ближайшее время.
Внимательно изучил описание. Проблема с Kraken и Calamari на старославянском мне понятна: стандартная сегментация действительно "отрывает" титла и выносные буквы, создавая мусор вместо текста.
Я предлагаю решение через Vision-трансформеры (Multimodal AI).
В отличие от классического подхода, где нужно вручную размечать тысячи строк для Ground Truth, я использую LLM, которая "видит" страницу целиком и корректно интерпретирует лигатуры и надстрочные знаки благодаря пониманию контекста языка XVI-XVII вв.
Это позволяет:
1. Либо сразу получать готовый текст с сохранением орфографии.
2. Либо автоматически генерировать эталонные пары (Image-Text) для дообучения вашей модели Kraken, что ускорит процесс в разы.
У меня свежий профиль, поэтому предлагаю тест-драйв, чтобы вы не рисковали:
Пришлите в ЛС одну сложную страницу (скан). Я пришлю вам точную расшифровку в .txt/.docx.
Если качество распознавания "сложных мест" вас устроит — обсудим сотрудничество.
Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari).
Реклама
Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari).
Работаю над созданием кастомной OCR-модели под старославянский текст XVI–XVII вв.
Есть проблема, которую стандартные движки не решают:
– 10–15 типов надстрочных знаков,
– нестандартная раскладка,
– редкие кириллические и греческие символы,
– проблема сегментации (диакритика «уезжает» в отдельную строку).
Нужен специалист, который понимает как решать и имеет практический опыт работы с задачами:
1. Разметка строк вручную/полуавтоматически.
2. Создание датасета пар «скан текст».
3. Тестирование Kraken (обязательно)/Calamari(по возможности):
– line segmentation,
– training alphabets,
– ground truth mapping.
4. Построение минимального прототипа пайплайна: папка A (исходные сканы) + CLI-скрипт -> папка B (текстовый результат в правильной раскладке).
5. Создание краткого аргументированного отчёта о том, какой путь обучения модели реалистичен и оптимален для решения поставленной задачи.
На первом этапе — пилот за начальную сумму
Это R&D-этап.
Если подходим друг другу — продолжение про...