Стажировка
«OCR (оптическое распознавание символов) для кабинета инженера
Компания: ООО «ВДГБ:ИТС»
Суть проекта
Для чего
Вводные данные
Этот проект позволит улучшить достоверность данных, ускорить ввод и повысить проверяемость технического состояния оборудования, интегрируя распознанные данные в информационную систему.
Проект направлен на автоматизацию распознавания рукописных данных в рамках технической диагностики для уменьшения ручного труда и повышения точности данных
Таблица формата excel c распознанными ячейками

85 заполненных рукописных таблиц-ведомостей показателей трубопроводов

Основная идея проекта
выходные данные
Участники
команды проекта
  • павел химяк
    Тимлид проекта
    • Руководил проектом и контролировал выполнения его этапов
    • Поддерживал общение с заказчиком для согласования требований и промежуточных результатов
  • евгений сапселёв
    помощник тимлида
    • Консультировал участников команды по вопросам написания модульного и читаемого кода
    • Помогал выстраивать структуру проекта и следить за качеством реализации решений
  • Сергей Подобряев
    помощник тимлида
    • Провел анализ современных OCR-решений. Разработал архитектуру решения на базе ResNetLSTMCTC
    • Полностью реализовал модель ResNet34LSTMCTC. Обучил на датасете русского рукописного текста с последующим дообучением для адаптации под специфику документов заказчика
    • Реализовал функции предобработки и постобработки для повышения качества распознавания, провел серии экспериментов по улучшению точности
    • Создал готовое для интеграции решение (в GitHub репозитории) и провел тестирование на локальном окружении
    • Оказывал помощь в координации и технической организации проекта, обеспечивал поддержку участников команды
  • Александр Карев
    Data Scientist/Analyst
    • Изучил датасет и инструменты для распознавания структуры документа и значений в ячейках
    • Провёл эксперименты с OpenCV, CRNN, YOLO, CNC-loss и CTC-loss
    • Работал над разметкой данных и тестированием моделей в Gradio и VSCode
    • Внёс вклад в реализацию пайплайна: от разбиения таблицы на ячейки до вывода результата в Excel
  • Александр Мохирев
    младший системный администратор
    • Изучил подходы к дообучению OCR-моделей (PaddleOCR, EasyOCR)
    • Разработал скрипт для распознавания чисел в ячейках таблицы и выгрузки в Excel
    • Работал с GitHub, провёл эксперименты по дообучению
  • алексей козлов
    руководитель регионального отдела сети "КонсультантПлюс"
    • Разработал метод поворота сканов по ориентации таблицы
    • Усовершенствовал алгоритмы распознавания границ таблиц и уменьшения артефактов
    • Дообучил YOLO11s-seg, провёл масштабную разметку датасета
    • Реализовал единый пайплайн обработки изображений, интеграцию с Excel и групповой кодовый рефакторинг
    • Разработал вспомогательные функции контроля данных (arrow_control, decimal_control).
    • Разработал пакетную обработку данных различных форматов (архивы, многостраничные DPF и отдельные изображения)
    • Реализовал комбинированное определение сквозных стрелок
    • Разработал визуализацию данных поверх исходного изображения для сравнительного контроля пользователем
  • владимир каракулин
    прямые и тендерные продажи промышленного оборудования
    • Проводил эксперименты с различными подходами к распознаванию рукописного текста и дробных чисел
  • галина чапцова
    Индивидуальный предприниматель
    • Протестировала OCR-модели: EasyOCR, PaddleOCR, TrOCR, PyTesseract, Donat
    • Обучила TrOCR на реальных и синтетических данных
    • Реализовала фронтенд-интерфейс на Gradio и backend на FastAPI, завернула в Docker
    • Разработала архитектуру приложения, провела интеграцию в единую систему с возможностью редактирования
  • григорий стряпчиев
    Инженер отдела ИТ больницы скорой помощи
    • Создал и аугментировал датасеты, включая авторазметку в Roboflow, провёл масштабную разметку датасета
    • Участвовал в обучении и тестировании YOLO-моделей, подготовке изображений
    • Разработал скрипт идентификации ячеек, оптимизировал обработку данных
  • Дмитрий степановский
    директор строительной компании
    • Активно участвовал в разметке Yolo, предобработке таблиц, построения логики разрезания на ячейки и тестировании OCR
    • Дообучил YOLO-модели, реализовал улучшение изображения, провёл масштабную разметку датасета, постобработку и интеграцию с Gradio
    • Реализовал локально единый пайплайн обработки изображений с интеграцией в Excel
    • Выполнил локальный запуск модели, подготовил Docker-окружение
    • Разработал MVP-прототип, обеспечил совместимость и интеграцию кода
    • Подготовил и провел презентацию работы группы стажировки
  • елена хвоинская
    ведущий инженер-программист АО "Концерн "Автоматика""
    • Тестировала OCR-модели (Terrasect, Paddle, EasyOCR) и инструменты структурного распознавания документов
    • Дообучила модель CRNN на датасете русского рукописного текста
    • Реализовала пред- и постобработку, улучшила точность модели на данных заказчика
    • Подготовила скрипты и классы для интеграции модели, опубликовала на GitHub
  • игорь доронин
    Fullstack Developer
    • Провел серию экспериментов по распознаванию текста с использованием EasyOCR и PyTesseract
  • михаил герман
    Предприниматель
    • Тестировал модели YOLOv8n и Donut/DocTR, провел первичную разметку таблиц
  • наталья выговская
    старший преподаватель на кафедре АСУ в Белорусско-Российском университете
    • Разработала экспериментальные ноутбуки с PyTesseract и табличным выводом
    • Работала с LLM (LLaMA, Gemma, TroCR), провела серию экспериментов по распознаванию
    • Участвовала в разметке таблиц и сборе датасета
    • Реализовала веб-интерфейс на FastAPI, подготовила прототип обработки и выгрузки в Excel
  • ольга соловьёва
    Ведущий инженер / АСУ
    • Сравнила модели SuryaOCR, RapidOCR, ResNet, EasyOCR, Tesseract, Paddle
    • Обучила YOLOv5 на распознавание цифр и знаков
    • Исследовала подходы к определению координат ячеек с помощью OpenCV
    • Провела тестирование TrOCR и LLM для задач распознавания
  • сергей кульков
    Руководитель подразделения в торговой компании
    • Анализировал и тестировал TableNet, CascadeTabNet, OpenCV для извлечения структуры таблиц
    • Проводил эксперименты с TrOCR, EasyOCR, Tesseract и Paddle на рукописном кириллическом тексте