Стажировка по проекту
Создание ИИ-системы
оцифровки документации энергооборудования

Компания: ООО «Центр конструкторско-технологических инноваций»
Суть проекта
Задачи
Для чего
Вводные данные
  • Предобработка (увеличение четкости, исправления наклонов) отсканированных или сфотографированных листов документации
  • Выделение целевых зон для распознавания текста во входных документах
  • Распознавание текста в целевых зонах входных документов
  • Формирование структуры и получение выходных документов
  • Разработка Web-приложения с интуитивно понятным интерфейсом для пользователей
Проект нацелен на разработку системы для преобразования в редактируемый формат отсканированных или сфотографированных листов документации
турбоагрегатов, гидротурбин и иного энергетического оборудования,
чтобы извлекать необходимые данные для анализа и
расчета индекса технического состояния (ИТС) функциональных узлов,
единиц оборудования и их групп

Заказчиком предоставлено порядка пяти тысяч файлов документации по энергетическому оборудованию в форматах pdf и jpg
Выходные данные
  • Разработаны скрипты для предобработки входных документов, увеличивающие четкость и выполняющие выравнивание плоскости листов и формы содержащихся таблиц
  • Выполнена разметка датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
  • Обучена модель YOLO11 для сегментации входных документов согласно размеченным классам с точностью mAP50-95(B) = 0.8397
  • Обучена модель YOLO11 для дополнительной сегментации таблиц на ячейки с точностью mAP50-95(B) = 0.9296
  • OCR с использованием фреймворка Tesseract
  • Разработан алгоритм формирования структуры элементов выходного документа в соответствии с исходным входным документом
  • Реализована разметка текста цветом в выходном документе в зависимости от степени уверенности распознавания
  • Разработан Web-интерфейс на библиотеке Streamlit
Участники
1 команды проекта
  • Руслан Гришаков
    Тимлид проекта
  • Дмитрий Нечаев
    Предприниматель
    • Разработка скрипта для первичной сортировки датасета на основе фреймворка EasyOCR для удаления абсолютно непригодных к работе данных
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
    • Обучение моделей для сегментации входных документов согласно размеченным классам
    • Поиск и подготовка датасета для обработки таблиц
    • Обучение моделей для дополнительной сегментации таблиц
    • Формирование структуры элементов выходного документа в соответствии с исходным входным документом
    • Разработка структуры проекта
  • Василий Даутов
    Ведущий разработчик, научный руководитель R&D центра etzetop
    • Исследование инструментов для увеличения четкости изображений
    • Создание скрипта для увеличения четкости изображений методом интерполяции Ланцоша
    • Исследование фреймворков PageDewrap и Unproject_text для восстановления перспективы текста
    • Исследование и сравнительный анализ фреймворков Tesseract, EasyOCR и PaddleOCR в задачах OCR
    • Исследование возможностей по обучению моделей PaddleOCR
    • Разработка структуры проекта
  • Вадим Кривонос
    Программист
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
    • Обучение моделей для сегментации входных документов согласно размеченным классам
    • Разработка скриптов для выравнивания плоскости листов и формы содержащихся таблиц
    • Разработка скриптов для формирования структуры таблиц
    • Разметка датасета и обучение моделей для исправления геометрии таблиц
    • Формирование структуры элементов выходного документа в соответствии с исходным входным документом
    • Разработка структуры проекта
  • Сергей Карпов
    Программист C#, Python. Документовод, разработчик офисной автоматизации
    • Исследование инструментов для выравнивания плоскости листов входных документов
    • Разработка Web-интерфейса на библиотеке Streamlit
    • Рефакторинг кода проекта
    • Упаковка релиза приложения и создание скрипта для его развертывания
  • Ирина Гаврикова
    Доцент МФТИ
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
    • Исследование инструментов библиотеки OpenCV для улучшения качества входных документов
    • Исследование и сравнительный анализ фреймворков Tesseract, EasyOCR и PaddleOCR в задачах OCR
    • Освоение интеграции проекта с помощью библиотеки Streamlit
  • Татьяна Некрасова
    Разработчик - куратор в «Университете Искуственного Интеллекта»
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
    • Подготовка презентации проекта
  • Геннадий Яблонских
    Более 30 лет работал в IT сфере в крупной нефтегазодобывающей компании
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
    • Исследование методов гомографии для выравнивания плоскости листов входных документов
  • Евгений Скворцов
    Инженер по безопасности на АЭС
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
  • Наталья Старкова
    Инженер-сметчик
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
  •  Артём Спащенко
    Технический директор в компании ооо «Нефтехимремонт»
    • Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
  • Фирдинат Фатыхов
    • Исследование применимости LLM для анализа документации энергетического оборудования в целевой деятельности заказчика
Участники
2 команды проекта
  • Павел Химяк
    Тимлид проекта
  • Наиль Губайдуллин
    Помощник тимлида
  • Евгений Сапсалёв
    Менеджер проекта (Газпромнефть). разработка и внедрение цифровых продуктов в периметре компании
    • Разработка инструментов по работе с датасетом.
    • Подготовка датасета.
    • Обучение моделей: YOLO, Detectron2, DocTR (на датасетах от 170 до 80 тыс. документов).
    • Работа с моделями по восстановлению перспективы документа и детектированию объектов.
    • Проектирование и разработка итогового программного обеспечения.
    • Синхронизация работы команды.
  • Павел Ившин
    frontend разработчик
    • Работа с датасетом.
    • Обучение модели YOLO.
    • Работа с OCR-моделями для распознавания текста.
    • Изучение и работа с моделями для распознавания таблиц на изображении.
  • Павел Орлов
    Массажист
    • Работа с датасетом.
    • Помощь в переформатировании файлов.
    • Составление презентации.
  • Сергей Подобряев
    специальность "Государственное и муниципальное управление". Аспирантура: специальность "Финансы, денежное обращение и кредит". Кандидат экономических наук
    • Работа с датасетом.
    • Обучение модели YOLO.
    • Работа с моделями для детектирования объектов и распознавания текста на документах.
    • Подготовка и проведение презентации проекта для заказчика.
  • Виктор Широков
    • Эксперименты с OCR.
    • Разработка графического интерфейса для поворотов документа.