Стажировка

Стажировка по проекту

Создание ИИ-системы
оцифровки документации энергооборудования

Компания: ООО «Центр конструкторско-технологических инноваций»

Суть проекта

Задачи

Для чего

Вводные данные

Предобработка (увеличение четкости, исправления наклонов) отсканированных или сфотографированных листов документации
Выделение целевых зон для распознавания текста во входных документах
Распознавание текста в целевых зонах входных документов
Формирование структуры и получение выходных документов
Разработка Web-приложения с интуитивно понятным интерфейсом для пользователей

Проект нацелен на разработку системы для преобразования в редактируемый формат отсканированных или сфотографированных листов документации
турбоагрегатов, гидротурбин и иного энергетического оборудования,
чтобы извлекать необходимые данные для анализа и
расчета индекса технического состояния (ИТС) функциональных узлов,
единиц оборудования и их групп

Заказчиком предоставлено порядка пяти тысяч файлов документации по энергетическому оборудованию в форматах pdf и jpg

Выходные данные

Разработаны скрипты для предобработки входных документов, увеличивающие четкость и выполняющие выравнивание плоскости листов и формы содержащихся таблиц
Выполнена разметка датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
Обучена модель YOLO11 для сегментации входных документов согласно размеченным классам с точностью mAP50-95(B) = 0.8397
Обучена модель YOLO11 для дополнительной сегментации таблиц на ячейки с точностью mAP50-95(B) = 0.9296
OCR с использованием фреймворка Tesseract
Разработан алгоритм формирования структуры элементов выходного документа в соответствии с исходным входным документом
Реализована разметка текста цветом в выходном документе в зависимости от степени уверенности распознавания
Разработан Web-интерфейс на библиотеке Streamlit

Участники
1 команды проекта

Руслан Гришаков

Тимлид проекта
Дмитрий Нечаев

Предприниматель
- Разработка скрипта для первичной сортировки датасета на основе фреймворка EasyOCR для удаления абсолютно непригодных к работе данных
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
- Обучение моделей для сегментации входных документов согласно размеченным классам
- Поиск и подготовка датасета для обработки таблиц
- Обучение моделей для дополнительной сегментации таблиц
- Формирование структуры элементов выходного документа в соответствии с исходным входным документом
- Разработка структуры проекта
Василий Даутов

Ведущий разработчик, научный руководитель R&D центра etzetop
- Исследование инструментов для увеличения четкости изображений
- Создание скрипта для увеличения четкости изображений методом интерполяции Ланцоша
- Исследование фреймворков PageDewrap и Unproject_text для восстановления перспективы текста
- Исследование и сравнительный анализ фреймворков Tesseract, EasyOCR и PaddleOCR в задачах OCR
- Исследование возможностей по обучению моделей PaddleOCR
- Разработка структуры проекта
Вадим Кривонос

Программист
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
- Обучение моделей для сегментации входных документов согласно размеченным классам
- Разработка скриптов для выравнивания плоскости листов и формы содержащихся таблиц
- Разработка скриптов для формирования структуры таблиц
- Разметка датасета и обучение моделей для исправления геометрии таблиц
- Формирование структуры элементов выходного документа в соответствии с исходным входным документом
- Разработка структуры проекта
Сергей Карпов

Программист C#, Python. Документовод, разработчик офисной автоматизации
- Исследование инструментов для выравнивания плоскости листов входных документов
- Разработка Web-интерфейса на библиотеке Streamlit
- Рефакторинг кода проекта
- Упаковка релиза приложения и создание скрипта для его развертывания
Ирина Гаврикова

Доцент МФТИ
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
- Исследование инструментов библиотеки OpenCV для улучшения качества входных документов
- Исследование и сравнительный анализ фреймворков Tesseract, EasyOCR и PaddleOCR в задачах OCR
- Освоение интеграции проекта с помощью библиотеки Streamlit
Татьяна Некрасова

Разработчик - куратор в «Университете Искуственного Интеллекта»
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
- Подготовка презентации проекта
Геннадий Яблонских

Более 30 лет работал в IT сфере в крупной нефтегазодобывающей компании
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
- Исследование методов гомографии для выравнивания плоскости листов входных документов
Евгений Скворцов

Инженер по безопасности на АЭС
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
Наталья Старкова

Инженер-сметчик
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
Артём Спащенко

Технический директор в компании ооо «Нефтехимремонт»
- Участие в разметке датасета на четыре класса ['изображения', 'таблицы', 'машинописный текст', 'рукописный текст'] с использованием LabelStudio
Фирдинат Фатыхов
- Исследование применимости LLM для анализа документации энергетического оборудования в целевой деятельности заказчика

Участники
2 команды проекта

Павел Химяк

Тимлид проекта
Наиль Губайдуллин

Помощник тимлида
Евгений Сапсалёв

Менеджер проекта (Газпромнефть). разработка и внедрение цифровых продуктов в периметре компании
- Разработка инструментов по работе с датасетом.
- Подготовка датасета.
- Обучение моделей: YOLO, Detectron2, DocTR (на датасетах от 170 до 80 тыс. документов).
- Работа с моделями по восстановлению перспективы документа и детектированию объектов.
- Проектирование и разработка итогового программного обеспечения.
- Синхронизация работы команды.
Павел Ившин

frontend разработчик
- Работа с датасетом.
- Обучение модели YOLO.
- Работа с OCR-моделями для распознавания текста.
- Изучение и работа с моделями для распознавания таблиц на изображении.
Павел Орлов

Массажист
- Работа с датасетом.
- Помощь в переформатировании файлов.
- Составление презентации.
Сергей Подобряев

специальность "Государственное и муниципальное управление". Аспирантура: специальность "Финансы, денежное обращение и кредит". Кандидат экономических наук
- Работа с датасетом.
- Обучение модели YOLO.
- Работа с моделями для детектирования объектов и распознавания текста на документах.
- Подготовка и проведение презентации проекта для заказчика.
Виктор Широков
- Эксперименты с OCR.
- Разработка графического интерфейса для поворотов документа.