Стажировка
Создание системы с использованием технологий искусственного интеллекта для обработки больших данных из каталогов и прайс-листов промышленной
инструментальной оснастки
ООО «СЛТ»
Разработка и внедрение системы, которая автоматически собирает и обрабатывает прайс-листы и каталоги поставщиков, нормализует наименования, объединяет дубли и формирует единый структурированный набор данных. Результат выгружается в корпоративные шаблоны (Excel/БД) и готов к дальнейшему использованию во внутренних процессах.
основная задача проекта:
Для чего был нужен проект
выходные данные
  • Единая нормализованная витрина данных (табличная структура) с консолидацией дублей
  • Выгрузки Excel по корпоративному шаблону (включая свод и журнал изменений)
  • Реляционная база данных/хранилище для интеграции с внутренними системами
  • Отчеты о качестве нормализации и покрытии словарями; логи обработки и возможность отката изменений
  • Итоговые презентационные материалы (демо-витрины, сводные листы) для передачи заказчику
Проект призван повысить эффективность подготовки коммерческих и закупочных материалов: сократить ручной труд при сведении разнородных источников,уменьшить ошибки в наименованиях и спецификациях, ускорить цикл согласования и последующей аналитики. Система обеспечивает единый словарь нормализации, прозрачные логи операций и быструю выгрузку в согласованные форматы, что повышает качество данных и скорость работы смежных подразделений.
  • Каталоги и прайс-листы поставщиков в форматах PDF, DOCX, XLS/XLSX, CSV; изображения (JPG/PNG) для OCR
  • Внутренние справочники синонимов и правил нормализации номенклатуры
  • Исторические выгрузки и эталонные корпоративные шаблоны (для проверки консистентности)
входные данные
Участники
команды проекта
  • Сергей Коваленко.
    Тимлид команды
    • Организовал процесс разработки (планирование спринтов, распределение задач, контроль сроков)
  • Елена Михно
    Помощник тимлида
    • Организовала процессы и коммуникации
    • Вела учёт посещаемости и контроль исполнения задач
    • Курировала финальную сборку презентации и материалов демо
  • Козиков Андрей
    • Развернул парсинг PDF → CSV → упрощение → Excel и загрузку через Streamlit
    • Собрал черновой парсер без ML для каталога D’Andrea и настроил сквозной пайплайн для PDF/JPEG/TXT с предобработкой
    • Провёл бенчмарки: QWEN3-1.7B показал лучшую скорость и стабильность, Qwen2-VL-7B — более высокое качество при предобработке изображений
  • Лахно Дмитрий
    • Реализовал распознавание табличных данных (Tesseract, EasyOCR, PaddleOCR) и парсинг в Django-MVP
    • Настроил постобработку через OpenAI/промпты и добавил парсер для Excel/JPG
    • Исследовал дополнительные варианты постобработки и улучшил промпты
  • Верещак Валерия
    • Разработала GUI на PyQt5 (онлайн GPT-4o/ЯндексGPT + офлайн EasyOCR/Ollama) с поддержкой PDF/DOCX/XLSX/TXT/JPG/PNG
    • Настроила дедупликацию и нормализацию с подтверждением, добавила экспорт в Excel и модуль «Поиск аналогов» (веса, допуски)
    • Спроектировала модульную архитектуру (config/core/gui/llm/…) и обработала каталоги (YG-1, Karcan и др.)
  • Андрей Степанов
    • Написал код извлечения данных из PDF и провёл тесты контурных моделей и Qwen
    • Собрал прототипы на Gradio и сравнил OCR-модели (PaddleOCR/EasyOCR/Tesseract)
    • Подготовил ноутбук для обработки DOCX/XLSX с Faiss и ChatGPT
  • Архипов Александр
    • Сверстал каркас проекта и реализовал UI на PyQt5
    • Настроил чтение Excel/PDF (текст/картинки) через pdfplumber и Tesseract
    • Реализовал экспорт в Excel по настраиваемому шаблону
  • Гараев Тимур
    • Сравнил бесплатные OCR: EasyOCR (хорошо, но без таблиц) и FreeOCR (лимиты/ключи)
    • Подготовил выводы по применимости бесплатного OCR
    • Адаптировал препроцессинг локально, подготовил универсальный Docker
  • Полянский Валерий
    • Задал архитектуру пайплайна: парсинг → извлечение → нормализация → дедупликация → экспорт и сформировал словарь терминов (RU/EN/ZH)
    • Провёл бенчмаркинг PDF-инструментов (Camelot/Tabula/pdfplumber/PyMuPDF) с экспортом в XLSX и выбрал Camelot (lattice/stream)
    • Построил инфраструктуру экспериментов (Apache Airflow + MLflow) и исследовал unstructured/deepdoctection
  • Зайцев Степан
    • Установил и протестировал Ollama локально
    • Освоил GitHub, реализовал парсинг DOCX и подготовил прототип разбиения изображений перед распознаванием в Qwen
    • Провёл базовые тесты распознавания изображений
  • Колесов Игорь
    • Реализовал пайплайн обработки входной папки
    • Провёл эксперименты с Tesseract/EasyOCR/Camelot/PaddleOCR и API-промптами
    • Выполнил тесты с Qwen2
  • Осташков Андрей
    • Создал прототип на PyQt5, интегрировал pdfplumber/python-docx/openpyxl и настроил нормализацию с pymorphy2
    • Дообучил LayoutLMv3 на датасете FUNSD
    • Провёл эксперименты с PaddleOCR и Docker-контейнером

  • Тарасевич Илья
    • Настроил парсинг через Camelot на D’Andrea и предложил сфокусироваться на LLM
    • Развернул MiniCPM-V-2.6 в Colab и протестировал извлечение таблиц с изображений
    • Исследовал PDF-библиотеки и составил список проблемных кейсов

  • Федченко Денис
    • Протестировал Llama-3.2-Vision-11B (4080 Super) и получил хорошие результаты с OCR-предобработкой при точных промптах
    • Оценил Granite-3.2-Vision-2B и QWEN3-12B и зафиксировал неудовлетворительные результаты (контекст/эхо)

  • Волохов Александр
    • Настроил определение типа и корректности файлов (python-magic, сигнатуры) и распознавание JPG (EasyOCR/Tesseract)
    • Реализовал ветвление по PDF (текст/изображения/смешанный), подключил Camelot/Tabula-py и настроил конвертацию PDF → JPG с бинаризацией
    • Извлёк таблицы из DOC (python-docx/docx2python) и внедрил regex+NER для артикула и количества
  • Раянов Ришат
    • Систематизировал свод спринтов и подготовил финальную презентацию (сценарий демо, скринкасты, метрики)
    • Организовал контроль разработки: стендапы, канбан, приоритизация багов и фич
    • Подготовил архитектурную схему, инструкции запуска и README
  • Высокосова Надежда
    • Разработала парсер табличных данных PDF, Excel, Word, CSV, TXT
    • Реализовала гибридный подход: прямое чтение таблиц с переходом на OCR
    • Настроила и протестировала пред- и постобработку данных, а также формирование итогового отчёта