Стажировка | ООО «Современные литейные технологии»

Оставить заявку на трудоустройство

AI проекты

Этапы подбора

Почему услуга бесплатна

Резюме

Партнеры

Блог

Стажировка

Создание системы с использованием технологий искусственного интеллекта для обработки больших данных из каталогов и прайс-листов промышленной
инструментальной оснастки

ООО «СЛТ»

Разработка и внедрение системы, которая автоматически собирает и обрабатывает прайс-листы и каталоги поставщиков, нормализует наименования, объединяет дубли и формирует единый структурированный набор данных. Результат выгружается в корпоративные шаблоны (Excel/БД) и готов к дальнейшему использованию во внутренних процессах.

основная задача проекта:

Для чего был нужен проект

выходные данные

Единая нормализованная витрина данных (табличная структура) с консолидацией дублей
Выгрузки Excel по корпоративному шаблону (включая свод и журнал изменений)
Реляционная база данных/хранилище для интеграции с внутренними системами
Отчеты о качестве нормализации и покрытии словарями; логи обработки и возможность отката изменений
Итоговые презентационные материалы (демо-витрины, сводные листы) для передачи заказчику

Проект призван повысить эффективность подготовки коммерческих и закупочных материалов: сократить ручной труд при сведении разнородных источников,уменьшить ошибки в наименованиях и спецификациях, ускорить цикл согласования и последующей аналитики. Система обеспечивает единый словарь нормализации, прозрачные логи операций и быструю выгрузку в согласованные форматы, что повышает качество данных и скорость работы смежных подразделений.

Каталоги и прайс-листы поставщиков в форматах PDF, DOCX, XLS/XLSX, CSV; изображения (JPG/PNG) для OCR
Внутренние справочники синонимов и правил нормализации номенклатуры
Исторические выгрузки и эталонные корпоративные шаблоны (для проверки консистентности)

входные данные

Участники
команды проекта

Сергей Коваленко.

Тимлид команды
- Организовал процесс разработки (планирование спринтов, распределение задач, контроль сроков)
Елена Михно

Помощник тимлида
- Организовала процессы и коммуникации
- Вела учёт посещаемости и контроль исполнения задач
- Курировала финальную сборку презентации и материалов демо
Козиков Андрей
- Развернул парсинг PDF → CSV → упрощение → Excel и загрузку через Streamlit
- Собрал черновой парсер без ML для каталога D’Andrea и настроил сквозной пайплайн для PDF/JPEG/TXT с предобработкой
- Провёл бенчмарки: QWEN3-1.7B показал лучшую скорость и стабильность, Qwen2-VL-7B — более высокое качество при предобработке изображений
Лахно Дмитрий
- Реализовал распознавание табличных данных (Tesseract, EasyOCR, PaddleOCR) и парсинг в Django-MVP
- Настроил постобработку через OpenAI/промпты и добавил парсер для Excel/JPG
- Исследовал дополнительные варианты постобработки и улучшил промпты
Верещак Валерия
- Разработала GUI на PyQt5 (онлайн GPT-4o/ЯндексGPT + офлайн EasyOCR/Ollama) с поддержкой PDF/DOCX/XLSX/TXT/JPG/PNG
- Настроила дедупликацию и нормализацию с подтверждением, добавила экспорт в Excel и модуль «Поиск аналогов» (веса, допуски)
- Спроектировала модульную архитектуру (config/core/gui/llm/…) и обработала каталоги (YG-1, Karcan и др.)
Андрей Степанов
- Написал код извлечения данных из PDF и провёл тесты контурных моделей и Qwen
- Собрал прототипы на Gradio и сравнил OCR-модели (PaddleOCR/EasyOCR/Tesseract)
- Подготовил ноутбук для обработки DOCX/XLSX с Faiss и ChatGPT
Архипов Александр
- Сверстал каркас проекта и реализовал UI на PyQt5
- Настроил чтение Excel/PDF (текст/картинки) через pdfplumber и Tesseract
- Реализовал экспорт в Excel по настраиваемому шаблону
Гараев Тимур
- Сравнил бесплатные OCR: EasyOCR (хорошо, но без таблиц) и FreeOCR (лимиты/ключи)
- Подготовил выводы по применимости бесплатного OCR
- Адаптировал препроцессинг локально, подготовил универсальный Docker
Полянский Валерий
- Задал архитектуру пайплайна: парсинг → извлечение → нормализация → дедупликация → экспорт и сформировал словарь терминов (RU/EN/ZH)
- Провёл бенчмаркинг PDF-инструментов (Camelot/Tabula/pdfplumber/PyMuPDF) с экспортом в XLSX и выбрал Camelot (lattice/stream)
- Построил инфраструктуру экспериментов (Apache Airflow + MLflow) и исследовал unstructured/deepdoctection

Зайцев Степан
- Установил и протестировал Ollama локально
- Освоил GitHub, реализовал парсинг DOCX и подготовил прототип разбиения изображений перед распознаванием в Qwen
- Провёл базовые тесты распознавания изображений
Колесов Игорь
- Реализовал пайплайн обработки входной папки
- Провёл эксперименты с Tesseract/EasyOCR/Camelot/PaddleOCR и API-промптами
- Выполнил тесты с Qwen2
Осташков Андрей
- Создал прототип на PyQt5, интегрировал pdfplumber/python-docx/openpyxl и настроил нормализацию с pymorphy2
- Дообучил LayoutLMv3 на датасете FUNSD
- Провёл эксперименты с PaddleOCR и Docker-контейнером
Тарасевич Илья
- Настроил парсинг через Camelot на D’Andrea и предложил сфокусироваться на LLM
- Развернул MiniCPM-V-2.6 в Colab и протестировал извлечение таблиц с изображений
- Исследовал PDF-библиотеки и составил список проблемных кейсов
Федченко Денис
- Протестировал Llama-3.2-Vision-11B (4080 Super) и получил хорошие результаты с OCR-предобработкой при точных промптах
- Оценил Granite-3.2-Vision-2B и QWEN3-12B и зафиксировал неудовлетворительные результаты (контекст/эхо)
Волохов Александр
- Настроил определение типа и корректности файлов (python-magic, сигнатуры) и распознавание JPG (EasyOCR/Tesseract)
- Реализовал ветвление по PDF (текст/изображения/смешанный), подключил Camelot/Tabula-py и настроил конвертацию PDF → JPG с бинаризацией
- Извлёк таблицы из DOC (python-docx/docx2python) и внедрил regex+NER для артикула и количества
Раянов Ришат
- Систематизировал свод спринтов и подготовил финальную презентацию (сценарий демо, скринкасты, метрики)
- Организовал контроль разработки: стендапы, канбан, приоритизация багов и фич
- Подготовил архитектурную схему, инструкции запуска и README
Высокосова Надежда
- Разработала парсер табличных данных PDF, Excel, Word, CSV, TXT
- Реализовала гибридный подход: прямое чтение таблиц с переходом на OCR
- Настроила и протестировала пред- и постобработку данных, а также формирование итогового отчёта