Стажировка по проекту
Компания: Онлайн-гипермаркет «РусЭкспресс»
Разработка модели для задачи NER обработки тестовых данных и нахождения необходимых сущностей
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Основная: разработка системы автоматизации обработки и отбора тендерных документов для компании "РусЭкспресс" с использованием нейронной сети или модели GPT.
Дополнительная. Разработка системы автоматизации обработки прайс-листов для компании "РусЭкспресс" с использованием нейронной сети или модели GPT
Цель модели состоит в извлечении релевантных данных для заказчика из материалов тендеров и прайс-листов с целью автоматического определения наименования товаров и их характеристик для ускорения обработки документов и исключения пропуска важной информации из-за человеческого фактора.
Исходные данные, предоставляемые участниками тендеров и поставщиками прайс-листов, не соответствуют общему стандарту. Каждый участник предоставляет информацию в собственном формате. Эти данные могут представлять собой текстовые файлы, электронные таблицы или изображения в различных форматах. Файлы также могут быть упакованы в различные типы архивов. Эти факторы замедляют обработку документов для принятия решений о участии в тендерах и сравнении условий поставщиков.
34562 объекта в форматах .txt .csv .docx .xlsx и других, большинство из которых в виде zip и rar архивов
После обработки представляет выявленную информацию в виде стандартизованных формализованных таблиц, содержащих интересующие Заказчика данные
Участники
1 команды проекта
  • Терещенко Алексей
    Тимлид проекта
    Алексей — руководитель группы разработчиков, отвечал за полную разработку проекта
  • Лещинский Игорь
    Помощник тимлида
    Игорь помогал руководителю команды организовывать процесс разработки проекта
  • Малицкий Андрей
    Помощник тимлида
    Андрей помогал руководителю команды организовывать процесс разработки проекта
  • Зайцев Валерий
    Группа НИКОС, Заместитель директора, Руководитель проекта Руниверс
    Участвовал в решении обеих задач:
    • Тендеры ( основная задача). Провел анализ исходных данных, количественный и качественный;
    • Участвовал в разработке проекта базового алгоритма работы с данными по проекту. Тестирование методов и алгоритмов работы с данными;
    • Преобразование данных к единому формату, очистка данных от дублей, структурный анализ данных, подсчет количества токенов, для оценки подходов к подаче данных в языковые модели;
    • -Подготовка датасетов для кластеризации и классификации тендерных данных, парсинг данных с сайта госзакупки;
    • Кластеризация данных с использованием метода DBSCAN без предварительно заданного количества кластеров;
    • Классификация данных тендеров на тендеры по закупке товаров и тендеры на оказание услуг и проведение работ на основе моделей бинарной классификации TF-IDF + RandomForestClassification и BERT- BertForSequenceClassification, DeepPavlov/rubert-base-cased-sentence;
    • Парсинг данных, получение и обработка тендерных заявок и преобразование полученных данных в формат Заказчика

    Прайс-листы (дополнительная задача от Заказчика):
    • Анализ исходных данных, количественный и качественный;
    • Разработка базового алгоритма работы с данными по проекту;
    • Тестирование методов и алгоритмов работы с данными;
    • Преобразование данных к единому формату, структурный анализ данных, проработка алгоритмов выделения ключевых сущностей;
    • Анализ, выявление ключевых признаков данных позволяющих идентифицировать прайс-листы в файлах. Алгоритмы очистки данных от пустых или не значимых документов, листов, полей и значений, алгоритмы преобразования данных;
    • Анализ параметров языковых моделей, влияющих на качество преобразования данных и выявления необходимых сущностей, модели gpt-3.5-turbo-0613 (основная модель), gpt-4 и gpt-4-turbo-2024-04-09;
    • Подбор параметров и содержания Промпта и анализ его влияния на качество выявления необходимых сущностей
    • Итоговый скрипт преобразования исходных прайс-листов в базовый формат прайс-листов по форме предложенной Заказчиком на основе выявления сущностей с использованием языковых моделей и проработанных алгоритмов преобразования данных
  • Выймов зорислав
    Бизнес-аналитик в ФГАУ НИИ Восход
    • Разработка и отладка скриптов автоматической обработки многоуровневых архивов разноформатных файлов с сортировкой по целевым классам с отбраковкой заведомо не релевантных задаче файлов;
    • Преобразование отсортированных файлов к единому формату для последующей автоматизированной обработки;
    • Разработка двух методов «интеллектуальная сортировки» файлов на основе содержания – выделение файлов с релевантным задаче содержанием;
    • Извлечение искомых сущностей из текстовых файлов с формализованным выводом результатов в формате Json;
    • Преобразование ответов LLM-модели в табличный вид формата XLS
  • Чернодедова Ольга
    Индивидуальный предприниматель
    Разработано несколько модулей на языке Питон для:
    • Автоматической корректной распаковки архивов .zip и .rar с исправлением кодировки в именах файлов, написанных кириллицей и исключением из обработки архивов с ошибками;
    • Анализа docx - файлов и выгрузки результатов обработки в таблицу, выгрузки таблиц в csv;
    • Модули преобразования файлов формата docx в файлы формата txt;
    • Проведено тестирование разных промптов для GigaChat с целью извлечения нужных сущностей из текстовых файлов
    • Помощь в подготовке датасета для обучения нейронной сети по классификации документов на тендеры по закупке товаров и тендеры на оказание услуг
  • Забигуллин Вадим
    Инженер по контрольно-измерительным приборам и системам автоматизации в нефтяной отрасли
    • Подготовка, предобработка и структурирование данных, с приведением к единообразному формату и исключение записей, выдающих ошибки;
    • Обучение модели spaCy на структурированных табличных данных тендеров для поиска сущностей в неструктурированных данных, таких как номер тендера, наименование объекта закупки, тип, код позиции, наименование товара, работы, услуги, их характеристики, единицы измерения, количество, цену за единицу и общую стоимость
Благодарность университетУ