Стажировка | НИИ ЦТ

Стажировка по проекту

Персонализированный ИИ-подбор производителей для заказов клиентов

Компания: ООО «НИИ ЦТ»

Суть проекта

Задача

Для чего

Вводные данные

Разработать систему персонализированного ИИ-подбора производителей (фабрик) на основании критериев технического задания (возможностей фабрик). Система должна анализировать и находить наиболее подходящие фабрики (из всего пула фабрик), которые могут удовлетворить потребности потенциального заказчика, сформированные в виде ТЗ (набора требований)

Быстрый поиск релевантного перечня фабрик на основе критериев заказа

Структурированные и описательные данные по перечню заказов в заданной форме. Данные предоставлены как в синтетическом виде, так и в виде небольшого перечня реальных фабрик и заказов

Реализовано 6 различных моделей, обеспечивающих поиск релевантных фабрик с точностью от 0.7 до 0.99
Реализован каскад моделей, обеспечивающий определение характеристик одежды по 3 различным классификациям с точностью более 95%

Выходные данные

Участники
1 команды проекта

Бугров Алексей

Тимлид проекта
- Организация и планирование работ группы, координация работы группы по решению прикладных задач проекта
- Взаимодействие с заказчиком
- Экспертная поддержка участников стажировки
- Разработка итоговых презентационных материалов по проекту
Шалин Антон

Помощник тимлида
- Подготовка ТЗ и организационных документов проекта.
- Ведение документации и коммуникаций с участниками.
- Проведение онлайн-встреч и координация вопросов группы.
- Кураторская поддержка по решению на LSTM Seq2Seq автоэнкодере.
- Создание презентационных материалов проекта
Мышлякова Анна

Специалист по геоинформационным системам
- Обработка данных и выделение значимых признаков из таблиц
- Тестирование гипотез: рекомендательные системы, косинусное сходство, модель encoder-decoder
- Создание уникального словаря на основе имеющихся данных
- Векторизация входных данных с учётом требований модели encoder-decoder
- Построение алгоритма обработки входных данных с использованием модели encoder-decoder и косинусного сходства
- Обучение модели и подбор гиперпараметров
- Генерация описания релевантной фабрики и сравнение с общей базой по косинусному сходству
- Создание приложения на базе Streamlit, реализация готового продукта
- Создание презентации
Комляков Денис

ИТ рекрутер
- Проработка гипотезы о работе модели, обученной на большом количестве случайно созданных заказов
- Проработка гипотезы о возможностях поиска целевых фабрик в векторном пространстве
- Подготовка веб-приложения демо-панели для заказчика на Streamlit с возможностью показа и сравнения различных моделей для выбора фабрик под заказы
- Интеграция с каскадом моделей YOLOv8 для получения целевых характеристик одежды на основе исходного изображения
- Вывод результата работы выбранной модели (список релевантных фабрик) и сравнение возможностей фабрик с характеристиками заказа
Майоров Сергей

индивидуальный предприниматель, работает в сфере ИТ
- Анализ признаков заказов и компаний в привязке к изображению
- Классификация каждого признака компании в отдельности
- Формирование предварительного датасета для каждого признака
- Оценка сбалансированности классов каждого датасета
- Обогащение датасета изображениями определенных классов
- Аугментация изображений каждого датасета для формирования сбалансированных окончательных датасетов
- Обучение моделей YOLOv8 по каждому признаку
- Написание постобработки для каждой модели
- Интеграция моделей в общую программу.
- Оформление документации и презентации по проделанной работе
Уразова Юлия

СММ-специалист, таргетолог, директолог
- Обработка данных и выделение значимых признаков из таблиц
- Тестирование гипотез: RandomForestRegressor, HistGradientBoostingRegressor, DBSCAN, TF-IDF (gensim)
- Лемматизация, стемминг, векторизация входных данных для модели TF-IDF
- Обучение заданной модели
- Итог: ранжирование описаний по схожести с опорными текстами (описания фабрик) при помощи модели TF-IDF
- Подготовка кода для реализации в Streamlit
- Создание презентации
Еремин Сергей

Системный администратор, ООО «Деревенское молочко»
- Обработка данных, выделение значимых признаков из таблиц
- Обучение моделей Doc2Vec и Word2Vec.
- Векторизация данных с использованием обученных моделей
- Обработка и приведение векторов к общему виду, сравнение заказов и фабрик методом косинусного сходства
- Создание презентационных материалов проекта
Широкова Элина

Специалист по поддержке Scala ERP
- Обработка данных, выделение значимых признаков из таблиц
- Обучение моделей LSI (Latent Semantic Indexing), Doc2Vec
- Векторизация данных с использованием обученных моделей (rubert-tiny)
- Сравнение заказов и фабрик методом косинусного сходства
- Создание презентационных материалов проекта
Хмелевский Илья

Студент колледжа на специальности «информационные технологии и программирование»//Выпускник УИИ по программе «Data Science и Нейронные сети»
- Обработка и анализ данных, выделение значимых признаков из таблиц, а также кластеризация фабрик
- Обучение моделей XGBRanker (модель ранжирования), Nearest Neighbors (модель ближайших соседей), SVR (метод опорных векторов) на основе кластеров заказов
- Создание презентационных материалов проекта