Стажировка по проекту
Персонализированный ИИ-подбор производителей для заказов клиентов
Компания: ООО «НИИ ЦТ»
Суть проекта
Задача
Для чего
Вводные данные
Разработать систему персонализированного ИИ-подбора производителей (фабрик) на основании критериев технического задания (возможностей фабрик). Система должна анализировать и находить наиболее подходящие фабрики (из всего пула фабрик), которые могут удовлетворить потребности потенциального заказчика, сформированные в виде ТЗ (набора требований)
Быстрый поиск релевантного перечня фабрик на основе критериев заказа
Структурированные и описательные данные по перечню заказов в заданной форме. Данные предоставлены как в синтетическом виде, так и в виде небольшого перечня реальных фабрик и заказов
  • Реализовано 6 различных моделей, обеспечивающих поиск релевантных фабрик с точностью от 0.7 до 0.99
  • Реализован каскад моделей, обеспечивающий определение характеристик одежды по 3 различным классификациям с точностью более 95%
Выходные данные
Участники
1 команды проекта
  • Бугров Алексей
    Тимлид проекта
    • Организация и планирование работ группы, координация работы группы по решению прикладных задач проекта
    • Взаимодействие с заказчиком
    • Экспертная поддержка участников стажировки
    • Разработка итоговых презентационных материалов по проекту
  • Шалин Антон
    Помощник тимлида
    • Подготовка ТЗ и организационных документов проекта.
    • Ведение документации и коммуникаций с участниками.
    • Проведение онлайн-встреч и координация вопросов группы.
    • Кураторская поддержка по решению на LSTM Seq2Seq автоэнкодере.
    • Создание презентационных материалов проекта
  • Мышлякова Анна
    Специалист по геоинформационным системам
    • Обработка данных и выделение значимых признаков из таблиц
    • Тестирование гипотез: рекомендательные системы, косинусное сходство, модель encoder-decoder
    • Создание уникального словаря на основе имеющихся данных
    • Векторизация входных данных с учётом требований модели encoder-decoder
    • Построение алгоритма обработки входных данных с использованием модели encoder-decoder и косинусного сходства
    • Обучение модели и подбор гиперпараметров
    • Генерация описания релевантной фабрики и сравнение с общей базой по косинусному сходству
    • Создание приложения на базе Streamlit, реализация готового продукта
    • Создание презентации
  • Комляков Денис
    ИТ рекрутер
    • Проработка гипотезы о работе модели, обученной на большом количестве случайно созданных заказов
    • Проработка гипотезы о возможностях поиска целевых фабрик в векторном пространстве
    • Подготовка веб-приложения демо-панели для заказчика на Streamlit с возможностью показа и сравнения различных моделей для выбора фабрик под заказы
    • Интеграция с каскадом моделей YOLOv8 для получения целевых характеристик одежды на основе исходного изображения
    • Вывод результата работы выбранной модели (список релевантных фабрик) и сравнение возможностей фабрик с характеристиками заказа
  • Майоров Сергей
    индивидуальный предприниматель, работает в сфере ИТ
    • Анализ признаков заказов и компаний в привязке к изображению
    • Классификация каждого признака компании в отдельности
    • Формирование предварительного датасета для каждого признака
    • Оценка сбалансированности классов каждого датасета
    • Обогащение датасета изображениями определенных классов
    • Аугментация изображений каждого датасета для формирования сбалансированных окончательных датасетов
    • Обучение моделей YOLOv8 по каждому признаку
    • Написание постобработки для каждой модели
    • Интеграция моделей в общую программу.
    • Оформление документации и презентации по проделанной работе
  • Уразова Юлия
    СММ-специалист, таргетолог, директолог
    • Обработка данных и выделение значимых признаков из таблиц
    • Тестирование гипотез: RandomForestRegressor, HistGradientBoostingRegressor, DBSCAN, TF-IDF (gensim)
    • Лемматизация, стемминг, векторизация входных данных для модели TF-IDF
    • Обучение заданной модели
    • Итог: ранжирование описаний по схожести с опорными текстами (описания фабрик) при помощи модели TF-IDF
    • Подготовка кода для реализации в Streamlit
    • Создание презентации
  • Еремин Сергей
    Системный администратор, ООО «Деревенское молочко»
    • Обработка данных, выделение значимых признаков из таблиц
    • Обучение моделей Doc2Vec и Word2Vec.
    • Векторизация данных с использованием обученных моделей
    • Обработка и приведение векторов к общему виду, сравнение заказов и фабрик методом косинусного сходства
    • Создание презентационных материалов проекта
  • Широкова Элина
    Специалист по поддержке Scala ERP
    • Обработка данных, выделение значимых признаков из таблиц
    • Обучение моделей LSI (Latent Semantic Indexing), Doc2Vec
    • Векторизация данных с использованием обученных моделей (rubert-tiny)
    • Сравнение заказов и фабрик методом косинусного сходства
    • Создание презентационных материалов проекта
  • Хмелевский Илья
    Студент колледжа на специальности «информационные технологии и программирование»//Выпускник УИИ по программе «Data Science и Нейронные сети»
    • Обработка и анализ данных, выделение значимых признаков из таблиц, а также кластеризация фабрик
    • Обучение моделей XGBRanker (модель ранжирования), Nearest Neighbors (модель ближайших соседей), SVR (метод опорных векторов) на основе кластеров заказов
    • Создание презентационных материалов проекта