Стажировка
ИИ-система по анализу и автоматизации обработки клиентских отзывов и вопросов на маркетплейсе с оценкой работы операторов
Компания: ООО «ГИпер»
Суть проекта
Для чего
Вводные данные
Проект преследует цель сократить ручной труд при подаче жалоб на негативные отзывы на маркетплейсе путем подбора нейросетью наиболее релевантной причины из предложенных маркетплейсом.
Реализация проекта позволит также повысить эффективность использования инструмента жалоб на негативные отзывы и улучшения рейтинга карточки/магазина.


  • Формирование датасета из клиентских отзывов на маркетплейсе: коррекция (очистка) данных, устранение дубликатов, разметка, балансировка;
  • Предобработка данных:нормализация, токенизация;
  • Формирование правил классификации;
  • Подбор нейросетевых решений для классификации клиентских отзывов;
  • Разработка решения по интеграции.
  • Исследованы методы решения целевых задач;
  • Разработаны правила классификации клиентских отзывов;
  • Сформирован датасет для обучения моделей ML;
  • Сформировано несколько сценариев для обработки клиентских отзывов с использованием алгоритмических методов и моделей ML;
  • Создано Web-приложение с интеграцией сформированных решений;
  • Разработан Telegram-бот для взаимодействия с системой классификации клиентских отзывов.
Текстовые клиентские отзывы, получаемые с маркетплейса.
задачи
результаты
Участники
команды проекта
  • Гришаков руслан
    Тимлид проекта
    • Руководство командой разработчиков на всех этапах проекта
    • Организация и планирование задач
    • Контроль и соблюдение сроков
  • фролов владимир
    помощник тимлида
    • Помощь в организационных вопросах по проекту
    • Инициация и проведение дополнительных встреч стажеров
    • Наставление и обучение стажеров
  • докучаева светлана
    Помощник тимлида
    • Помощь в организационных вопросах по проекту
    • Инициация и проведение дополнительных встреч стажеров
    • Наставление и обучение стажеров
  • ванюшкина ксения
    Переводчик английского/корейского языков
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей, формулирование правил разметки и фильтрации
    • Исследование и обработка внешних датасетов с клиентскими отзывами
    • Участие в создании и разметке датасета для обучения моделей ML: сбор и генерация дополнительных данных для обеспечения баланса, адаптация данных из сторонних источников, ремаппинг классов
    • Проведение экспериментов с моделями ML: тестирование кастомных архитектур, дообучение предобученных моделей, подбор гиперпараметров
    • Формирование решения на основе дообученной модели DistilBERT: использование в пайплайне предобработки и автоматической разметки данных по словарям, batch-инференс модели с bias для корректировки распределения классов
    • Подготовка пайплайна с ML решением к интеграции в Web-приложение
  • соколовский виталий
    инженер-системотехник
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей
    • Разработка правил классификации клиентских отзывов: определение критериев и категорий
    • Создание схемы проекта: составление пайплайна реализации проекта
    • Проведение экспериментов с моделями ML: сравнение моделей (rubert-tiny-toxicity, rubert-toxic-pikabu-2ch, toxic-bert) для поиска нецензурной лексики, сравнение LLM (gpt-4o-mini, deepseek-chat-v3, gemini-2.5, mistral-small-3.2) для использования в разметке датасета (промпт-инжиниринг в работе с LLM), дообучение модели ruBert-large
    • Создание и разметка датасета для обучения моделей ML: сбор и генерация дополнительных данных для обеспечения баланса, координация работы коллег, итоговый сбор данных
    • Реализация пайплайна обработки отзывов с классификацией: по звездам, повторные, пустые, анализ по словарям, обработка с помощью LLM
    • Разработка Telegram-бота для взаимодействия с системой классификации
  • быков андрей
    пенсионер
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей
    • Разработка правил классификации клиентских отзывов: определение критериев и категорий, системный анализ, структурирование процесса классификации
    • Подбор методов классификации для каждого класса отзывов
    • Создание и разметка датасета для обучения моделей ML: сбор и генерация дополнительных данных для обеспечения баланса, создание словарей ключевых фраз, разработка шаблонов и скриптов с использованием ключевых фраз, разработка парсера и парсинг данных
    • Проведение экспериментов с моделями ML: тестирование моделей для поиска нецензурной лексики, создание гибридной модели для выявления положительных отзывов с негативной оценкой на основе модели rubert-base-cased-sentiment, тестирование кастомных архитектур и дообучение rubert-tiny2 для обнаружения в отзывах политического контекста, работа с LLM (промпт-инжиниринг в работе с LLM)
    • Подготовка финальной системы классификации отзывов к интеграции в Web-приложение
  • фролов иван
    эксперт технической поддержки 1С
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей
    • Исследование и обработка внешних датасетов с клиентскими отзывами
    • Участие в создании и разметке датасета для обучения моделей ML: сбор и обработка дополнительных данных
    • Исследование методов классификации отзывов
    • Разработка скрипта с использованием регулярных выражений для предобработки и фильтрации данных
    • Создание Web-приложения на основе Flask с интеграцией ML решений
    • Тестирование и помощь в отладке сформированных решений
  • голдобина влада
    SQA, SYSTEM TESTING
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей, формулирование правил разметки и фильтрации, создание словарей ключевых фраз и авторазметка с использованием алгоритма Аho-Corasick и регулярных выражений
    • Исследование и обработка внешних датасетов с клиентскими отзывами
    • Участие в создании и разметке датасета для обучения моделей ML: сбор и обработка дополнительных данных, адаптация данных из сторонних источников, создание словарей ключевых фраз для разметки
    • Проведение экспериментов с моделями ML: обучение и тестирование моделей TF-IDF и SentenceTransformer
    • Подготовка пайплайна с ML решением к интеграции в Web-приложение
  • горбиков дмитрий
    директолог в агентстве
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей, создание ML модели для использования в разметке
    • Исследование и обработка внешних датасетов с клиентскими отзывами
    • Участие в создании и разметке датасета для обучения моделей ML: обработка и адаптация данных из сторонних источников
    • Проведение экспериментов с моделями ML: тестирование кастомных архитектур
  • кириллов александр
    НАЧАЛЬНИК ОТДЕЛА АВТОМАТИЗАЦИИ
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей
    • Исследование и обработка внешних датасетов с клиентскими отзывами
    • Участие в создании и разметке датасета для обучения моделей ML: обработка и адаптация данных из сторонних источников, корректировка и ручная разметка данных, подбор методов для авторазметки
    • Проведение экспериментов с моделями ML: тестирование моделей для использования в авторазметке (bart-large-mnli, deberta-v3-base-zeroshot-v1, all-MiniLM-L6-v2), обучение и тестирование моделей rubert-base-cased-conversational и sbert_large_mt_nlu_ru, работа с LLM (промпт-инжиниринг в работе с LLM)
  • раянов ришат
    управляющий
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей, кластеризация данных
    • Помощь в создании схемы проекта
    • Участие в создании и разметке датасета для обучения моделей ML: сбор и генерация дополнительных данных для обеспечения баланса с использованием LLM (промпт-инжиниринг в работе с LLM), помощь в создании словарей ключевых фраз
    • Тестирование и помощь в отладке сформированных решений
  • прокопьева людмила
    менеджер маркетплейсов
    • Анализ и обработка исходного датасета: исследование данных, выявление проблем и закономерностей, кластеризация данных
    • Помощь в создании схемы проекта
    • Участие в создании и разметке датасета для обучения моделей ML: сбор и генерация дополнительных данных для обеспечения баланса с использованием LLM (промпт-инжиниринг в работе с LLM), помощь в создании словарей ключевых фраз
    • Помощь в подборе методов классификации клиентских отзывов
  • плясов александр
    представитель заказчика
    • Консультирование по целевым задачам проекта