Стажировка по проекту
Компания: ООО «КОРАЛ ТРЕВЕЛ»
Разработка модели для обработки обращений В2В клиентов при взаимодействии с сервисной системой управления обработки запросов с целью эффективной маршрутизации обращений клиентов к соответствующим группам назначения на основе исторических данных
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Требуется разработать нейросеть для классификации B2B текстовых запросов внтури франчайзинговой сети заказчика для последующей их эффективной маршрутизации по структуре подразделений заказчика.
Индекс, соответствующий классу подразделения маршрутизации сообщения по результатам его классификации
Датасет в виде численных и текстовых табличных данных
Компания заказчика имеет структуру подразделений, которые в свою очередь ведут коммуникации с партнерами франчайзинговой сети. Заказчик получает массив сообщений от партнеров по различным видам бизнес-задач. Их необходимо эффективно маршрутизировать по подразделениям структуры компании заказчика, в зависимости от контекста сообщений с целью адресации сообщения подразделению, специализирующемуся на описываемой в сообщении бизнес-задаче.
Участники
команды проекта
  • Резер Артём
    Тимлид проекта
    Артем — руководитель проекта, участие в разработке, координация работы команды, постановка задач, контроль качество и сроков их выполнения
  • Сорокин Андрей
    Помощник тимлида
    Андрей помогал руководителю команды организовывать процесс разработки проекта
  • Ляшенко Дмитрий
    веб-разработчик в ООО УФС
    • Парсинг и предобработка исходных данных табличных данных заказчика;
    • Очистка и трансформация текстовых данных с применением библиотек pymorphy2, nltk;
    • Конструирование признаков, генерация датасета для обучения нейросети, проведение экспериментов с вариациями датасета, разработка гипотез;
    • Обучение модели BertForSequenceClassification библиотеки transformers с весами 'bert-base-multilingual-cased', 'DeepPavlov/XLM-RoBERTa-Large-En-Ru', 'DeepPavlov/rubert-base-cased-sentence' для классификации обращений на 116 классов, проведение экспериментов с гиперпараметрами модели, такими как output_hidden_states, output_attentions
  • Забигуллин Вадим
    инженер по контрольно-измерительным приборам и системам автоматизации в нефтяной отрасли
    • Конструирование признаков, генерация датасета для обучения нейросети, проведение экспериментов с вариациями датасета, разработка гипотез;
    • Обучение модели BertForSequenceClassification библиотеки transformers с весами 'bert-base-multilingual-cased', 'DeepPavlov/XLM-RoBERTa-Large-En-Ru', 'DeepPavlov/rubert-base-cased-sentence' для классификации обращений на 116 классов;
    • Проведение экспериментов с расширением словаря токенайзера модели BERT набором релевантных проекту слов и обучением модели с модифицированным токенайзером
  • Казанцев Александр
    Руководитель CRM департамента Coral Travel
    • Анализ и комментирование логики построения исходных данных;
    • Разведывательный анализ исходных данных с применением специализированных библиотек;
    • Конструирование признаков из исходных данных для датасета, разработка гипотез;
    • Конструирование классов к предсказанию, изучение вопросов объединения видов образцов в классы и укрупнения классов исходя из логики данных;
    • Подготовка справочной и вспомогательной информации для выполнения предобработки данных
  • Бочков Глеб
    • Анализ исходных данных заказчика с применением специализированных библиотек разведывательного анализа данных;
    • Парсинг и предобработка исходных данных табличных данных заказчика;
    • Очистка и трансформация текстовых данных с применением библиотек pymorphy2, nltk;
    • Конструирование признаков, генерация датасета для обучения нейросети, проведение экспериментов с вариациями датасета, разработка гипотез;
    • Обучение модели BertForSequenceClassification библиотеки transformers с весами 'bert-base-multilingual-cased' для классификации обращений на 116 классов;
    • Написание скриптов оценки точности обучения моделей
Участники
2 команды проекта
  • Белоус Павел
    Тимлид проекта
    Павел - руководитель группы разработчиков, отвечал за полную разработку проекта
  • Ерюкова Татьяна
    Помощник Тимлида
    • Определение направлений разработки;
    • Постановка гипотез по решению стоящих задач;
    • Организация работы группы, помощь тимлиду в администрировании и управлении;
    • Формализация и описание задач, контроль их выполнения стажерами;
    • Проведение промежуточных встреч для ответов на вопросы стажеров;
    • Компиляция скриптов и результатов работ стажеров
  • Алимжанов Ермек
    • Подготовка датасета;
    • Написание скриптов по предобработке данных;
    • Написание скриптов по постобоработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
    • Использование pyTorch для работы с большим массивом данных;
    • Изучение и практическое использования языковой модели Bert, библиотеки Deep Pavlov и Autokeras
  • Пашков Сергей
    Индивидуальный предприниматель: бухгалтерское обслуживание организаций, внедрение системы мотивации персонала от конечного результата, управленческий учет
    • Подготовка датасета;
    • Написание скриптов по предобработке данных;
    • Использование локальных языковых моделей для решения задачи;
    • Изучение и практическое использования Autokeras
  • Деркунов Михаил
    Системный администратор
    • Подготовка датасета;
    • Написание скриптов по предобработке данных;
    • Изучение и практическое использования языковой модели Bert и Autokeras
  • Богомолов Сергей
    Ведущий инженер в газпром диагностике
    • Подготовка датасета;
    • Написание скриптов по предобработке данных;
    • Изучение и практическое использования языковой модели Bert
  • Химин Артем
    • Подготовка датасета;
    • Написание скриптов по предобработке данных;
    • Использование локальных языковых моделей для решения задачи;
    • Изучение и практическое использования языковой модели Bert и библиотеки Deep Pavlov