Стажировка по проекту
Компания: Media108
Классификация звонков клиентов на целевые и нецелевые
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов
Вывод результатов классификации в JSON формате
  • Первый набор файлов - это выгрузки в формате CSV с информацией по звонкам;
  • Второй набор файлов - аудиозаписи звонков
Для определения назначения звонка используется человеческий труд, и внедрение искусственного интеллекта способно существенно повысить точность такой работы и сократить трудозатраты
Участники
1 команды проекта
  • Белоус Павел
    Тимлид проекта
    Павел - руководитель группы разработчиков, отвечал за полную разработку проекта.

    • Определение направлений разработки;
    • Постановка гипотез по решению стоящих задач;
    • Проведение еженедельных;
    • Организация работы и контроль задач
  • Гришаков Руслан
    Помощник Тимлида
    • Определение направлений разработки,
    • Постановка гипотез по решению стоящих задач,
    • Организация работы группы, помощь тимлиду в администрировании и управлении, формализация и описание задач;
    • Контроль выполнения задач стажерами;
    • Проведение промежуточных встреч для ответов на вопросы стажеров,
    • Компиляция скриптов и результатов работ стажеров
  • Гаврилков Николай
    системный администратор у местного интернет провайдера
    • Ручной и автоматический (AutoML,Automodel, autokeras) подбор архитектуры модели;
    • Эксперименты с транскрибаторами whisper и SR;
    • Эксперименты с предобученными моделями с Torch и BERT;
    • Написание скриптов по предобработке данных;
    • Написание скриптов по постобоработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
  • Петров Роман
    Ранее руководитель торговой точки в связном
    • Эксперименты с транскрибаторами whisper и SR;
    • Написание скриптов по предобработке данных;
    • Написание скриптов по постобоработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
    • Внедрение модели распознавания, бэкэнд, FastApi, doccker
  • Окуловский Владимир
    Ведущий инженер 2 линии поддержки в сотовой компании
    • Создание альтернативного алгоритма классификации основанного только на транскрибированном тексте звонка;
    • Эксперименты с транскрибаторами;
    • Тестирование и проработка гипотез по повышению точности модели
  • Марфида Александр
    По специальности - автоматизированная обработка информации, АСУ
    • Фундаментальные исследования обработки аудиозаписей;
    • Эксперименты с транскрибаторами;
    • Написание скриптов по предобработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
    • Тестирование API Yandex SpeechKit
  • Орловский Владимир
    • Эксперименты с транскрибаторами whisper и SR
Участники
2 команды проекта
  • Рубцов Антон
    Тимлид проекта
    Антон - руководитель группы разработчиков, отвечал за полную разработку проекта.

    • Определение направлений разработки;
    • Постановка гипотез по решению стоящих задач;
    • Проведение еженедельных;
    • Организация работы и контроль задач
  • Гришаков Руслан
    Помощник Тимлида
    • Координация стажеров в проекте, помощь в управлении проектом. Организация и контроль исследовательских процессов;
    • Управление разработкой, предоставление примеров разработки, помощь в выборе направления параметризации данных;
    • Контроль выполнения текущих и выдача новых заданий. Поддержка в анализе и визуализации данных;
    • Сбор результатов работы стажёров и отчётность перед заказчиком. Отслеживание прогресса проекта и метрик моделей нейросетей;
    • Проведение еженедельных встреч в спринт формате, помощь тимлиду
  • Кирюшин Артём
    студент МАИ факультета «Системы управления, информатика и электроэнергетика» кафедры 307 «Цифровые технологии и информационные системы», 2 курс / работает техником в ОКПО Дирекции «Аэромобильности»
    • Подготовка, очистка и структурирование табличных данных с помощью Pandas;
    • Работа с аудиоданными: исключение неинформативных аудиофайлов;
    • Разработка архитектуры модели: построение и проверка моделей машинного и глубокого; обучения, использование AutoML и Keras
    • Выбор и применение технологий; транскрибации аудио данных: Whisper, Vosk, Speech_recognition, Nemo;
    • Классификация текстов с помощью BERT и AutoKeras;
    • Тестирование и оценка моделей, применение метрик f1-score и recall;
    • Интеграция модели в клиент-серверное взаимодействие с использованием FastAPI; Установка и настройка CUDA
  • Козырев Сергей
    Тестировщик программного обеспечения (Software QA Automation Engineer)
    • Работа с аудиоданными: отбор аудиофайлов по критериям заказчика;
    • Параметризация аудио с помощью библиотеки Librosa;
    • Работа с файловой системой. Библиотеки os, pickle;
    • Нормирование признаков в соответствии со стандартным нормальным распределением. Sklearn.StandardScaler;
    • Подбор архитектуры нейросети с помощью Tensorflow.Keras, использование FunctionalAPI;
    • Визуализация результатов обучения с помощью Matplotlib;
    • Настройка виртуального окружения и разработка приложения через FastAPI
  • Дацко Даниил
    Обучение в Рязанском Строительном Колледже (РСК), по специальности: Строительство и эксплуатация зданий и сооружений, Старший техник
    • Обработка таблиц, создание DataFrame: Pandas, Numpy;
    • Подготовка данных и разделение на выборки;
    • Сбор аудиоданных организация файлов с Os, Shutil;
    • Транскрибация аудио, преобразование с Vosk, Whisper;
    • Векторизация текста: BertTokenizer, BertModel, Transformers;
    • Обучение моделей нейросетей: TensorFlow, Keras, Sklearn;
    • Создание веб-сайта с помощью FastAPI, Uvicorn, Pyngrok
  • Бондарев Олег
    Техник-электрик
    • Анализ данных и поиск путей решения задачи;
    • Обработка и подготовка табличных данных с помощью Pandas, Numpy;
    • Транскрибация аудио с помощью Whisper;
    • Токенизация транскрибированных текстов с помощью Keras.Tokenizer;
    • Подбор архитектуры и обучение нейронных сетей с помощью Tensorflow.Keras;
    • Визуализация результатов обучения с помощью Matplotlib
Демонстрация проекта 2 команды
Благодарность университетУ