Стажировка по проекту
Компания: Media108
Классификация звонков клиентов на целевые и нецелевые
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов
Вывод результатов классификации в JSON формате
  • Первый набор файлов - это выгрузки в формате CSV с информацией по звонкам;
  • Второй набор файлов - аудиозаписи звонков
Для определения назначения звонка используется человеческий труд, и внедрение искусственного интеллекта способно существенно повысить точность такой работы и сократить трудозатраты
Участники
1 команды проекта
  • Белоус Павел
    Тимлид проекта
    Павел - руководитель группы разработчиков, отвечал за полную разработку проекта.

    • Определение направлений разработки;
    • Постановка гипотез по решению стоящих задач;
    • Проведение еженедельных;
    • Организация работы и контроль задач
  • Гришаков Руслан
    Помощник Тимлида
    • Определение направлений разработки,
    • Постановка гипотез по решению стоящих задач,
    • Организация работы группы, помощь тимлиду в администрировании и управлении, формализация и описание задач;
    • Контроль выполнения задач стажерами;
    • Проведение промежуточных встреч для ответов на вопросы стажеров,
    • Компиляция скриптов и результатов работ стажеров
  • Гаврилков Николай
    системный администратор у местного интернет провайдера
    • Ручной и автоматический (AutoML,Automodel, autokeras) подбор архитектуры модели;
    • Эксперименты с транскрибаторами whisper и SR;
    • Эксперименты с предобученными моделями с Torch и BERT;
    • Написание скриптов по предобработке данных;
    • Написание скриптов по постобоработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
  • Петров Роман
    Ранее руководитель торговой точки в связном
    • Эксперименты с транскрибаторами whisper и SR;
    • Написание скриптов по предобработке данных;
    • Написание скриптов по постобоработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
    • Внедрение модели распознавания, бэкэнд, FastApi, doccker
  • Окуловский Владимир
    Ведущий инженер 2 линии поддержки в сотовой компании
    • Создание альтернативного алгоритма классификации основанного только на транскрибированном тексте звонка;
    • Эксперименты с транскрибаторами;
    • Тестирование и проработка гипотез по повышению точности модели
  • Марфида Александр
    По специальности - автоматизированная обработка информации, АСУ
    • Фундаментальные исследования обработки аудиозаписей;
    • Эксперименты с транскрибаторами;
    • Написание скриптов по предобработке данных;
    • Тестирование и проработка гипотез по повышению точности модели;
    • Тестирование API Yandex SpeechKit
  • Орловский Владимир
    • Эксперименты с транскрибаторами whisper и SR
Участники
2 команды проекта
  • Одегов Дмитрий
    • Общая координация участников разработки сайта и прототипа на Django и FastAPI;
    • Разработка frontend (HTML, CSS, JS) и Backend (Django и FastAPI);
    • Использование шаблонов: применение готовых шаблонов для ускорения разработки;
    • Доработка проекта: изменение шаблона, улучшение UX/UI, использование промтов для ChatGPT, разработанных участниками;
    • Работа с БД и GPT: операции с таблицами (SQL), планирование работы с ChatGPT, включая фоновые процессы;
    • Функционал сайта: разработка удаления, переименования, дублирования резюме и вывода в PDF;
    • Интеграция и тестирование: завершение интеграции, развертывание базы, тестирование и потенциальные доработки
  • Малофеев Александр
    Системный аналитик
    • Обсуждение архитектуры команды: роль в координации front и back, планирование взаимодействия;
    • Изучение и дообучение ChatGPT: участие в разработке архитектуры приложения, создание промтов для моделей в роли лингвиста и hr помощника;
    • Работа с базой данных Langchain: вопросы взаимодействия между Telegram и FastAPI, архитектура;
    • Интеграция телеграм-бота и FastAPI: параллельная работа, обсуждение функционала и баз данных;
    • Разработка функционала телеграм-бота: добавление голосовых сообщений, эксперименты с дообучением ChatGPT;
    • Эксперименты с ChatGPT в Google Colab: проверка поля «опыт работы», разработка дополнительных вопросов;
    • Разработка интерфейса телеграм-бота: представление видео работы меню, машина состояний
  • Шугрин Илья
    Занимается компьютерной вёрсткой в программе Adobe InDesign
    • Освоение Frontend: изучение HTML/CSS, Bootstrap, JavaScript для отслеживания изменений в полях форм;
    • Переход на FastAPI: изучение FastAPI вместо Django для разработки сайта;
    • Разработка и анализ: создание видения программы, анализ поведения сайта при масштабировании;
    • Интеграция телеграм-бота: разработка ТГ-бота для обмена данными с сайтом через FastAPI;
    • Активное участие и консультация: ччастие во встречах, консультации членов команды, обсуждение архитектуры БД;
    • Реализация функционала сайта: создание макетов, обсуждение вопросов в чате, настройка вкладок и форм;
    • Изучение WYSIWYG-редакторов: разбор альтернатив форматирования текста, синтаксического разбора, компиляторов и интерпретаторов
  • Лабзин Вячеслав
    главный специалист по снабжению на комбайновом заводе «Ростсельмаш»
    • Python, Jupyter Notebook, ChatGPT: интерактивная разработка, тестирование и визуализация данных;
    • Pandas: чтение, фильтрация и обработка табличных данных;
    • NumPy: обработка числовых массивов для алгоритмов данных;
    • Строковые методы и циклы Python: анализ и составление текста резюме;
    • Matplotlib/Seaborn: визуализация данных для анализа и статистики;
    • ChatGPT и OpenAI API: интеграция для генерации текстов, обработки языка
  • Власов Владимир
    Инженер по КИПиА
    • Структурирование HR-документов: использование Python, OpenAI API для анализа и обработки текстовых данных;
    • Анализ резюме: применение pandas для обработки и анализа данных из резюме;
    • Разработка модели БД: использование SQL и инструментов разработки баз данных для создания и структурирования БД;
    • Подготовка к CRUD-операциям: разработка с использованием Python и библиотек для взаимодействия с базой данных;
    • Использование AI для составления HR-документов: интеграция OpenAI API для генерации текстов и LangChain для структурирования информации;
    • Разработка алгоритма проверки резюме: применение FAISS для эффективного поиска по текстам и OpenAI API для генерации шаблонов
  • Фатыхов Фирдинат
    • Python и Jupyter Notebook: используются для написания и выполнения кода, анализа данных и визуализации результатов;
    • Pandas: чтение CSV-файлов, фильтрация данных, манипуляция с DataFrame для анализа табличных данных;
    • NumPy: потенциальное использование для обработки и анализа числовых массивов данных;
    • Строковые методы Python: разбиение строк, поиск и обработка текстовых данных для анализа ключевых слов;
    • Логическая индексация и циклы Python: использование для фильтрации и извлечения конкретной информации из данных;
    • Визуализация данных (matplotlib/seaborn): возможное использование для создания графиков и диаграмм, отображения результатов анализа
  • Иванов Виталий
    Руководитель тендерного отдела в области строительных и информационных технологий
    • Создание Telegram бота с ChatGPT:рРазработка бота для упрощения процесса создания резюме;
    • Голосовое управление: интеграция голосовых команд в функционал Telegram бота;
    • Преобразование текста в речь: эксперимент с добавлением возможности озвучивания ответов ChatGPT в боте;
    • Разработка опросника: создание и передача ChatGPT-генерированных анкет в базу данных через бота;
    • Отладка в терминале: исправление неполадок и улучшение функционала бота;
    • Визуализация и тестирование: использование Visual Studio Code для написания и тестирования скриптов
Участники
3 команды проекта
  • Рубцов Антон
    Тимлид проекта
    Антон - руководитель группы разработчиков, отвечал за полную разработку проекта.

    • Определение направлений разработки;
    • Постановка гипотез по решению стоящих задач;
    • Проведение еженедельных;
    • Организация работы и контроль задач
  • Гришаков Руслан
    Помощник Тимлида
    • Координация стажеров в проекте, помощь в управлении проектом. Организация и контроль исследовательских процессов;
    • Управление разработкой, предоставление примеров разработки, помощь в выборе направления параметризации данных;
    • Контроль выполнения текущих и выдача новых заданий. Поддержка в анализе и визуализации данных;
    • Сбор результатов работы стажёров и отчётность перед заказчиком. Отслеживание прогресса проекта и метрик моделей нейросетей;
    • Проведение еженедельных встреч в спринт формате, помощь тимлиду
  • Кирюшин Артём
    студент МАИ факультета «Системы управления, информатика и электроэнергетика» кафедры 307 «Цифровые технологии и информационные системы», 2 курс / работает техником в ОКПО Дирекции «Аэромобильности»
    • Подготовка, очистка и структурирование табличных данных с помощью Pandas;
    • Работа с аудиоданными: исключение неинформативных аудиофайлов;
    • Разработка архитектуры модели: построение и проверка моделей машинного и глубокого; обучения, использование AutoML и Keras
    • Выбор и применение технологий; транскрибации аудио данных: Whisper, Vosk, Speech_recognition, Nemo;
    • Классификация текстов с помощью BERT и AutoKeras;
    • Тестирование и оценка моделей, применение метрик f1-score и recall;
    • Интеграция модели в клиент-серверное взаимодействие с использованием FastAPI; Установка и настройка CUDA
  • Козырев Сергей
    Тестировщик программного обеспечения (Software QA Automation Engineer)
    • Работа с аудиоданными: отбор аудиофайлов по критериям заказчика;
    • Параметризация аудио с помощью библиотеки Librosa;
    • Работа с файловой системой. Библиотеки os, pickle;
    • Нормирование признаков в соответствии со стандартным нормальным распределением. Sklearn.StandardScaler;
    • Подбор архитектуры нейросети с помощью Tensorflow.Keras, использование FunctionalAPI;
    • Визуализация результатов обучения с помощью Matplotlib;
    • Настройка виртуального окружения и разработка приложения через FastAPI
  • Дацко Даниил
    Обучение в Рязанском Строительном Колледже (РСК), по специальности: Строительство и эксплуатация зданий и сооружений, Старший техник
    • Обработка таблиц, создание DataFrame: Pandas, Numpy;
    • Подготовка данных и разделение на выборки;
    • Сбор аудиоданных организация файлов с Os, Shutil;
    • Транскрибация аудио, преобразование с Vosk, Whisper;
    • Векторизация текста: BertTokenizer, BertModel, Transformers;
    • Обучение моделей нейросетей: TensorFlow, Keras, Sklearn;
    • Создание веб-сайта с помощью FastAPI, Uvicorn, Pyngrok
  • Бондарев Олег
    Техник-электрик
    • Анализ данных и поиск путей решения задачи;
    • Обработка и подготовка табличных данных с помощью Pandas, Numpy;
    • Транскрибация аудио с помощью Whisper;
    • Токенизация транскрибированных текстов с помощью Keras.Tokenizer;
    • Подбор архитектуры и обучение нейронных сетей с помощью Tensorflow.Keras;
    • Визуализация результатов обучения с помощью Matplotlib
Демонстрация проекта 2 команды
Благодарность университетУ