Стажировка | Айтион навигация

Стажировка по проекту

Компания: ООО «АйтиОн»

Разработка модели распознавания речи для замены текстовых фильтров в приложениях для навигации

Суть проекта

Задача

Для чего

Вводные данные

Выходные данные

Разработать модель машинного обучения, способную распознавать и интерпретировать речевые команды пользователей в контексте использования приложения для навигации

1 команда: Поисковые фильтры в JSON формате
2 команда: На основании транскрибированных фреймворком Whisper данных, искомые сущности для фильтров в json извлекаются библиотекой SpaCy c точностью ner, равной 15,01

Аудиозаписи запросов пользователей

Создать точную и быструю модель распознавания речи, способную работать в реальном времени. Обеспечить возможность перевода речевых команд в текстовый формат для дальнейшей обработки и выполнения запросов в приложении

Участники
1 команды проекта

Белоус Павел

Тимлид проекта

Павел - руководитель группы разработчиков, отвечал за полную разработку проекта
Ерюкова Татьяна

Помощник Тимлида
- Определение направлений разработки;
- Постановка гипотез по решению стоящих задач;
- Организация работы группы, помощь тимлиду в администрировании и управлении;
- Формализация и описание задач, контроль их выполнения стажерами;
- Проведение промежуточных встреч для ответов на вопросы стажеров;
- Компиляция скриптов и результатов работ стажеров
Дубровина Оксана

Предприниматель в сфере оптовой торговли и производства / аналитик / дизайнер
- Эксперименты с транскрибаторами Vosk, SRgoogle, Whisper;
- Работа с NER моделями, их тестирование и обучение;
- Работа с LLM моделями, API ChatGPT;
- Разметка данных;
- Написание скриптов по предобработке данных;
- Написание скриптов по постобоработке данных;
- Тестирование и проработка гипотез по повышению точности модели
Жидовинов Никита

Инженер-разработчик
- Эксперименты с транскрибатором Whisper;
- Работа с локальными LLM моделями;
- Разметка данных;
- Бэкэнд, FastApi, docker
Соловьев Аркадий
- Эксперименты и тестирование транскрибаторов Vosk, SRgoogle, Whisper;
- Разметка данных;
- Написание скриптов по предобработке данных;
- Написание скриптов по постобоработке данных;
- Тестирование и проработка гипотез по повышению точности модели
Муртазин Тимур

Младший научный сотрудник, Казанский Федеральный Университет. Разработка программных решений для нефтегазодобывающей отрасли
- Эксперименты с транскрибаторами SRgoogle, Whisper;
- Работа с NER моделями;
- Тестирование AutoGPT, slovnet;
- Работа с LLM моделями, API ChatGPT
Киселев Александр

Фронтенд разработчик в ГК Иннотех
- Эксперименты с транскрибаторами Vosk, SRgoogle, Whisper;
- Работа с NER моделями;
- Разметка данных;
- Бэкэнд, github
Назаров Сергей

Ведущий специалист по защите информации
- Эксперименты с транскрибатором yandex speech kit;
- Разметка данных;
- Интеграция на примере сервера Gunicorn в google Colab
Татаринов Алексей

инженер в телеметрическом направлении ракетно-космической отрасли
- Эксперименты с транскрибатором от Сбера и Тинькофф;
- Разметка данных;
- Работа с NER моделями
Егоров Антон

работал в сферах торговли и логистики
- Эксперименты с транскрибатором от Тинькофф;
- Разметка данных;
- Работа с API ChatGPT
Снусси Надежда

Главный бухгалтер
- Эксперименты с транскрибаторами SRgoogle, Whisper;
- Работа с NER моделями;
- Разметка данных
Капустин Тимофей

дефектоскопист
- Эксперименты с транскрибаторами SRgoogle, Whisper;
- Работа с API ChatGPT;
- Разметка данных
Харламов Михаил
- Эксперименты с транскрибаторами SRgoogle, Whisper;
- Работа с NER моделями;
- Разметка данных

Участники
2 команды проекта

Рубцов Антон

Тимлид проекта

Артем — руководитель проекта, участие в разработке, координация работы команды, постановка задач, контроль качество и сроков их выполнения
Леонтьев Дмитрий

Помощник тимлида
Дмитрий помогал руководителю команды организовывать процесс разработки проекта:
- Поиск и подготовка учебных материалов;
- Проведение еженедельных спринт-созвонов команды;
- Сбор выполненных заданий и консультация по проекту и разработке;
- Чтение и редактирование кода Python;
- Запись обзора работы, выполненной в рамках стажировки и сборка презентации
Коваленко Сергей

разработчик, веб-разработчик, предприниматель
- Работа с аудиофайлами: Pydub, Ffmpeg-python;
- Подготовка и транскрибация данных: Whisper, Google Speech Recognition, VOSK, Yandex SpeechKit;
- Обработка и анализ табличных и временны́х данных: Pandas, Dateparser;
- Шумоподавление и предобработка аудио: Librosa, Noisereduce;
- Разработка алгоритма с NER-моделью SpaCy и её дообучение на своих данных;
- Оценка качества распознавания с помощью Jiwer;
- Формирование json-структуры выходящих данных;
- Создание презентации о проделанной работе
Юмангулов Руслан

аналитик в онлайн проекте
- Работа с аудиофайлами с помощью Pydub, Sox, FFmpeg;
- Распознавание речи библиотеками SpeechRecognition, Whisper;
- Выполнен анализ данных с помощью Pandas, Matplotlib;
- Освоена обработка естественного языка (NLP) с помощью SpaCy, Dateparser;
- Проведена оценка качества распознавания средствами Jiwer, Difflib
Прусов Максим

Системный аналитик
- Обработка аудиофайлов: Pydub, Soundfile;
- Транскрибация аудио с помощью SpeechRecognition, Whisper;
- Выполнение шумоподавления с помощью Noisereduce, Librosa;
- Анализ и визуализация данных: Pandas, Matplotlib;
- Распознавание сущностей выполнено библиотекой SpaCy;
- Выполнена оценка качества распознавания средствами Jiwer;
- Формирование json-структуры выходящих данных
Вавилов Антон

Sales Engineer в компании SMC
- Чтение и редактирование кода Python;
- Транскрибация аудио с помощью SaluteSpeech, Whisper;
- Обработка и анализ данных с помощью Pandas;
- Шумоподавление и аудио обработка: Librosa, Soundfile, Noisereduce;
- Извлечение сущностей с помощью SpaCy и создание выходной JSON-структуры

Благодарность университетУ