Стажировка по проекту
Создание ИИ-системы анализа загружаемых на платформу Trafory видео-вебинаров
Компания: ООО "АлгоФьюжн"

Суть проекта
Задача
Входные данные
для чего
Обеспечить качество и структуру файлов достаточную для использования в качестве базы знаний для нейро консультантов и нейро лекторов (RAG системы). Также из видео должна быть извлечена графическая составляющая в в виде релевантных тексту уникальных слайдов содержащих важную с точки зрения темы видео информацию (схемы, графики, текстовая информация и пр. ). Графические данные должны браться из видео файлов путем анализа кадров (слайды из презентация, графики и т.д). На выходе должен получиться файл docx с текстовым и графическим содержимым из видео и аудио файлов. Система должна быть интегрирована в существующую платформу.

Разработано 2 решения сочетающие различные подходы к извлечению релевантных кадров.
В обоих подходах используется две модели транскрибации, между которыми можно переключаться - Wisper Turbo с кастомной настройкой параметров и Charla AI. В качестве моделей для постобработки текста также подключено две модели на выбор - GPT 4o mini (выбрана в качестве оптимального баланса стоимости/результата) и Gemini. Продукт отдает транскрибированный и обработанный текстовый файл, разбитый по разделам и включающий метаданные, отдельно пользователь может получить слайды ко всему тексту, имеющие привязки к конкретным разделам. А также агрегированный docx файл содержащий текст и слайды по разделам.
  • Подборка видео для отработки транскрибации и извлечения графической информации
  • Сводная таблица, с информацией о спикере, теме видео, ссылки на видео и прочее
Выходные данные
Получить обработчик для транскрибации видео, аудио файлов в текстовый формат для дальнейшего использования в виде материалов для создания обучающих курсов.
Результаты проекта
Решение позволяет гибко использовать извлеченные из видеоролика ресурсы для построения обучающих курсов, либо для формирования базы знаний для RAG систем.
Участники
команды проекта
  • Елена Ерошина
    Тимлид проекта
    • Общее руководство проектом
    • Организация и модерация еженедельных встреч
    • Координация работы команд, взаимодействовие с заказчиком по требованиям и результатам
  • дмитрий ткаченко
    Помощник тимлида
    • Помощь тимлиду на проекте
    • Организация работы команды
  • елена михно
    помощник тимлида
    • Помощь тимлиду на проекте
    • Организация работы команды
  • екатерина кёнигросс
    помощник тимлида
    • Помощь тимлиду на проекте
    • Организация работы команды
  • евгений дулепов
    помощник тимлида
    • Помощь тимлиду на проекте
    • Организация работы команды
  • артур бочков
    Разработчик автоматизированных банковских систем, руководитель обособленного подразделения, АО "БИС"
    • Подготовка эталонных аудио‑ и звуковых файлов;
    • Разметка транскрипций (таймкоды), расчёт метрик точности (WER) для wav и mp3;
    • Сбор транскрибаций видео (75 файлов) разными моделями и их сравнение;
    • Реализация процедуры сравнения транскрипций с эталоном;
    • Прототипирование FastAPI‑приложения для подсчёта точности и работы с транскрипциями.
  • гинтарас дима
    Инженер-монтажник навигационного оборудования
    • Поиск и тестирование моделей транскрибации (SpeechNotes, Teamlogs, Speech2Text);
    • Сбор результатов экспериментов в таблицах и отчётах;
    • Подготовка и разметка датасета для обучения модели фильтрации слайдов на кадрах;
    • Сопровождение презентационных материалов (переименование слайдов, подготовка отчётов).
  • пётр зубец
    частный специалист по интернет-рекламе
    • Построение нескольких пайплайнов для Yandex SpeechKit (gRPC, REST, SDK);
    • Сравнение транскрипций с эталоном, расчёт WER и оформление в таблицы;
    • Разработка пайплайна для YandexGPT lite с помощью Yandex Cloud ML SDK для формирования базы знаний с таймкодами из транскрибированного текста;
    • Тестирование YandexGPT и Gemini на разных транскрипциях для формирования базы знаний;
    • Разработка пайплайна для корректной обработки транскрибированного текста с добавлением мета-данных.
  • игорь иванченко
    промышленный маркетинг, бизнес-аналитика
    • Тестирование языковых моделей (DeepSeek, ChatGPT, Gemini, YandexGPT) на транскрибированных текстах;
    • Создание ИИ агентов для формирования структурированных Markdown‑документов с тайм‑кодами и метаданными;
    • Анализ производительности и качества создания базы знаний разными моделями;
    • Подготовка сравнительного отчета по итогам тестирования.
  • никита каштанов
    Менеджер по продажам и логист
    • Адаптация кастомной русскоязычной модели для транскрибации видеозаписей;
    • Создание скрипта извлечения кадров;
    • Разработка и тестирование классификатора для отбора ключевых кадров с помощью pytesseract;
    • Автоматизация отбора эталонных кадров, zero‑shot эксперименты (CLIP, BLIP);
    • Подготовка презентационных материалов.
  • владимир курочкин
    Инженер-программист АСУТП
    • Тестировании LLM;
    • Участие в планировании нагрузочного тестирования.
  • владимир макаров
    Инженер по АСУП (АСУ производством)
    • Транскрибация аудиофайлов с использованием моделей Whisper и wav2vec2;
    • Тестирование инструмента сегментации видео с использованием PySceneDetect;
    • Извлечение и обработка фреймов из обучающих видео;
    • Формирование обучающего датасета и создание выборок “ложно+” / “ложно–”;
    • Интеграция и доработка скриптов для классификации кадров;
    • Тестирование модели EfficientNet и анализ результатов на разных весах;
    • Подготовка итоговой презентации и визуальных материалов по результатам работы.
  • артем мищенко
    аналитик, налоговый консультант
    • Транскрибация аудио с использованием DeepGram API и расчёт метрики WER;
    • Исследование методов классификации кадров (каскадный подход, HOG+SVM);
    • Эксперименты с CLIP, LLava и интеграция хэш-фильтрации кадров
    • Разработка алгоритма сопоставления тем видео с визуальным рядом;
    • Обработка транскрибированных текстов с помощью LLM и генерация Markdown;
    • Сборка пайплайна и упаковка проекта в Python-скрипт.
  • николай наумов
    Инженер-программист в ООО «ГТЛАБ»
    • Извлечение аудио и фреймов с лицом из видеофайлов;
    • Транскрибация аудио с использованием Tinkoff VoiceKit с генерацией тайм-кодов;
    • Постобработка транскриптов с использованием OpenAI, Groq и других LLM;
    • Формирование базы знаний в формате Markdown с тайм-кодами;
    • Разработка асинхронного сервера обработки задач (Celery, Redis, FastAPI);
    • Тестирование моделей EfficientNet и CLIP для отбора ключевых кадров;
    • Сборка микросервисной архитектуры и подготовка итогового проекта.
  • михаил плужников
    fullstack разработчик
    • Тестирование сервиса Charla AI для транскрибации;
    • Оценка качества транскрипций и расчёт метрик WER для сравнения моделей;
    • Формирование базы знаний с использованием Google Gemini;
    • Структурирование транскрибированного текста в формате Markdown с тайм-кодами;
    • Разработка компонентов для классификации и кластеризации кадров;
    • Проектирование финальной архитектуры системы и подготовка интерфейса;
    • Подготовка отчётов по стоимости, условиям использования и API-документации сервисов;
    • Создание сайта проекта;
    • Подготовка итоговой презентации.
  • сергей семиврагов
    внутренний аудитор
    • Разработка пайплайна детектирования и классификации кадров (YOLOv8, CLIP);
    • Разработка методов фильтрации и извлечения уникальных кадров (SSIM, phash/dhash);
    • Разработка метода анализа речевой активности и маскирования спикера (MediaPipe, SelfieSegmentation);
    • Разработка модели Dynamic_SSIM_Analysis для автоматического поиска ключевых кадров в видео на основе метрики SSIM с адаптивным выбором ключевых кадров из стабильных участков видео.;
    • Генерация PDF-отчётов с превью кадров и настройкой параметров фильтрации;
    • Визуализация слайдов по сценам и структурирование данных в Colab.
  • нора сердюкова
    доцент кафедры статистики
    • Разработка и тестирование пайплайна транскрибации с использованием модели Vosk;
    • Формирование вспомогательных скриптов для предобработки аудио и видеоданных;
    • Решение проблемы расчёта метрики WER для оценки качества транскрипции;
    • Разработка и обучение модели классификации релевантных кадров (EfficientNet‑V2);
    • Формирование и разметка обучающего датасета по видеолекциям;
    • Разработка методов фильтрации кадров с маскированием спикера и применением SSIM;
    • Подготовка итоговых материалов для демонстрации и презентации результатов работы.
  • дмитрий хонин
    НАЧАЛЬНИК ОТДЕЛА ИТ, DATA SCIENTIST
    • Сравнение моделей транскрибации (Whisper, Yandex SpeechKit, Kimi‑VL);
    • Тестирование моделей семейства Giga Acoustic Models (RNNT, CTC);
    • Разработка решений для одиночной и пакетной транскрибации (Giga SDK);
    • Создание промпта LLM для преобразования транскрибированного текста в структурированный документ с Markdown разметкой;
    • Анализ архитектуры приложения (фронтенд → серверная логика → внешние сервисы → обработка → хранение);
    • Дообучение нейросети на базе архитектуры MobileNet V3;
    • Реализация двух пайплайнов по извлечению ключевых слайдов (на базе EfficientNetV2-small и MobileNetV3-small);
    • A/B-тестирование двух решений;
    • Разработка архитектуры и реализация пайплайна по извлечению и фильтрации ключевых кадров;
    • Реализация MVP, документирование решения.