Обеспечить качество и структуру файлов достаточную для использования в качестве базы знаний для нейро консультантов и нейро лекторов (RAG системы). Также из видео должна быть извлечена графическая составляющая в в виде релевантных тексту уникальных слайдов содержащих важную с точки зрения темы видео информацию (схемы, графики, текстовая информация и пр. ). Графические данные должны браться из видео файлов путем анализа кадров (слайды из презентация, графики и т.д). На выходе должен получиться файл docx с текстовым и графическим содержимым из видео и аудио файлов. Система должна быть интегрирована в существующую платформу.
Разработано 2 решения сочетающие различные подходы к извлечению релевантных кадров.
В обоих подходах используется две модели транскрибации, между которыми можно переключаться - Wisper Turbo с кастомной настройкой параметров и Charla AI. В качестве моделей для постобработки текста также подключено две модели на выбор - GPT 4o mini (выбрана в качестве оптимального баланса стоимости/результата) и Gemini. Продукт отдает транскрибированный и обработанный текстовый файл, разбитый по разделам и включающий метаданные, отдельно пользователь может получить слайды ко всему тексту, имеющие привязки к конкретным разделам. А также агрегированный docx файл содержащий текст и слайды по разделам.
- Подборка видео для отработки транскрибации и извлечения графической информации
- Сводная таблица, с информацией о спикере, теме видео, ссылки на видео и прочее
Получить обработчик для транскрибации видео, аудио файлов в текстовый формат для дальнейшего использования в виде материалов для создания обучающих курсов.
Решение позволяет гибко использовать извлеченные из видеоролика ресурсы для построения обучающих курсов, либо для формирования базы знаний для RAG систем.