Стажировка
Создание системы с использованием технологий искусственного интеллекта для обработки больших данных из каталогов и прайс-листов промышленной
инструментальной оснастки
ООО «СЛТ»
Разработка и внедрение системы, которая автоматически собирает и обрабатывает прайс-листы и каталоги поставщиков, нормализует наименования, объединяет дубли и формирует единый структурированный набор данных. Результат выгружается в корпоративные шаблоны (Excel/БД) и готов к дальнейшему использованию во внутренних процессах.
основная задача проекта:
Для чего был нужен проект
выходные данные
  • Единая нормализованная витрина данных (табличная структура) с консолидацией дублей
  • Выгрузки Excel по корпоративному шаблону (включая свод и журнал изменений)
  • Реляционная база данных/хранилище для интеграции с внутренними системами
  • Отчеты о качестве нормализации и покрытии словарями; логи обработки и возможность отката изменений
  • Итоговые презентационные материалы (демо-витрины, сводные листы) для передачи заказчику
Проект призван повысить эффективность подготовки коммерческих и закупочных материалов: сократить ручной труд при сведении разнородных источников,уменьшить ошибки в наименованиях и спецификациях, ускорить цикл согласования и последующей аналитики. Система обеспечивает единый словарь нормализации, прозрачные логи операций и быструю выгрузку в согласованные форматы, что повышает качество данных и скорость работы смежных подразделений.
  • Каталоги и прайс-листы поставщиков в форматах PDF, DOCX, XLS/XLSX, CSV; изображения (JPG/PNG) для OCR
  • Внутренние справочники синонимов и правил нормализации номенклатуры
  • Исторические выгрузки и эталонные корпоративные шаблоны (для проверки консистентности)
входные данные
Участники
команды проекта
  • Николай кус
    Тимлид команды
    • Руководил командой разработчиков на всех этапах проекта.
    • Планировал задачи, контролировал их выполнение и соблюдение сроков. Обеспечивал эффективную коммуникацию внутри команды и с заказчиком
  • Елена Михно
    Помощник тимлида
    • Помогала в организационных вопросах по проекту
    • Инициировала и проводила дополнительные встречи стажеров, наставляла и обучала
    • менее опытных сотрудников
  • Андрей Малицкий
    Помощник тимлида
    • Участвовал в распределении задач и руководстве командой помощников тимлида, обеспечивая эффективное взаимодействие между тимлидом и участниками проекта
  • Василий Даутов
    • Провёл исследование по анонимизации диалогов по ФЗ 152: дообучение модели EmbeddingGemma 300M показало, что модель переучивается и закрывает лишние слова
    • Разработал SGR-анонимайзер на контурной модели qwen/qwen3-coder-30b. Эфективность 95% даже при сложных случаях (email/телефон словами)
    • Разработал модуль эмоциональной оценки (Aniemore) по 3-секундным интервалам, что дает LLM паттерны всплесков эмоций для анализа причин
    • Исследовал семантический поиск (EmbeddingGemma + LLM-предобработка): выявлено низкое качество признаков. ElasticSearch "из коробки" также показал низкую релевантность на сырых диалогах
    • Сравнил ASR Whisper и T-one. T-one — высокая производительность (CPU, real-time), но нет пунктуации. Whisper — точен, расставляет знаки, требует GPU. Выбор зависит от приоритета (скорость vs качество текста)
  • Петр Петров
    • Выполнил работы по контекстному семантическому поиску
    • Подготовил датасет диалогов для обучения и тестирования системы
  • Никита Горбунов 
    • Разработал код транскрибации аудио (mp3 в текст) с использованием Whisper, WhisperX и SpeechRecognition
    • Провел ручной сравнительный анализ результатов транскрибации с эталоном для выявления зон роста
    • Написал код для анонимизации и реализовал механизм поиска персональных данных в JSON-файлах
    • Провел дообучение (fine-tuning) нейросети для повышения качества обработки данных
  • Наталья Толмачёва 
    • Привела регламенты и чек-листы компании к единой цифровой структуре (10 пунктов, шкала 100–50–0, поддержка N/A)
    • Разработала сложные промпты для LLM, указывающие уверенность оценки и конкретные пропущенные элементы скрипта
    • Настроила полный пайплайн в Google Colab: валидация, пакетная обработка, генерация отчётов в Google Sheets/Power BI
    • Автоматизировала процесс проверки качества звонков, добавив контекстную настройку по тематикам
  • Евгений Дорошенко
    • Подготовил скрипты для транскрибации аудиозаписей
    • Разрабатывал интерфейс. Собрал все модули проекта в единый рабочий пайплайн
  • Анатолий Ходоров 
    • Разработал пайплайн поиска в Google Colab: гибридный поиск (BM25 + Embeddings) со Smart Hybrid Scoring
    • Реализовал 2-й этап фильтрации на основе Cross-encoder reranker
    • Внедрил «умного проверяющего» на LLM для обоснования результатов поиска
    • Реализовал функционал для слабых ресурсов (оффлоад весов, квантование) и провел бенчмарк множества русскоязычных моделей (Sbert, RuBERT, Saiga, YandexGPT и др.)
  • Владимир Стороженко 
    • Описал архитектуру проекта.
    • Написал скрипт расчета WER и сравнил транскрибаторы на эталонных диалогах
    • Создал код для транскрибации через GPU (T-One)
    • Написал код mcp-сервера для семантического поиска и предложил агента анонимизации
  • Евгений Бухарин
    • Реализовал улучшенную транскрибацию T-one: разделение каналов, снижение перехлеста речи, авто-пунктуация
    • Развернул тестовый сервер с доступом через Nginx/HTTPS
    • Запустил веб-интерфейс на Streamlit для демонстрации модулей
    • Провел сравнительный анализ моделей транскрибации с эталоном
  • Роман Михайлов
    • Реализовал сквозной конвейер: предобработка аудио, ASR (WhisperX/T-One), эмоции, нормализация, анонимизация PII, саммари и QA, БД, поиск
    • Разработал модули строгой анонимизации (адреса, телефоны, ФИО) и нормализации текста
    • Внедрил систему оценки качества (QA) с чек-листом, доказательствами и метриками речи (WPM, паузы)
    • Настроил надежный ETL импорт в PostgreSQL с групповой аналитикой по операторам
    • Создал умный поиск (RAG/FAISS + LLM) и управленческий дашборд на Streamlit

  • Евгений Шитов
    • Реализовал таблицу звонков с фильтрацией и пагинацией
    • Создал вкладки «Поиск» (с подсветкой результатов) и «Метрики» (визуализация Recharts)
    • Участвовал в проектировании API-контрактов и создании моков

  • Ольга Кириенко
    • Сравнивала модели транскрибации и написала скрипт автоматической оценки WER
    • Исследовала подходы к анонимизации и работала с контурными моделями
    • Разработала критерии оценки качества работы операторов в соответствии с требованиями заказчика
    • Участвовала в переговорах с заказчиком

  • Дмитрий Шамараев
    • Разработал backend-систему на FastAPI с модулями транскрибации, анонимизации и анализа метрик
    • Настроил развёртывание через Docker (CPU/GPU), написал скрипты запуска, добавил тесты и документацию
    • Улучшил модули по шумоподавлению, логированию и структуре проекта
    • Интегрировал LLM-анализ в пайплайн и расширил функциональность по чек-листам, скриптам, эмоциям и типам звонков
  • Сергей Недякин
    • Провёл сравнительный анализ инструментов анонимизации
    • Провёл серию тестов на эталонных транскрипциях, реализовал кастомные правила
    • Работал с моделью Gliner и участвовал в обучении кастомных NER-моделей
    • Подготовил документацию по тестам и улучшению качества диалогов
  • Андрей Попов
    • Разработал ансамблевую систему транскрибации (Whisper + T-one)
    • Проводил тестирование и адаптацию под Google Colab
  • Юрий Лихачев
    • Участвовал в аналитике соблюдения сценариев и анализе скриптов звонков
    • Проводил ручную и автоматизированную транскрибацию, готовил эталонные тексты
    • Изучал кодовую базу и участвовал в тестах по анонимизации и поиску
  • Галина Мусаева
    • Проводила исследование эмоционального анализа по аудио
    • Работала над интеграцией моделей QWEN и Aniemore в пайплайн анализа
  • Илья Курагин
    • Участвовал в проработке логики оценки эмоций, формировал требования к связке чек-листа и эмоционального анализа
  • Владимир Фролов
    • Помогал в организационных вопросах по проекту
    • Инициировал и проводил дополнительные встречи стажеров, наставлял и обучал менее опытных сотрудников