Стажировка | ООО «Индлаб»

Стажировка

Нейро-ассистент для фильтрации и аналитики новостных потоков

ООО «Индлаб»

● Развёртывание MVP на сервере заказчика
● Углубление системы трендов и алертов
● Улучшение извлечения связей с помощью LLM
● Создание веб-аналитической панели для заказчика
● Персонализация выводов и событийных прогнозов
● Расширение числа тематик, каналов и источников

Перспектива развития

● Протестировано 17 моделей эмбеддингов, выбраны 3 лидера (GT, E5)
● Проведена кластеризация 37 000 постов, выделено 800+ тем
● Разработаны графовые структуры сущностей (Госдума, США, Украина и др.)
● Создан рабочий UI-инструмент с полным аналитическим пайплайном
● Построены метрики: Accuracy, MRR, Recall@5
● Подготовлены Docker-сервисы: Qdrant, Postgres, backend
● Проект успешно показан заказчику, подтверждено соответствие ТЗ
● Сформированы тестовые датасеты и методология оценки качества

Результаты проекта

● Полный рабочий прототип нейро-ассистента
● Тематическая кластеризация и категоризация новостей
● Векторная база Qdrant для поиска
● Граф сущностей и событий
● Сравнительные метрики моделей
● Авто-дайджесты с LLM-обработкой
● Docker-окружение для развёртывания
● UI-инструмент для демонстрации работы пайплайна

Выходные данные

● Telegram-каналы (10+ тематик, 37 000+ постов)
● Датасеты за 100 дней
● Модели эмбеддингов: E5, BERT-семейство, MiniLM, GT-модели.
● LLM: ChatGPT / GigaChat
● Технологии: Python, Telethon, Qdrant, Postgres, Redis, Neo4j, Docker, Cursor, Colab

вводные данные

● Очистить новостной поток от «шума» и дублей
● Автоматизировать анализ событий, каналов и тенденций
● Обеспечить поиск по смыслу, а не по ключевым словам
● Выявлять тренды, ключевые сущности и связи
● Формировать дайджесты и краткие объяснения событий
● Создать прототип ассистента, готового к интеграции в систему заказчика

Для чего

● Построение архитектуры пайплайна обработки данных:
парсинг → очистка → векторизация → Qdrant → кластеризация → классификация → граф связей → аналитика
● Разработка нескольких подходов к пониманию новостей:

семантические эмбеддинги (E5, BERT, MiniLM, GT-модели)
тематическое моделирование (BERTopic)
графовые структуры (Neo4j, co-mentions)

● Создание интерфейса аналитика — UI-прототип на Python, включающий все модули
● Формирование методологии тестирования моделей (Accuracy, MRR, Recall@5)
● Подготовка MVP-структуры: Docker, Postgres, Qdrant, backend
● Подготовка данных, метрик, презентации и документации для заказчика

Задачи проекта

Проект — разработка интеллектуального нейро-ассистента, который автоматически собирает, фильтрует и анализирует новостные потоки из Telegram-каналов, устраняет дубли, выделяет темы, сущности и связи, а также формирует персональные дайджесты.
Система объединяет семантический анализ, тематическое моделирование, графовую аналитику и LLM-модули для преобразования неструктурированных новостей в чистую аналитическую картину.
Разработан функциональный UI-прототип (Python, Cursor), демонстрирующий полный pipeline:
парсинг → индексация → векторизация → кластеризация → классификация → дайджесты → связи.

ЦЕЛЬ проекта

UI-прототип на Python (Cursor)
Вкладки: Каналы / Индексация / Кластеры / Классификация / Логи / Настройки

UI / прототипирование

Python
Docker / Docker Compose
Telethon
API OpenAI / Yandex
Подготовка CI/CD для сервера заказчика

Backend / инфраструктура

Qdrant — векторная база
Postgres
Redis
Neo4j — графовые сценарии

Хранилища и индексация

NLP и моделирование

Sentence Transformers (E5 — лидер тестов)
BERT, MiniLM, GT-модели
BERTopic
ChatGPT / GigaChat — суммаризация и заголовки

Используемый технологический стек

Участники
команды проекта

Кравченко Дмитрий Александрович

Тимлид проекта
- Руководство проектом, архитектура, постановка задач, работа с заказчиком, координация групп, методология и аналитика
Татьяна Ерюкова

помощник тимлида
- Переработка архитектуры парсера (многослойная модель)
- Кластеризация BERTopic на датасете 37k постов
- Аналитика извлечения связей, подготовка материалов для Neo4j
- Разработка методологии тестирования и классификации
- Подготовка Colab-ноутбуков и документации
Малицкий Андрей Анатольевич

помощник тимлида
- Поддержка управления проектом и сопровождение команд
- Методическая поддержка стажёров, разъяснение задач и подходов
- Регулярная саммаризация встреч с заказчиком и внутренних созвонов
- Ведение орг-файла: постановка задач, фиксация прогресса, учёт присутствия
- Подготовка аналитических записок по процессам и улучшениям
- Координация работы подгрупп и обеспечение синхронизации между ними
Дмитрий Блюхеров

UI, backend-модули, полный pipeline
- Создание UI-прототипа на Python (Cursor)
- Реализация полного пайплайна: парсинг → индексация → кластеризация → классификация → дайджесты.8
- Интеграция Qdrant, Redis, Postgres
- Разработка клиентского и административного интерфейса
- Основной функциональный каркас MVP
Надежда Глазунова

уководитель тестирования эмбеддингов
- Тестирование 17 моделей эмбеддингов по Accuracy, MRR и Recall@5
- Сравнительные таблицы и аналитические отчёты
- Выбор трёх финальных моделей проекта
- Аналитическая поддержка команды по корректности тестов
- Активное участие в подготовке финальной презентации и визуализации метрик
Игорь Колесов

Архитектура, инфраструктура, DevOps
- Создание архитектурной схемы MVP и потоков данных
- Формирование требований для серверного развёртывания
- Настройка Docker-окружения и подготовка CI/CD
- Согласование технических решений с заказчиком
- Организация рабочих встреч и синхронизации
Дмитрий Шилин

Дайджесты, векторизация, TGStat
- Аналитика тарифов TGStat и подготовка предложений заказчику
- Помощь в генерации дайджестов и суммаризации через LLM
- Подготовка Docker-образов для тестирования моделей
- Поддержка интеграции API
Татьяна Запорожец

Декомпозиция, структура процессов
- Полная декомпозиция функций проекта (6 блоков)
- Формирование сценариев работы подгрупп.
- Организация процессов и аналитика взаимодействия
- Активное участие в подготовке финальной презентации
Людмила ТЮфимичева

Аналитика, тестирование эмбеддингов
- Проверка моделей и поддержка тестирования
- Валидация результатов и аналитические комментарии
- Поддержка кластеризации и тематической модели
Денис Калюжный

Neo4j, аналитика
- Совместная работа над окружением Neo4j.
- Поддержка визуализации и анализа графов
- Подготовка идей для расширения функционала
Егор Быков

Парсинг, анализ данных
- Формирование требований к датасету
- Анализ тематик и структуры каналов
- Валидация подготовленных материалов
- Поддержка второй группы по данным
Максим Иванков

Парсинг, анализ данных
- Формирование требований к датасету
- Анализ тематик и структуры каналов
- Валидация подготовленных материалов
- Поддержка второй группы по данным
Алексей Решетников

Парсинг, анализ данных
- Формирование требований к датасету
- Анализ тематик и структуры каналов
- Валидация подготовленных материалов
- Поддержка второй группы по данным
Александр Азевич

Neo4j, метрики, кластеризация
- Исследование Neo4j, подготовка Docker-окружения
- Создание компактного тестового Colab (4 ячейки)
- Визуализация графов и анализ связей
- Аналитика метрик (MRR, Accuracy)
- Поддержка Bertopic
Александр Егоров

Графовые структуры, парсинг, данные
- Извлечение сущностей и построение графа (метод co-mentions)
- Запуск Neo4j в Docker
- Предобработка крупных массивов данных
- Подготовка аналитических выводов по структуре связей