Стажировка
Нейро-ассистент для фильтрации и аналитики новостных потоков
ООО «Индлаб»
● Развёртывание MVP на сервере заказчика
● Углубление системы трендов и алертов
● Улучшение извлечения связей с помощью LLM
● Создание веб-аналитической панели для заказчика
● Персонализация выводов и событийных прогнозов
● Расширение числа тематик, каналов и источников
Перспектива развития
● Протестировано 17 моделей эмбеддингов, выбраны 3 лидера (GT, E5)
● Проведена кластеризация 37 000 постов, выделено 800+ тем
● Разработаны графовые структуры сущностей (Госдума, США, Украина и др.)
● Создан рабочий UI-инструмент с полным аналитическим пайплайном
● Построены метрики: Accuracy, MRR, Recall@5
● Подготовлены Docker-сервисы: Qdrant, Postgres, backend
● Проект успешно показан заказчику, подтверждено соответствие ТЗ
● Сформированы тестовые датасеты и методология оценки качества
Результаты проекта
● Полный рабочий прототип нейро-ассистента
● Тематическая кластеризация и категоризация новостей
● Векторная база Qdrant для поиска
● Граф сущностей и событий
● Сравнительные метрики моделей
● Авто-дайджесты с LLM-обработкой
● Docker-окружение для развёртывания
● UI-инструмент для демонстрации работы пайплайна
Выходные данные
● Telegram-каналы (10+ тематик, 37 000+ постов)
● Датасеты за 100 дней
● Модели эмбеддингов: E5, BERT-семейство, MiniLM, GT-модели.
● LLM: ChatGPT / GigaChat
● Технологии: Python, Telethon, Qdrant, Postgres, Redis, Neo4j, Docker, Cursor, Colab
вводные данные
● Очистить новостной поток от «шума» и дублей
● Автоматизировать анализ событий, каналов и тенденций
● Обеспечить поиск по смыслу, а не по ключевым словам
● Выявлять тренды, ключевые сущности и связи
● Формировать дайджесты и краткие объяснения событий
● Создать прототип ассистента, готового к интеграции в систему заказчика
Для чего
● Построение архитектуры пайплайна обработки данных:
парсинг → очистка → векторизация → Qdrant → кластеризация → классификация → граф связей → аналитика
● Разработка нескольких подходов к пониманию новостей:
  1. семантические эмбеддинги (E5, BERT, MiniLM, GT-модели)
  2. тематическое моделирование (BERTopic)
  3. графовые структуры (Neo4j, co-mentions)
● Создание интерфейса аналитика — UI-прототип на Python, включающий все модули
● Формирование методологии тестирования моделей (Accuracy, MRR, Recall@5)
● Подготовка MVP-структуры: Docker, Postgres, Qdrant, backend
● Подготовка данных, метрик, презентации и документации для заказчика
Задачи проекта
Проект — разработка интеллектуального нейро-ассистента, который автоматически собирает, фильтрует и анализирует новостные потоки из Telegram-каналов, устраняет дубли, выделяет темы, сущности и связи, а также формирует персональные дайджесты.
Система объединяет семантический анализ, тематическое моделирование, графовую аналитику и LLM-модули для преобразования неструктурированных новостей в чистую аналитическую картину.
Разработан функциональный UI-прототип (Python, Cursor), демонстрирующий полный pipeline:
парсинг → индексация → векторизация → кластеризация → классификация → дайджесты → связи.
ЦЕЛЬ проекта
  • UI-прототип на Python (Cursor)
  • Вкладки: Каналы / Индексация / Кластеры / Классификация / Логи / Настройки
UI / прототипирование
  • Python
  • Docker / Docker Compose
  • Telethon
  • API OpenAI / Yandex
  • Подготовка CI/CD для сервера заказчика
Backend / инфраструктура
  • Qdrant — векторная база
  • Postgres
  • Redis
  • Neo4j — графовые сценарии
Хранилища и индексация
NLP и моделирование
  • Sentence Transformers (E5 — лидер тестов)
  • BERT, MiniLM, GT-модели
  • BERTopic
  • ChatGPT / GigaChat — суммаризация и заголовки
Используемый технологический стек
Участники
команды проекта
  • Кравченко Дмитрий Александрович
    Тимлид проекта
    • Руководство проектом, архитектура, постановка задач, работа с заказчиком, координация групп, методология и аналитика
  • Татьяна Ерюкова
    помощник тимлида
    • Переработка архитектуры парсера (многослойная модель)
    • Кластеризация BERTopic на датасете 37k постов
    • Аналитика извлечения связей, подготовка материалов для Neo4j
    • Разработка методологии тестирования и классификации
    • Подготовка Colab-ноутбуков и документации
  • Малицкий Андрей Анатольевич
    помощник тимлида
    • Поддержка управления проектом и сопровождение команд
    • Методическая поддержка стажёров, разъяснение задач и подходов
    • Регулярная саммаризация встреч с заказчиком и внутренних созвонов
    • Ведение орг-файла: постановка задач, фиксация прогресса, учёт присутствия
    • Подготовка аналитических записок по процессам и улучшениям
    • Координация работы подгрупп и обеспечение синхронизации между ними
  • Дмитрий Блюхеров
    UI, backend-модули, полный pipeline
    • Создание UI-прототипа на Python (Cursor)
    • Реализация полного пайплайна: парсинг → индексация → кластеризация → классификация → дайджесты.8
    • Интеграция Qdrant, Redis, Postgres
    • Разработка клиентского и административного интерфейса
    • Основной функциональный каркас MVP
  • Надежда Глазунова
    уководитель тестирования эмбеддингов
    • Тестирование 17 моделей эмбеддингов по Accuracy, MRR и Recall@5
    • Сравнительные таблицы и аналитические отчёты
    • Выбор трёх финальных моделей проекта
    • Аналитическая поддержка команды по корректности тестов
    • Активное участие в подготовке финальной презентации и визуализации метрик
  • Игорь Колесов
    Архитектура, инфраструктура, DevOps
    • Создание архитектурной схемы MVP и потоков данных
    • Формирование требований для серверного развёртывания
    • Настройка Docker-окружения и подготовка CI/CD
    • Согласование технических решений с заказчиком
    • Организация рабочих встреч и синхронизации
  • Дмитрий Шилин
    Дайджесты, векторизация, TGStat
    • Аналитика тарифов TGStat и подготовка предложений заказчику
    • Помощь в генерации дайджестов и суммаризации через LLM
    • Подготовка Docker-образов для тестирования моделей
    • Поддержка интеграции API
  • Татьяна Запорожец
    Декомпозиция, структура процессов
    • Полная декомпозиция функций проекта (6 блоков)
    • Формирование сценариев работы подгрупп.
    • Организация процессов и аналитика взаимодействия
    • Активное участие в подготовке финальной презентации
  • Людмила ТЮфимичева
    Аналитика, тестирование эмбеддингов
    • Проверка моделей и поддержка тестирования
    • Валидация результатов и аналитические комментарии
    • Поддержка кластеризации и тематической модели
  • Денис Калюжный
    Neo4j, аналитика
    • Совместная работа над окружением Neo4j.
    • Поддержка визуализации и анализа графов
    • Подготовка идей для расширения функционала
  • Егор Быков
    Парсинг, анализ данных
    • Формирование требований к датасету
    • Анализ тематик и структуры каналов
    • Валидация подготовленных материалов
    • Поддержка второй группы по данным
  • Максим Иванков
    Парсинг, анализ данных
    • Формирование требований к датасету
    • Анализ тематик и структуры каналов
    • Валидация подготовленных материалов
    • Поддержка второй группы по данным
  • Алексей Решетников
    Парсинг, анализ данных
    • Формирование требований к датасету
    • Анализ тематик и структуры каналов
    • Валидация подготовленных материалов
    • Поддержка второй группы по данным
  • Александр Азевич
    Neo4j, метрики, кластеризация
    • Исследование Neo4j, подготовка Docker-окружения
    • Создание компактного тестового Colab (4 ячейки)
    • Визуализация графов и анализ связей
    • Аналитика метрик (MRR, Accuracy)
    • Поддержка Bertopic
  • Александр Егоров
    Графовые структуры, парсинг, данные
    • Извлечение сущностей и построение графа (метод co-mentions)
    • Запуск Neo4j в Docker
    • Предобработка крупных массивов данных
    • Подготовка аналитических выводов по структуре связей