● Развёртывание MVP на сервере заказчика
● Углубление системы трендов и алертов
● Улучшение извлечения связей с помощью LLM
● Создание веб-аналитической панели для заказчика
● Персонализация выводов и событийных прогнозов
● Расширение числа тематик, каналов и источников
● Протестировано 17 моделей эмбеддингов, выбраны 3 лидера (GT, E5)
● Проведена кластеризация 37 000 постов, выделено 800+ тем
● Разработаны графовые структуры сущностей (Госдума, США, Украина и др.)
● Создан рабочий UI-инструмент с полным аналитическим пайплайном
● Построены метрики: Accuracy, MRR, Recall@5
● Подготовлены Docker-сервисы: Qdrant, Postgres, backend
● Проект успешно показан заказчику, подтверждено соответствие ТЗ
● Сформированы тестовые датасеты и методология оценки качества
● Полный рабочий прототип нейро-ассистента
● Тематическая кластеризация и категоризация новостей
● Векторная база Qdrant для поиска
● Граф сущностей и событий
● Сравнительные метрики моделей
● Авто-дайджесты с LLM-обработкой
● Docker-окружение для развёртывания
● UI-инструмент для демонстрации работы пайплайна
● Telegram-каналы (10+ тематик, 37 000+ постов)
● Датасеты за 100 дней
● Модели эмбеддингов: E5, BERT-семейство, MiniLM, GT-модели.
● LLM: ChatGPT / GigaChat
● Технологии: Python, Telethon, Qdrant, Postgres, Redis, Neo4j, Docker, Cursor, Colab
● Очистить новостной поток от «шума» и дублей
● Автоматизировать анализ событий, каналов и тенденций
● Обеспечить поиск по смыслу, а не по ключевым словам
● Выявлять тренды, ключевые сущности и связи
● Формировать дайджесты и краткие объяснения событий
● Создать прототип ассистента, готового к интеграции в систему заказчика
● Построение архитектуры пайплайна обработки данных:
парсинг → очистка → векторизация → Qdrant → кластеризация → классификация → граф связей → аналитика
● Разработка нескольких подходов к пониманию новостей:
- семантические эмбеддинги (E5, BERT, MiniLM, GT-модели)
- тематическое моделирование (BERTopic)
- графовые структуры (Neo4j, co-mentions)
● Создание интерфейса аналитика — UI-прототип на Python, включающий все модули
● Формирование методологии тестирования моделей (Accuracy, MRR, Recall@5)
● Подготовка MVP-структуры: Docker, Postgres, Qdrant, backend
● Подготовка данных, метрик, презентации и документации для заказчика
Проект — разработка интеллектуального нейро-ассистента, который автоматически собирает, фильтрует и анализирует новостные потоки из Telegram-каналов, устраняет дубли, выделяет темы, сущности и связи, а также формирует персональные дайджесты.
Система объединяет семантический анализ, тематическое моделирование, графовую аналитику и LLM-модули для преобразования неструктурированных новостей в чистую аналитическую картину.
Разработан функциональный UI-прототип (Python, Cursor), демонстрирующий полный pipeline:
парсинг → индексация → векторизация → кластеризация → классификация → дайджесты → связи.