Стажировка
AI-прогнозирование финансовых активов с учётом макроэкономических факторов
ООО «Алгофьюжн»
Python, pandas, NumPy, scikit-learn, TA-Lib, statsmodels (ARIMA), Prophet, XGBoost/LightGBM/CatBoost, PyTorch/Keras (LSTM, GRU, TCN, TFT), Optuna, AutoTS/AutoGluon, Docker, GitHub
используемый стек
1. Подготовка данных
Очистка, объединение котировок и макроданных, формирование признаков (индикаторы, лаги, окна)
2. Моделирование
Обучение и сравнение ARIMA/Prophet, XGBoost/LightGBM/CatBoost, LSTM/GRU/TCN/TFT; настройка walk-forward/rolling валидации
3. Оценка и отбор решений
Анализ метрик (MAE, MAPE, Directional Accuracy), выбор устойчивых конфигураций и признаков
4. Прикладной контур (прототип)
Подготовка пайплайнов для интеграции в интерфейс (Streamlit/FastAPI) и ежедневной отчётности по метрикам
Основные задачи
  1. Исторические котировки: Open, High, Low, Close, Volume
  2. Макроэкономические индикаторы: ВВП, инфляция (CPI), процентные ставки, уровень безработицы, PMI
  3. Дополнительные признаки: технические индикаторы (SMA, EMA, RSI, MACD), индексы страха, Google Trends, новости
  4. Формат: CSV-файлы и выгрузки от заказчика
  5. Частота: дневная
  6. Активы:
  • Акции РФ: Сбербанк (SBER), Газпром (GAZP), Лукойл
  • Акции США: Apple (AAPL), Tesla (TSLA)
  • Валютные пары: USD/RUB, EUR/USD, CNY/RUB
исходные данные
Создание прототипа интеллектуальной системы, прогнозирующей направление и диапазон дневного движения финансовых активов (акции, валюты) на основе исторических рыночных данных и макроэкономических показателей. Система должна учитывать факторы сезонности, инфляции, процентных ставок и новостного фона, а также обеспечивать интерпретацию решений моделей и визуализацию прогнозов в удобном интерфейсе.
ЦЕЛЬ проекта
  • UI-прототип на Python (Cursor)
  • Вкладки: Каналы / Индексация / Кластеры / Классификация / Логи / Настройки
UI / прототипирование
  • Python
  • Docker / Docker Compose
  • Telethon
  • API OpenAI / Yandex
  • Подготовка CI/CD для сервера заказчика
Backend / инфраструктура
  • Qdrant — векторная база
  • Postgres
  • Redis
  • Neo4j — графовые сценарии
Хранилища и индексация
NLP и моделирование
  • Sentence Transformers (E5 — лидер тестов)
  • BERT, MiniLM, GT-модели
  • BERTopic
  • ChatGPT / GigaChat — суммаризация и заголовки
Используемый технологический стек
Участники
команды проекта
  • Кравченко Дмитрий Александрович
    Тимлид проекта
    • Руководство проектом, архитектура, постановка задач, работа с заказчиком, координация групп, методология и аналитика
  • Татьяна Ерюкова
    помощник тимлида
    • Переработка архитектуры парсера (многослойная модель)
    • Кластеризация BERTopic на датасете 37k постов
    • Аналитика извлечения связей, подготовка материалов для Neo4j
    • Разработка методологии тестирования и классификации
    • Подготовка Colab-ноутбуков и документации
  • Малицкий Андрей Анатольевич
    помощник тимлида
    • Поддержка управления проектом и сопровождение команд
    • Методическая поддержка стажёров, разъяснение задач и подходов
    • Регулярная саммаризация встреч с заказчиком и внутренних созвонов
    • Ведение орг-файла: постановка задач, фиксация прогресса, учёт присутствия
    • Подготовка аналитических записок по процессам и улучшениям
    • Координация работы подгрупп и обеспечение синхронизации между ними
  • Дмитрий Блюхеров
    UI, backend-модули, полный pipeline
    • Создание UI-прототипа на Python (Cursor)
    • Реализация полного пайплайна: парсинг → индексация → кластеризация → классификация → дайджесты.8
    • Интеграция Qdrant, Redis, Postgres
    • Разработка клиентского и административного интерфейса
    • Основной функциональный каркас MVP
  • Надежда Глазунова
    уководитель тестирования эмбеддингов
    • Тестирование 17 моделей эмбеддингов по Accuracy, MRR и Recall@5
    • Сравнительные таблицы и аналитические отчёты
    • Выбор трёх финальных моделей проекта
    • Аналитическая поддержка команды по корректности тестов
    • Активное участие в подготовке финальной презентации и визуализации метрик
  • Игорь Колесов
    Архитектура, инфраструктура, DevOps
    • Создание архитектурной схемы MVP и потоков данных
    • Формирование требований для серверного развёртывания
    • Настройка Docker-окружения и подготовка CI/CD
    • Согласование технических решений с заказчиком
    • Организация рабочих встреч и синхронизации
  • Дмитрий Шилин
    Дайджесты, векторизация, TGStat
    • Аналитика тарифов TGStat и подготовка предложений заказчику
    • Помощь в генерации дайджестов и суммаризации через LLM
    • Подготовка Docker-образов для тестирования моделей
    • Поддержка интеграции API
  • Татьяна Запорожец
    Декомпозиция, структура процессов
    • Полная декомпозиция функций проекта (6 блоков)
    • Формирование сценариев работы подгрупп.
    • Организация процессов и аналитика взаимодействия
    • Активное участие в подготовке финальной презентации
  • Людмила ТЮфимичева
    Аналитика, тестирование эмбеддингов
    • Проверка моделей и поддержка тестирования
    • Валидация результатов и аналитические комментарии
    • Поддержка кластеризации и тематической модели
  • Денис Калюжный
    Neo4j, аналитика
    • Совместная работа над окружением Neo4j.
    • Поддержка визуализации и анализа графов
    • Подготовка идей для расширения функционала
  • Егор Быков
    Парсинг, анализ данных
    • Формирование требований к датасету
    • Анализ тематик и структуры каналов
    • Валидация подготовленных материалов
    • Поддержка второй группы по данным
  • Максим Иванков
    Парсинг, анализ данных
    • Формирование требований к датасету
    • Анализ тематик и структуры каналов
    • Валидация подготовленных материалов
    • Поддержка второй группы по данным
  • Алексей Решетников
    Парсинг, анализ данных
    • Формирование требований к датасету
    • Анализ тематик и структуры каналов
    • Валидация подготовленных материалов
    • Поддержка второй группы по данным
  • Александр Азевич
    Neo4j, метрики, кластеризация
    • Исследование Neo4j, подготовка Docker-окружения
    • Создание компактного тестового Colab (4 ячейки)
    • Визуализация графов и анализ связей
    • Аналитика метрик (MRR, Accuracy)
    • Поддержка Bertopic
  • Александр Егоров
    Графовые структуры, парсинг, данные
    • Извлечение сущностей и построение графа (метод co-mentions)
    • Запуск Neo4j в Docker
    • Предобработка крупных массивов данных
    • Подготовка аналитических выводов по структуре связей