Стажировка
ИИ-анализ текстовых отзывов населения о социальных объектах инфраструктуры для прогнозирования развития городской среды и оценки устойчивого развития территорий
Суть проекта
Для чего
Вводные данные
Проект нацелен на разработку модуля интеллектуальной системы для анализа комфортности городской среды Москвы на основе объективных данных и субъективных оценок из текстовых отзывов жителей.
Система представляет собой интеллектуальную платформу управления устойчивым развитием городской среды в виде интерактивной карты, позволяющей оценивать качество жизни в жилых районах или на отдельно выбранных территориях, выявлять проблемные зоны, отслеживать изменения во времени и делать прогнозы.
  • Формирование датасета: коррекция (очистка) данных, устранение дубликатов, разметка и группировка по объектам, балансировка;
  • Предобработка данных: нормализация, токенизация;
  • Подбор нейросетевых решений для классификации текстовых отзывов населения по тональности;
  • Суммаризация текстовых отзывов с выделением ключевых оценок;
  • Анализ динамики тональности текстовых отзывов населения по социальным объектам за выбранный период;
  • Разработка решения по интеграции и взаимодействию с интерактивной картой.
  • Сделана подробная аналитика вводных данных;
  • Уточнена постановка задач;
  • Исследованы методы решения целевых задач;
  • Сформирован датасет для обучения моделей ML по выбранной категории социальных объектов (больницы и поликлиники) с разметкой текстовых отзывов по тональности: положительные, негативные, прочие;
  • Сформировано несколько решений по обработке текстовых отзывов и распознаванию их тональности;
  • Сформированы словари суммаризаций отзывов по социальным объектам с использованием LLM;
  • Создан модуль аналитики и визуализации результатов обработки отзывов;
  • Дополнительно исследовано использование в проекте моделей ML для решения задач регрессии и прогнозирования временных рядов;
  • Созданы прототипы приложений с интеграцией основных решений.
Структурированные текстовые отзывы, содержащие оценки социальных объектов инфраструктуры (школы, детские сады, больницы, поликлиники, аптеки, жилые комплексы, парки, магазины, университеты).
задачи
результаты
Участники
команды проекта
  • Гришаков руслан
    Тимлид проекта
    • Руководство командой разработчиков на всех этапах проекта
    • Организация и планирование задач
    • Контроль и соблюдение сроков
  • богданов андрей
    помощник тимлида
    • Помощь в организационных вопросах по проекту
    • Инициация и проведение дополнительных встреч стажеров
    • Наставление и обучение стажеров
  • глазырина татьяна
    Помощник тимлида
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей, кластеризация данных (с помощью PCA и BERT)
    • Составление Use Case Diagram
    • Участие в формировании критериев для классификации отзывов
    • Участие в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: парсинг данных, проверка и корректировка авторазметки, обеспечение баланса
    • Проведение экспериментов с моделями ML для определения тональности отзывов: тестирование и оценка производительности и точности различных моделей и кастомных архитектур (LSTM, TF-IDF, BERT, LogisticRegression, XGB, CascadeXGBSentimentModel), подбор гиперпараметров и оптимизация моделей (с помощью Optuna)
    • Разработка варианта решения по распознаванию тональности отзывов: составление пайплайна с использованием стекинга и комбинирования методов
    • Создание прототипа Web-приложения на Streamlit: обработка отдельных отзывов и загрузка наборов данных, визуализация распределений и облаков слов по тональностям (WordCloud, Plotly, Matplotlib), оценка уверенности, фильтрация по дате и типу социальных объектов
  • волохов александр
    Инженер
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в формировании критериев для классификации отзывов: создание скрипта для разделения данных по классам
    • Участие в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: проверка и корректировка авторазметки, обеспечение баланса
    • Проведение экспериментов с моделями ML для определения тональности отзывов: тестирование и оценка производительности и точности различных моделей и кастомных архитектур (LSTM, BERT, TfidfVectorizer, BOW, эмбеддинг-модели, полносвязные сети), подбор гиперпараметров и оптимизация моделей (с помощью Optuna)
    • Разработка варианта решения по распознаванию тональности отзывов: составление пайплайна с комбинированием методов, подготовка к интеграции в production
  • мышлякова анна
    маркетолог
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в формировании критериев для классификации отзывов
    • Ведущая роль в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: формирование структуры, очистка от нерелевантных данных, создание выборок, авторазметка с помощью Mistral, проверка и корректировка авторазметки, обеспечение баланса
    • Проведение экспериментов с языковыми моделями ML для создания суммаризаций отзывов по социальным объектам: тестирование и оценка производительности различных моделей (Gemma3, Mistral, DeepSeek, YandexGPT, GigaChat, Saiga), формирование итоговых словарей суммаризаций
    • Создание класса ReviewSummarizer для динамической обработки отзывов на базе интегрированного сервиса
  • поливанов анатолий
    Преподаватель ВолгГТУ
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: проверка и корректировка авторазметки, обеспечение баланса
    • Проведение экспериментов с языковыми моделями ML для создания суммаризаций отзывов по социальным объектам: тестирование и оценка производительности различных моделей (Gemma3, Mistral, DeepSeek, Qwen2, OLMo2, OpenChat), создание скрипта для использования в обработке отзывов нескольких моделей, формирование итоговых словарей суммаризаций
  • кривонос вадим
    Программист
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в формировании критериев для классификации отзывов
    • Ведущая роль в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: формирование структуры, очистка от нерелевантных данных, создание выборок, авторазметка с помощью Mistral, проверка и корректировка авторазметки, обеспечение баланса (RandomUnderSampler)
    • Проведение экспериментов с моделями ML для определения тональности отзывов: тестирование и оценка производительности и точности различных моделей и кастомных архитектур (TF-IDF, LogisticRegression, SVC, SGD, RandomForest, XGBoost, CatBoost, LightGBM)
    • Создание прототипа Web-приложения на FastAPI с интеграцией основных решений: автоматический анализ отзывов с визуализацией на картах и графиках, фильтрация по дате и типу социальных объектов, суммаризации
  • щеблецов виктор
    Маркетолог
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в формировании критериев для классификации отзывов
    • Участие в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: очистка от нерелевантных данных, создание выборок
    • Создание модуля аналитики и визуализации результатов на библиотеке Folio: формирование структуры данных, разработка методики и параметров оценки социальных объектов, создание концепции, агрегация данных с возможностью динамической детализации, отображение временной динамики (задел под отображение прогнозов), ГИС-привязка к карте
    • Содействие в создании прототипа Web-приложения на FastAPI с интеграцией основных решений
  • перминов алексей
    Электромонтер по ремонту и обслуживанию оборудования
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в формировании критериев для классификации отзывов: создание скрипта для разделения данных по классам
    • Участие в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: проверка и корректировка авторазметки, обеспечение баланса
    • Проведение экспериментов с моделями ML для определения тональности отзывов: тестирование и оценка производительности и точности различных моделей и кастомных архитектур (Dostoevsky, Roberta-FakeReal, ChatGPT-Detector, TF-IDF, LogisticRegression, Natasha, BERT, TfidfVectorizer)
  • аганин александр
    Руководитель отдела по экспертизе проектной документации
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей, создание Excel-файла с подробной аналитикой
    • Составление уточненного технического задания по разработке клиентского приложения для извлечения, обработки и анализа данных о городской среде с возможностью визуализации результатов на карте и в виде аналитических диаграмм
    • Разработка клиентского приложения по самостоятельно составленному техническому заданию
  • орлов павел
    Массажист
    • Анализ и обработка исходного датасета: исследование данных, статистический анализ, выявление проблем и закономерностей
    • Участие в создании и разметке датасета для обучения моделей ML для определения тональности отзывов: проверка и корректировка авторазметки, обеспечение баланса
    • Создание датасетов для экспериментов с моделями ML для решения задач регрессии и прогнозирования временных рядов
    • Проведение экспериментов с прогнозными моделями ML: тестирование и оценка производительности и точности различных моделей, кастомных архитектур и AutoML (LSTM, CNN, Linear Regression, Decision Tree, Random Forest, Gradient Boosting, ARIMA, SARIMA, SARIMAX, H2O, AutoTS, Prophet)