• База данных заказчика (PostgreSQL)
• Структура: сотни таблиц, большое количество полей и зависимостей.
• Реальные бизнес-запросы от заказчика
• Данные для тестирования: вопросы, сценарии, SQL-шаблоны
• Требования к безопасности и ограничения RLS
• NL→SQL пайплайн, способный стабильно преобразовывать запросы
• Модуль семантического понимания бизнес-вопросов
• Система корректировки и повторной генерации SQL (ретраи)
• Логирование, оценка качества, отчёты
• Набор тестовых сценариев и методика проверки
• Документация и демонстрационный прототип для заказчика
• Восстановлена и проанализирована БД заказчика
• Реализован прототип пайплайна NL→SQL
• Построен модуль JSON-плана для корректной декомпозиции запросов
• Проведено тестирование на десятках пользовательских запросов
• Реализованы механизмы фильтрации нецелевых таблиц и безопасного доступа
• Подготовлены аналитика, отчёты и презентационные материалы
LLM и NLP:
• GPT-модели, Qwen, Mistral, Phi (в тестировании и сравнении)
• Chain-of-Thought / JSON-планы / schema-aware reasoning
Backend и базы:
• PostgreSQL
• Python
• SQLAlchemy / psycopg2
• Docker / Docker Compose
Архитектура и интеграции:
• RAG по метаданным БД
• Автовалидация SQL через реальное выполнение
• Логирование и мониторинг ошибок
Используемый технологический стек
• Подключение к БД заказчика, разбор структуры, таблиц, ключей и отношений
• Построение пайплайна NL → SQL с обязательной валидацией результата
• Разработка механизма декомпозиции сложных запросов и пошагового reasoning
• Реализация RAG-механизма на основе метаданных, описаний таблиц и примеров
• Построение логики ретраев (повторных попыток) с исправлением ошибок
• Логирование, аналитика работы ассистента, контроль ошибок
• Подготовка тестовых сценариев, датасетов и методики оценки качества
• Подготовка прототипа для демонстрации заказчику
Создать прототип нейро-ассистента, который:
• понимает бизнес-вопросы на естественном языке
• автоматически строит корректный SQL-запрос
• проверяет его безопасность и корректность выполнения
• возвращает достоверный результат
• помогает заказчику ускорить аналитику данных и снизить нагрузку на специалистов
• Ускорение времени генерации и повышение стабильности
• Расширение функциональности ассистента под реальные сценарии бизнеса
• Более глубокая семантическая работа с базой (описания, связи, документация)
• Подготовка MVP к промышленному внедрению
• Интеграция в рабочие процессы заказчика и CI/CD-контур
Проект направлен на создание интеллектуального NL→SQL ассистента, который позволяет пользователю:
— вводить запросы на естественном языке
— автоматически преобразовывать их в корректные SQL-запросы
— безопасно выполнять их в реальной БД заказчика
— получать структурированные результаты и аналитические выводы
Система должна работать как надежный инструмент аналитика: понимать смысл задачи, учитывать структуру базы данных, проверять корректность запроса, устранять ошибки и обеспечивать защищённое взаимодействие с внутренними данными.