Стажировка по проекту
Компания:
«Ingate Digital Marketing Integrator»
СОЗДАНИЕ Инструмента
семантической обработки запросов и их кластеризации
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Создание модели классификации веб-страниц с любых сайтов в сети на коммерческие и информационные для целей SEO. Решение задачи сбора достаточного количества данных для датасета с применением парсинга веб-страниц и создание пайплайна генерации датасета с преобразованием извлеченного текста из метатегов html-страницы в образец для нейросети
Указание класса поданной в пайплайн модели веб-страницы: коммерческий либо информационный
Собранный группой датасет с интернет-сайтов в сети с применением ключевых слов из базы поисковых запросов Букварикс и разработанного группой ПО для автоматизации сбора и парсинга данных
Настоящая разработка является частью проекта в сфере SEO по cемантической обработке запросов и кластеризации
Участники
команды проекта
  • Резер Артём
    Тимлид проекта
    Артем — руководитель группы разработчиков, отвечал за проект
  • Харламов Михаил
    Помощник тимлида
    Михаил помогал руководителю команды организовывать процесс разработки проекта
  • Трохачев Антон
    • Разработка подхода к сбору данных для датасета с применением ключевых слов из базы поисковых запросов Букварикс (www.bukvarix.com)
    • Разработка многопользовательского расширения для Chrome/Chromium для автоматизированного сбора данных для датасета в виде запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос в единую таблицу формата Excel, запуск разработанного расширения в эксплуатацию среди участников группы
    • Настройка специализированного пакета ZennoPoster для парсинга веб-страниц по собранным url-адресам со сбором текстовых данных для последующего формирования датасета
    • Консультирование группы по вопросам из предметной области SEO в процессе реализации проекта
  • Зайцев Валерий
    Заместитель директора группы НИКОС
    • Разработка общего подхода и алгоритма по реализации проекта, анализ исходных данных и результатов проекта
    • Разработка python-приложения для автоматизации сбора данных для датасета в виде запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос в единую таблицу формата Excel
    • Разработка скрипта для парсинга страниц, загружаемых из собранных url с использованием библиотеки Selenium
    • Разработка подхода к формированию образцов в датасете для подачи в нейросеть с извлечением текста из метатегов html0страницы, преобразования и извлечения текста из url-адреса страницы с последующей конкатенацией с основным текстом страницы
    • Выполнение парсинга разработанным скриптом с формированием датасета
    • Проверка и корректировка данных в датасете, статистический и частотный анализ текстовых данных в датасете, написание скриптов для поиска ошибок в датасете, корректировка ошибок в датасете, прочие необходимые виды предобработки и корректировки данных в датасете, окончательное формирование датасета
    • Обучение модели BertForSequenceClassification на весах DeepPavlov/rubert-base-cased-sentence на подготовленном датасете
    • Обучение алтернативных моделей BoW+MultinomialNB, TF-IDF+RandomForest на вариациях подготовленного датасета
    • Анализ точности моделей в зависимости от параметров формирования датасета и гиперпараметров моделей
    • Разработка рекомендаций по подходу к сбору, анализу, обработке и классификации url-страниц, рекомендации по продолжению и развитию работ по проекту
  • Клищенко Роман
    Инженер-лаборант на производстве сельскохозяйственной техники
    • Анализ собранных для датасета данных
    • Написание скрипта для преобразования собранных данных в датасет
    • Изучение различных архитектур для решения задачи классификации текстовых образцов: сверточных сетей, NLP-трансформеров
    • Разработка пайплайна подготовки данных и обучения модели BertForSequenceClassification, обучение модели
  • Кошелев Дмитрий
    Специалист по сборке и обслуживанию ПК и ЛВС
    • Анализ собранных для датасета данных
    • Разработка скрипта проверки url-адресов
    • Разработка скрипта генерации вариаций датасета в соответствии нужным форматом
    • Проведение исследований с обучением мультимодальных моделей с различными входами, NLP трансформеров BERT и FastBERT
    • Изучение функций и классов фреймворка модели FastBERT
  • Ерюкова Татьяна
    Инженер-конструктор медицинской техники, исследователь
    • Консультирование группы по вопросам из предметной области SEO в процессе реализации проекта
    • Анализ собранных для датасета данных
  • Амиров Сергей
    • Существенный вклад в сбор данных для датасета в виде таблицы запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос с применением разработанных инструментов автоматизации сбора данных
    • Изучение моделей NLP-трансформеров, рассмотрение возможности применения найденных моделей, демонстрация в группе ноутбуков с примерами их применения
    • Анализ собранных для датасета данных