Стажировка по проекту
Компания:
«Ingate Digital Marketing Integrator»
СОЗДАНИЕ Инструмента
семантической обработки запросов и их кластеризации
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Создание модели классификации веб-страниц с любых сайтов в сети на коммерческие и информационные для целей SEO. Решение задачи сбора достаточного количества данных для датасета с применением парсинга веб-страниц и создание пайплайна генерации датасета с преобразованием извлеченного текста из метатегов html-страницы в образец для нейросети
Указание класса поданной в пайплайн модели веб-страницы: коммерческий либо информационный
Собранный группой датасет с интернет-сайтов в сети с применением ключевых слов из базы поисковых запросов Букварикс и разработанного группой ПО для автоматизации сбора и парсинга данных
Настоящая разработка является частью проекта в сфере SEO по cемантической обработке запросов и кластеризации
Участники
1 команды проекта
  • Резер Артём
    Тимлид проекта
    Артем — руководитель группы разработчиков, отвечал за проект
  • Харламов Михаил
    Помощник тимлида
    Михаил помогал руководителю команды организовывать процесс разработки проекта
  • Трохачев Антон
    • Участие при создании проекта по разработке подхода к сбору данных для датасета с применением ключевых слов из базы поисковых запросов Букварикс (www.bukvarix.com);
    • Участие при создании проекта по разработке многопользовательского расширения для Chrome/Chromium для автоматизированного сбора данных для датасета в виде запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос в единую таблицу формата Excel, запуск разработанного расширения в эксплуатацию среди участников группы;
    • Настройка специализированного пакета ZennoPoster для парсинга веб-страниц по собранным url-адресам со сбором текстовых данных для последующего формирования датасета;
    • Консультирование группы по вопросам из предметной области SEO в процессе реализации проекта
  • Зайцев Валерий
    Заместитель директора группы НИКОС
    • Участие при создании проекта по разработке общего подхода и алгоритма по реализации проекта, анализ исходных данных и результатов проекта;
    • Участие при создании проекта по разработке python-приложения для автоматизации сбора данных для датасета в виде запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос в единую таблицу формата Excel;
    • Участие при создании проекта по разработке скрипта для парсинга страниц, загружаемых из собранных url с использованием библиотеки Selenium;
    • Участие при создании проекта по разработке подхода к формированию образцов в датасете для подачи в нейросеть с извлечением текста из метатегов html0страницы, преобразования и извлечения текста из url-адреса страницы с последующей конкатенацией с основным текстом страницы;
    • Выполнение парсинга разработанным скриптом с формированием датасета;
    • Проверка и корректировка данных в датасете, статистический и частотный анализ текстовых данных в датасете, написание скриптов для поиска ошибок в датасете, корректировка ошибок в датасете, прочие необходимые виды предобработки и корректировки данных в датасете, окончательное формирование датасета;
    • Обучение модели BertForSequenceClassification на весах DeepPavlov/rubert-base-cased-sentence на подготовленном датасете;
    • Обучение алтернативных моделей BoW+MultinomialNB, TF-IDF+RandomForest на вариациях подготовленного датасета;
    • Анализ точности моделей в зависимости от параметров формирования датасета и гиперпараметров моделей;
    • Участие при создании проекта по разработке рекомендаций по подходу к сбору, анализу, обработке и классификации url-страниц, рекомендации по продолжению и развитию работ по проекту
  • Клищенко Роман
    Инженер-лаборант на производстве сельскохозяйственной техники
    • Анализ собранных для датасета данных;
    • Написание скрипта для преобразования собранных данных в датасет;
    • Изучение различных архитектур для решения задачи классификации текстовых образцов: сверточных сетей, NLP-трансформеров;
    • Участие при создании проекта по разработке пайплайна подготовки данных и обучения модели BertForSequenceClassification, обучение модели
  • Кошелев Дмитрий
    Специалист по сборке и обслуживанию ПК и ЛВС
    • Анализ собранных для датасета данных;
    • Участие при создании проекта по разработке скрипта проверки url-адресов;
    • Участие при создании проекта по разработке скрипта генерации вариаций датасета в соответствии нужным форматом;
    • Проведение исследований с обучением мультимодальных моделей с различными входами, NLP трансформеров BERT и FastBERT;
    • Изучение функций и классов фреймворка модели FastBERT
  • Ерюкова Татьяна
    Инженер-конструктор медицинской техники, исследователь
    • Консультирование группы по вопросам из предметной области SEO в процессе реализации проекта;
    • Анализ собранных для датасета данных
  • Амиров Сергей
    • Существенный вклад в сбор данных для датасета в виде таблицы запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос с применением разработанных инструментов автоматизации сбора данных;
    • Изучение моделей NLP-трансформеров, рассмотрение возможности применения найденных моделей, демонстрация в группе ноутбуков с примерами их применения;
    • Анализ собранных для датасета данных
Участники
2 команды проекта
  • Осокин Юрий
    Тимлид
    Юрий— руководитель группы разработчиков, отвечал за проект
  • Даренских Александр
    Индивидуальный предприниматель в области коммерции
    • Предложение основной идеи применения сниппетов поисковика для классификации запросов, что позволило ускорить работу всей команды;
    • Разработка скриптов парсеров для сбора данных и классификации сниппетов, используя библиотеки BeautifulSoup и Scrapy;
    • Эксперименты с различными архитектурами нейронных сетей, включая AutoKeras и vanilla transformers;
    • Разработка и тестирование моделей нейронных сетей, достигших точности до 86% в классификации сниппетов;
    • Визуализация результатов включала сравнительный анализ различных моделей и их эффективности;
    • Подготовка итоговой презентации по проекту
  • Сулоев Алексей
    Программист-инженер нейронных сетей
    • Участие при создании проекта по разработке и реализации парсера для сбора данных на основе библиотек Beautiful Soup,Requests;
    • Формирование и обогащение датасета;
    • Создание нескольких вариантов нейросетей в том числе на основе библиотеки AutoKeras;
    • Максимально точное обучение нейросети для достижения требуемой точности;
    • Участие в разработке и реализации механизма сбора данных;
    • Проведение анализа результатов обучения нейросети в рамках проекта
  • Аленникова Елена
    Инженер-эксперт
    • Создание ориентировочного плана действий и размещение на GitHub для организации проекта и координации задач;
    • Участие в создании проекта по разработке механизма сбора данных и его автоматизации;
    • Разработка механизм сбора датасета и его автоматизация;
    • Написание скрипта для парсинга и обработки данных с использованием библиотеки BeautifulSoup4;
    • Проведен анализ методов и написание кода для суммаризации текста;
    • Участие в  сборе датасета, с использованием различных источников данных;
    • Осуществление анализа датасета, подбор оптимального набора данных для обучения моделей;
    • Написание скрипта для создания, обучения и тестирования моделей;
    • Обучение моделей организовано с использованием библиотек TensorFlow, Scikit-learn, AutoKeras и AutoSklearn;
    • Создание самой лёгкой и быстрой модели с точностью 91,54% и полнотой 92,5%, при согласованной точности не ниже 85%
  • Емельянченко Анастасия
    Госслужащая
    • Изучение основных принципов работы SEO;
    • Создание скрипта на Python для сбора датасета и его модернизация;
    • Использование  расширения для Chromium для сбора датасета, помощь в сборе датасета;
    • Сбор данных с использованием двух вариантов, собрано в общий датасет более 500 записей
  • Яковенко Вадим
    Фитнес-инструктор, специалист по естественному противодействию старению, ЗОЖ, нутрициологии, ЛФК
    • Успешное формирование и использование датасетов для обучения нейросетей;
    • Создание нейросетей для классификации запросов на коммерческие и некоммерческие с использованием различных подходов, включая модель Bag of Words и AutoKeras;
    • Создание ансамблей  нейросетей для многоканальной классификации  и обработки данных;
    • Использование различных подходов, включая TensorFlow и AutoKeras, для написания и доработки нейронных сетей;
    • Тестирование и оптимизация моделей нейросетей для повышения точности классификации запросов;
    • Успешное создание моделей с высокой точностью классификации и их доработка для улучшения производительности;
    • Визуализация результатов включала графики и диаграммы, демонстрирующие эффективность ансамблей моделей;
    • Подготовка итогового кода и его сборка для презентации;
    • Подготовка демонстрационного видео по работе своей модели нейросети
  • Щеблецов Виктор
    Индивидуальный предприниматель в сфере маркетинга, SEO, BPM
    • Разработка концепции сбора расширенного датасета для классификации SEO-запросов по критерию коммерческих интентов на основе сервиса Arsenkin.ru:
    - Анализ топовых рыночных инструментов для оценки фактора «коммерции» ключевых запросов;
    - Выбор лидера отрасли для SEO-профессионалов Arsenkin tools (Arsenkin.ru);
    - Использование преимущества инструмента, а именно небинарную оценку фактора “коммерция” (в % от 0 до 100);
    - Сбор более 2 млн ключевых словосочетаний с ведущих порталов Рунета;
    - Аналитический отбор 220 тысяч ключевых словосочетаний с высокими позициями;
    - Разметка базы данных ключевых словосочетаний размером 200 тысяч записей на 2 и 3 класса;
    - Формирование финального сбалансированного датасета на 65 тысяч строк, который лег в основу дальнейших разработок и финальной архитектуры модели классификации группы.
    • Разработка направления классификации через регрессионную модель на основе созданного небинарного датасета;
    • Разработка и обучение нейросети на основе регрессионной модели, которая учитывала небинарные оценки фактора коммерции, достигнув точности 87%;
    • Проведение серии экспериментов с использованием трансформерных моделей, основанных на архитектуре BERT (Bidirectional Encoder Representations from Transformers);
    • Исследование эффективности применения предобученных эмбеддингов BERT для задачи классификации коммерческих интентов;
    • Формирование выводов о преимуществах использования более легких моделей по сравнению с предобученными для задач классификации коммерческих интентов
  • Молчанов Денис
    Системный администратор
    • Поиск, тестирование и сравнение готовых языковых моделей (LLM) для классификации ключевых запросов, таких как FastText (CBOW embedding) и ruBERT-tiny2;
    • Дообучение языковой модели «Трансформера» ruBERT-tiny2 с увеличенным словарём на специализированном многоканальном датасете, подготовленном нашей командой, достигнув Precision 96%;
    • Поиск и тестирование готовых языковых моделей для суммаризации русского текста, таких как RuT5-Base, Wizard-Vicuna и GeminiAI-Pro API скрипт;
    • Участие в тестировании библиотек для суммаризации и сбора частотных тем текста, включая Sumy, GensimLDA и FastText Gensim;
    • Доработка скрипта для многостраничного сбора заголовков, URL-ссылок и текста из поисковой выдачи Яндекс по ключевому запросу, а также дальнейший сбор текста по полученным ссылкам, используя BeautifulSoup4;
    • Применение библиотек AutoKeras и AutoSklearn для автоматического подбора моделей и ансамблей моделей машинного обучения и нейросетей;
    • Исследование влияние различных методов очистки (пунктуация, стоп-слова, стеммизация, лемматизация) и балансировки датасета на качество обучения моделей;
    • Тестирование различных гипотез обучения на реальных данных, включая полносвязные нейронные сети (NN), гибридные сети (LSTM+NN, BidirectionalLSTM+NN с Precision 95%), и Bert_embedding+BiLSTM (Precision 89%);
    • Создание пользовательского интерфейса (Gradio), включающего парсинг по ключевому запросу поисковой выдачи Яндекс, выбор обученной модели нейросети для анализа и классификации ключевого запроса, а также сравнительный анализ информации по конкурентам из выдачи и итоговые диаграммы
  • Ужегов Максим
    Менеджером по продажам автомобильных запчастей
    • Ключевая роль в написании основы оптимально работающего скрипта парсера для Яндекса и Гугла, используя Scrapy и YandexSpider;
    • Формирование сбалансированного списка ключевых запросов и создание датасета для нейросети;
    • Работа с более глубокими методами, такими как Selenium, для симуляции браузера и повышения эффективности парсинга;
    • Участие при создании проекта по разработке скриптов для работы с динамическими сайтами;
    • Написание и доработка кода для получения данных с поисковых систем, что значительно ускорило процесс формирования датасета;
    • Создание и оптимизация скриптов парсеров для различных источников данных;
    • Изучение и применение библиотеки Gensim для работы с нейросетью.
    • Визуализация данных, собранных парсерами, для оценки качества и полноты собранной информации
  • Коньков Сергей
    • Написание скрипта парсера для сбора данных на основе анализа топ-10 ссылок в выдаче по ключевому словосочетанию;
    • Систематический сбор и подготовка данных для датасета;
    • Работа с облачными сервисами Google Colab для анализа и обработки данных;
    • Участие в создании датасета на основе расширения для Chromium и скрипта