Стажировка | Ингейт (Семантическая обработка)

Стажировка по проекту

Компания:
«Ingate Digital Marketing Integrator»

СОЗДАНИЕ Инструмента
семантической обработки запросов и их кластеризации

Суть проекта

Задача

Для чего

Вводные данные

Выходные данные

Создание модели классификации веб-страниц с любых сайтов в сети на коммерческие и информационные для целей SEO. Решение задачи сбора достаточного количества данных для датасета с применением парсинга веб-страниц и создание пайплайна генерации датасета с преобразованием извлеченного текста из метатегов html-страницы в образец для нейросети

Указание класса поданной в пайплайн модели веб-страницы: коммерческий либо информационный

Собранный группой датасет с интернет-сайтов в сети с применением ключевых слов из базы поисковых запросов Букварикс и разработанного группой ПО для автоматизации сбора и парсинга данных

Настоящая разработка является частью проекта в сфере SEO по cемантической обработке запросов и кластеризации

Участники
1 команды проекта

Резер Артём

Тимлид проекта

Артем — руководитель группы разработчиков, отвечал за проект
Харламов Михаил

Помощник тимлида

Михаил помогал руководителю команды организовывать процесс разработки проекта
Трохачев Антон
- Участие при создании проекта по разработке подхода к сбору данных для датасета с применением ключевых слов из базы поисковых запросов Букварикс (www.bukvarix.com);
- Участие при создании проекта по разработке многопользовательского расширения для Chrome/Chromium для автоматизированного сбора данных для датасета в виде запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос в единую таблицу формата Excel, запуск разработанного расширения в эксплуатацию среди участников группы;
- Настройка специализированного пакета ZennoPoster для парсинга веб-страниц по собранным url-адресам со сбором текстовых данных для последующего формирования датасета;
- Консультирование группы по вопросам из предметной области SEO в процессе реализации проекта
Зайцев Валерий

Заместитель директора группы НИКОС
- Участие при создании проекта по разработке общего подхода и алгоритма по реализации проекта, анализ исходных данных и результатов проекта;
- Участие при создании проекта по разработке python-приложения для автоматизации сбора данных для датасета в виде запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос в единую таблицу формата Excel;
- Участие при создании проекта по разработке скрипта для парсинга страниц, загружаемых из собранных url с использованием библиотеки Selenium;
- Участие при создании проекта по разработке подхода к формированию образцов в датасете для подачи в нейросеть с извлечением текста из метатегов html0страницы, преобразования и извлечения текста из url-адреса страницы с последующей конкатенацией с основным текстом страницы;
- Выполнение парсинга разработанным скриптом с формированием датасета;
- Проверка и корректировка данных в датасете, статистический и частотный анализ текстовых данных в датасете, написание скриптов для поиска ошибок в датасете, корректировка ошибок в датасете, прочие необходимые виды предобработки и корректировки данных в датасете, окончательное формирование датасета;
- Обучение модели BertForSequenceClassification на весах DeepPavlov/rubert-base-cased-sentence на подготовленном датасете;
- Обучение алтернативных моделей BoW+MultinomialNB, TF-IDF+RandomForest на вариациях подготовленного датасета;
- Анализ точности моделей в зависимости от параметров формирования датасета и гиперпараметров моделей;
- Участие при создании проекта по разработке рекомендаций по подходу к сбору, анализу, обработке и классификации url-страниц, рекомендации по продолжению и развитию работ по проекту
Клищенко Роман

Инженер-лаборант на производстве сельскохозяйственной техники
- Анализ собранных для датасета данных;
- Написание скрипта для преобразования собранных данных в датасет;
- Изучение различных архитектур для решения задачи классификации текстовых образцов: сверточных сетей, NLP-трансформеров;
- Участие при создании проекта по разработке пайплайна подготовки данных и обучения модели BertForSequenceClassification, обучение модели
Кошелев Дмитрий

Специалист по сборке и обслуживанию ПК и ЛВС
- Анализ собранных для датасета данных;
- Участие при создании проекта по разработке скрипта проверки url-адресов;
- Участие при создании проекта по разработке скрипта генерации вариаций датасета в соответствии нужным форматом;
- Проведение исследований с обучением мультимодальных моделей с различными входами, NLP трансформеров BERT и FastBERT;
- Изучение функций и классов фреймворка модели FastBERT
Ерюкова Татьяна

Инженер-конструктор медицинской техники, исследователь
- Консультирование группы по вопросам из предметной области SEO в процессе реализации проекта;
- Анализ собранных для датасета данных
Амиров Сергей
- Существенный вклад в сбор данных для датасета в виде таблицы запросов в поисковую систему, результирующих url-ссылок с метками коммерческий либо информационный запрос с применением разработанных инструментов автоматизации сбора данных;
- Изучение моделей NLP-трансформеров, рассмотрение возможности применения найденных моделей, демонстрация в группе ноутбуков с примерами их применения;
- Анализ собранных для датасета данных

Участники
2 команды проекта

Осокин Юрий

Тимлид

Юрий— руководитель группы разработчиков, отвечал за проект
Даренских Александр

Индивидуальный предприниматель в области коммерции
- Предложение основной идеи применения сниппетов поисковика для классификации запросов, что позволило ускорить работу всей команды;
- Разработка скриптов парсеров для сбора данных и классификации сниппетов, используя библиотеки BeautifulSoup и Scrapy;
- Эксперименты с различными архитектурами нейронных сетей, включая AutoKeras и vanilla transformers;
- Разработка и тестирование моделей нейронных сетей, достигших точности до 86% в классификации сниппетов;
- Визуализация результатов включала сравнительный анализ различных моделей и их эффективности;
- Подготовка итоговой презентации по проекту
Сулоев Алексей

Программист-инженер нейронных сетей
- Участие при создании проекта по разработке и реализации парсера для сбора данных на основе библиотек Beautiful Soup,Requests;
- Формирование и обогащение датасета;
- Создание нескольких вариантов нейросетей в том числе на основе библиотеки AutoKeras;
- Максимально точное обучение нейросети для достижения требуемой точности;
- Участие в разработке и реализации механизма сбора данных;
- Проведение анализа результатов обучения нейросети в рамках проекта
Аленникова Елена

Инженер-эксперт
- Создание ориентировочного плана действий и размещение на GitHub для организации проекта и координации задач;
- Участие в создании проекта по разработке механизма сбора данных и его автоматизации;
- Разработка механизм сбора датасета и его автоматизация;
- Написание скрипта для парсинга и обработки данных с использованием библиотеки BeautifulSoup4;
- Проведен анализ методов и написание кода для суммаризации текста;
- Участие в сборе датасета, с использованием различных источников данных;
- Осуществление анализа датасета, подбор оптимального набора данных для обучения моделей;
- Написание скрипта для создания, обучения и тестирования моделей;
- Обучение моделей организовано с использованием библиотек TensorFlow, Scikit-learn, AutoKeras и AutoSklearn;
- Создание самой лёгкой и быстрой модели с точностью 91,54% и полнотой 92,5%, при согласованной точности не ниже 85%
Емельянченко Анастасия

Госслужащая
- Изучение основных принципов работы SEO;
- Создание скрипта на Python для сбора датасета и его модернизация;
- Использование расширения для Chromium для сбора датасета, помощь в сборе датасета;
- Сбор данных с использованием двух вариантов, собрано в общий датасет более 500 записей
Яковенко Вадим

Фитнес-инструктор, специалист по естественному противодействию старению, ЗОЖ, нутрициологии, ЛФК
- Успешное формирование и использование датасетов для обучения нейросетей;
- Создание нейросетей для классификации запросов на коммерческие и некоммерческие с использованием различных подходов, включая модель Bag of Words и AutoKeras;
- Создание ансамблей нейросетей для многоканальной классификации и обработки данных;
- Использование различных подходов, включая TensorFlow и AutoKeras, для написания и доработки нейронных сетей;
- Тестирование и оптимизация моделей нейросетей для повышения точности классификации запросов;
- Успешное создание моделей с высокой точностью классификации и их доработка для улучшения производительности;
- Визуализация результатов включала графики и диаграммы, демонстрирующие эффективность ансамблей моделей;
- Подготовка итогового кода и его сборка для презентации;
- Подготовка демонстрационного видео по работе своей модели нейросети
Щеблецов Виктор

Индивидуальный предприниматель в сфере маркетинга, SEO, BPM
- Разработка концепции сбора расширенного датасета для классификации SEO-запросов по критерию коммерческих интентов на основе сервиса Arsenkin.ru:
- Анализ топовых рыночных инструментов для оценки фактора «коммерции» ключевых запросов;
- Выбор лидера отрасли для SEO-профессионалов Arsenkin tools (Arsenkin.ru);
- Использование преимущества инструмента, а именно небинарную оценку фактора “коммерция” (в % от 0 до 100);
- Сбор более 2 млн ключевых словосочетаний с ведущих порталов Рунета;
- Аналитический отбор 220 тысяч ключевых словосочетаний с высокими позициями;
- Разметка базы данных ключевых словосочетаний размером 200 тысяч записей на 2 и 3 класса;
- Формирование финального сбалансированного датасета на 65 тысяч строк, который лег в основу дальнейших разработок и финальной архитектуры модели классификации группы.
- Разработка направления классификации через регрессионную модель на основе созданного небинарного датасета;
- Разработка и обучение нейросети на основе регрессионной модели, которая учитывала небинарные оценки фактора коммерции, достигнув точности 87%;
- Проведение серии экспериментов с использованием трансформерных моделей, основанных на архитектуре BERT (Bidirectional Encoder Representations from Transformers);
- Исследование эффективности применения предобученных эмбеддингов BERT для задачи классификации коммерческих интентов;
- Формирование выводов о преимуществах использования более легких моделей по сравнению с предобученными для задач классификации коммерческих интентов
Молчанов Денис

Системный администратор
- Поиск, тестирование и сравнение готовых языковых моделей (LLM) для классификации ключевых запросов, таких как FastText (CBOW embedding) и ruBERT-tiny2;
- Дообучение языковой модели «Трансформера» ruBERT-tiny2 с увеличенным словарём на специализированном многоканальном датасете, подготовленном нашей командой, достигнув Precision 96%;
- Поиск и тестирование готовых языковых моделей для суммаризации русского текста, таких как RuT5-Base, Wizard-Vicuna и GeminiAI-Pro API скрипт;
- Участие в тестировании библиотек для суммаризации и сбора частотных тем текста, включая Sumy, GensimLDA и FastText Gensim;
- Доработка скрипта для многостраничного сбора заголовков, URL-ссылок и текста из поисковой выдачи Яндекс по ключевому запросу, а также дальнейший сбор текста по полученным ссылкам, используя BeautifulSoup4;
- Применение библиотек AutoKeras и AutoSklearn для автоматического подбора моделей и ансамблей моделей машинного обучения и нейросетей;
- Исследование влияние различных методов очистки (пунктуация, стоп-слова, стеммизация, лемматизация) и балансировки датасета на качество обучения моделей;
- Тестирование различных гипотез обучения на реальных данных, включая полносвязные нейронные сети (NN), гибридные сети (LSTM+NN, BidirectionalLSTM+NN с Precision 95%), и Bert_embedding+BiLSTM (Precision 89%);
- Создание пользовательского интерфейса (Gradio), включающего парсинг по ключевому запросу поисковой выдачи Яндекс, выбор обученной модели нейросети для анализа и классификации ключевого запроса, а также сравнительный анализ информации по конкурентам из выдачи и итоговые диаграммы
Ужегов Максим

Менеджером по продажам автомобильных запчастей
- Ключевая роль в написании основы оптимально работающего скрипта парсера для Яндекса и Гугла, используя Scrapy и YandexSpider;
- Формирование сбалансированного списка ключевых запросов и создание датасета для нейросети;
- Работа с более глубокими методами, такими как Selenium, для симуляции браузера и повышения эффективности парсинга;
- Участие при создании проекта по разработке скриптов для работы с динамическими сайтами;
- Написание и доработка кода для получения данных с поисковых систем, что значительно ускорило процесс формирования датасета;
- Создание и оптимизация скриптов парсеров для различных источников данных;
- Изучение и применение библиотеки Gensim для работы с нейросетью.
- Визуализация данных, собранных парсерами, для оценки качества и полноты собранной информации
Коньков Сергей
- Написание скрипта парсера для сбора данных на основе анализа топ-10 ссылок в выдаче по ключевому словосочетанию;
- Систематический сбор и подготовка данных для датасета;
- Работа с облачными сервисами Google Colab для анализа и обработки данных;
- Участие в создании датасета на основе расширения для Chromium и скрипта