- Разработка концепции сбора расширенного датасета для классификации SEO-запросов по критерию коммерческих интентов на основе сервиса Arsenkin.ru:
- Анализ топовых рыночных инструментов для оценки фактора «коммерции» ключевых запросов;
- Выбор лидера отрасли для SEO-профессионалов Arsenkin tools (Arsenkin.ru);
- Использование преимущества инструмента, а именно небинарную оценку фактора “коммерция” (в % от 0 до 100);
- Сбор более 2 млн ключевых словосочетаний с ведущих порталов Рунета;
- Аналитический отбор 220 тысяч ключевых словосочетаний с высокими позициями;
- Разметка базы данных ключевых словосочетаний размером 200 тысяч записей на 2 и 3 класса;
- Формирование финального сбалансированного датасета на 65 тысяч строк, который лег в основу дальнейших разработок и финальной архитектуры модели классификации группы.
- Разработка направления классификации через регрессионную модель на основе созданного небинарного датасета;
- Разработка и обучение нейросети на основе регрессионной модели, которая учитывала небинарные оценки фактора коммерции, достигнув точности 87%;
- Проведение серии экспериментов с использованием трансформерных моделей, основанных на архитектуре BERT (Bidirectional Encoder Representations from Transformers);
- Исследование эффективности применения предобученных эмбеддингов BERT для задачи классификации коммерческих интентов;
- Формирование выводов о преимуществах использования более легких моделей по сравнению с предобученными для задач классификации коммерческих интентов