Стажировка по проекту
Компания: РАН (Институт проблем рынка)
Прогнозирование оттока человеческих ресурсов
Суть проекта
Задача
Для чего
Вводные данные
Выходные данные
Спрогнозировать поведение кандидата:
  1. Останется ли человек в специальности после завершения ВУЗа;
  2. Насколько он будет привержен компании = прогнозирование оттока
Данная система будет источником прогнозирования при принятии решения создании кафедр обучения по востребованным профессиям для предприятий
Входные данные состоят из почти 63 тысяч анкет, в которых присутствует разнонаправленная информация о людях работающих в различных профессиях
На выходе получили глубокий анализ данных, благодаря которому смогли построить предсказательные модели с точностью более 95%
Участники
команды проекта
  • Бобрешов Алексей
    Тимлид проекта
    Алексей - руководитель группы разработчиков, отвечал за полную разработку проекта
  • БОЙКОВ СЕРГЕЙ
    Разработчик ПО (С# .NET, ASP.NET Core, Angular, SQL, Python / Django, C++)
    • Исследование и анализ базы резюме кандидатов на вакансии с использованием Python и различных библиотек, включая pandas, re и matplotlib.pyplot;
    • Использование ChatGPT API для интеллектуального парсинга данных о последнем образовании и ВУЗе соискателей;
    • Группировка соискателей на основе анализа данных о последнем учебном заведении на 3 категории: микроэлектроника/электроника, IT-специальности, все остальные;
    • Анализ данных о последней должности и интересе соискателей к определенным специальностям с использованием ключевых слов;
    • Вывод ключевых характеристик соискателей и ответы на важные вопросы от РАН, что привело к более глубокому пониманию соискателей на вакансии и разделению их на соответствующие категории
  • Зайцев Валерий
    Группа НИКОС, Заместитель директора, Руководитель проекта Руниверс
    • Анализ исходных данных и формирование целевых критериев;
    • Поиск и отбор данных из внешних источников необходимых для решения задачи;
    • Проведение экспериментов с использованием алгоритмов обработки естественного языка,  библиотек: NLTK и SpaСy;
    • Разработка алгоритмов решения задачи;
    • Подбор моделей и их  параметров для прогнозирования c использованием библиотеки sklearn и моделей LogisticRegression и RandomForestRegressor;
    • Визуализация данных с использованием библиотек matplotlib, seaborn, wordcloud
  • Хмелевский Илья
    Студент колледжа на специальности «информационные технологии и программирование»
    • Очистка данных;
    • Стандартизация;
    • Парсинг данных;
    • Составление списка названий специальностей/должностей;
    • Создание графиков для презентации из полученных данных;
    • Создание и обучение моделей  «LogisticRegression» и «RandomForestClassifier»;
    • Составление презентации и выводов по проделанной работе
  • Шевцова Дарья
    fronted-разработчик и qa-инженер
    • Анализ данных;
    • Подготовка датасета путем парсинга полей образования и опыта работы с помощью библиотеки Re;
    • Использование методов ML - случайный лес, дерево решений и логистической регрессии из библиотеки Sklearn для предсказаний;
    • Использование нейронных сетей с помощью библиотеки Tensorflow для предсказаний
  • Мурсанков Сергей
    • Проведение выборки со специализированного сайта и подготовка переченя профессий для задачи заказчика;
    • Парсинг исходных данных для получения целевой группы соискателей;
    • Подготовка датасета;
    • Полученный датасет был использован для обработки с помощью нейронных сетей методами «Решающие деревья», «Случайный лес»
  • Грачёв Владимир
    Анализ технологических процессов
    • Изучение и использование библиотек pandas, numpy, matplotlib, seaborn, re, pymorphy2, keras для получения результатов;
    • Выполнение исследования, которое позволило увидеть процессы и тенденции на рынке труда и прогнозировать поведение соискателей работы в следовании или отклонении производственной деятельности от полученного образования
  • Болтунов Александр
    мастера участка в ООО «Компании Алс и Тек»
    • Предобработка данных с помощью библиотек: pandas, numpy, re, string и т.д;
    • Использование методов строк для приведения к нижнему регистру, регулярных выражений для удаления знаков препинания;
    • Парсинг данных с помощью регулярных выражений
    • Проведение экспериментов с методами строк и работой с pandas.
  • Макарова Ольга
    маркетолог в центре развития личности «Арканум»
    • Парсинг функциями, регулярными выражениями;
    • Тестирование методами Auto ML для более широкого анализа
  • Харитонова Ульяна
    Инженер по искусственному интеллекту
    • Проведение парсинаг данных с помощью gpt -3.5, 4.0;
    • Формулирование распарсенной базы данных для возможности работы с широким спектром моделей машинного обучения
  • Эфрос Евгений
    Руководитель группы АСУТП
    • Поиск и выделение ключевых слов и фраз с применением библиотеки Re;
    • Сравнение полученных текстов с применением библиотеки Gensim
  • Павлов Роман
    руководитель направления ит-бюджетирования в государственной компании.
    • Парсинг базы;
    • Разведочный анализ;
    • Кластеризация данных
  • Пицуков Михаил
    менеджер группы танкеров, выполняющих круглогодичные перевозки топлива в Арктике
    • Предобработка и парсинг исходных данных с помощью стандартных инструментов EDA (pandas, numpy, matplotlib и др.);
    • Эксперименты с различными библиотеками Auto ML
  • Новожилов Максим
    Data Science специалист
    • Разработка модели прогноза оттока кандидата на базе анкетных данных;
    • Бибилиотеки: pandas, numpy, ntlk, sklearn, keras, matplotlib
  • Алейкин Виталий
    • Анализ первичных данных;
    • Парсинг первичных данных;
    • Разметка данных;
    • Выделение целевых групп специальностей;
    • Обучение модели прогнозирования