Учебные проекты, выполненные во время обучения на курсе Data Scientist
Предобработка, анализ и очистка данных по датасету анкет соискателей на сайте HeadHunter.
ссылка на проект:
https://docs.google.com/document/d/1k8dsZiDulK1yhJPxE-HVzFuwhM2BzCvWaJ0uzsV08P4/edit?usp=sharing
Предсказание оценки отеля клиентом на основе полученного отзыва, данных об отеле и клиенте.
Использованы дополнительные библиотеки: NLTK, geocoder.opencage.
Техническая задача специалиста Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, воспользуется он предложением об открытии депозита или нет.
Построены простые базовые модели - логистическая регрессия и решающее дерево.
Построены ансамблевые модели - случайный лес, градиентный бустинг на решающих деревьх, стекинг из деревьев, регрессии и бустинга.
Реализованы примеры подбора гиперпараметров - поиск по сетке, Tree-structured Parzen estimator (в Optuna).
Техническая задача специалиста Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать числовой признак — время поездки такси, то есть решить задачу регрессии.
Построены несколько моделей (линейная регрессия, линейная регрессия на полиномиальных признаках, дерево решений, случайный лес, градиентный бустинг), выбрана модель с наилучшим результатом по заданной метрике.
Дополнительно спользована библиотека xgboost.
Бизнес-задача: произвести сегментацию существующих клиентов, проинтерпретировать эти сегменты и определить стратегию взаимодействия с ними.
Техническая задача специалиста Data Science: построить модель кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, определить профиль каждого из кластеров (RFM-кластеризация).
Проведена предобработка и очистка данных:
- удалены пропуски и дубликаты; идентифицированы и удалены транзакции-возвраты,
- количество возвращенного товара по заказам выделено в отдельный признак;
- идентифицированы и удалены транзакции специального характера, не представляющие интереса для кластерного анализа клиентов.
Рассмотрены распределения клиентов, количества заказов и выручки по странам.
Проанализировано количество продаж по месяцам, дням недели, времени суток.
Сформирован датасет для анализа клиентов по модели RFM: Recency-Frequency-Monetary Value.
Проведено PCA-снижение размерности до двух компонент, проведена кластеризация несколькими методами, выбран оптимальный алгоритм.
Проведен анализ отличий в разных кластерах.
Аналогичные шаги кластеризации повторены для нелинейного снижения размерности методом t-SNE.
Построены модели классификации клиентов.