Это задание не является обязательным, но выполнение его даст возможность заработать дополнительные 3 балла.
Цель задания:
Расширить имеющийся датасет данными о средних зарплатах в различных регионах для улучшения прогноза уровня заработной платы пользователей.
Шаги выполнения:
- Подготовка данных:
- Загрузите данные о средних зарплатах в различных регионах из открытых источников статистики труда или экономических данных.
- Проверьте соответствие формата и структуры загруженных данных с имеющимся датасетом.
- Интеграция данных:
- Объедините данные о зарплатах с основным датасетом, используя общий ключ (например, регион или город).
- Убедитесь в корректности объединения данных и отсутствии пропусков или несоответствий.
- Анализ новых данных:
- Проведите первичный анализ новых данных о зарплатах в различных регионах, включая вычисление средних, медианных и других статистических показателей.
- Визуализируйте данные, например, построив графики распределения заработных плат по регионам.
- Оценка влияния:
- Оцените влияние новых данных о зарплатах на качество модели, например, сравнивая метрики качества модели до и после интеграции новых данных.
Критерии оценивания:
- 1 балл за корректность интеграции данных. Данные о зарплатах должны быть корректно объединены с основным датасетом без потери информации.
- 1 балл за анализ новых данных. Проведён анализ новых данных о зарплатах в различных регионах, включая вычисление основных статистических показателей и визуализацию данных.
- 1 балл за оценку влияния на модель. Проведена оценка влияния интеграции новых данных о зарплатах на качество модели, например, путём сравнения метрик качества до и после интеграции.