¡Hola! Mi nombre es Guillermo Fernández y éste mi tercer proyecto individual, que forma parte de la formación práctica del bootcamp de Data Science de la academia Henry.
Realizar un análisis completo que permita reconocer el comportamiento del sector de telecomunicaciones a nivel nacional (en Argentina), considerando principalmente el acceso a internet. Con el fin de monitorear la eficacia de los objetivos de la empresa, se le pide visualizar en un dashboard el siguiente KPI y establecer 3 KPIs adicionales producto de su análisis:
- Variación porcentual trimestral del servicio de internet, cada 100 hogares por provincia.
La industria de las telecomunicaciones ha jugado un papel vital en nuestra sociedad, facilitando la información a escala internacional y permitiendo la comunicación continua incluso en medio de una pandemia mundial. La transferencia de datos y comunicación se realiza en su mayoría a través de internet, líneas telefónicas fijas, telefonía móvil, casi en cualquier lugar del mundo.
- Extraer los datos desde la API (plus)
- EDA (Exploratory data analysis)
- ETL (Extraction, Transform, Load)
- Unir datasets, y exportar CSV a PowerBI
- Establecer KPIs
- Realizar scripts de Python en PowerBI (plus)
- Realizar el Dashboard
- Redactar un reporte escrito (plus)
- Conexiones_a_internet_en_Argentina.csv: Archivo CSV producto de la fusión de los datasets.
- Dashboard_conectividad_a_internet.pbix: Dashboard que muestra el análisis de la información.
- EDA.ipynb: Notebook de jupyter donde se realiza toda la carga y transformación de datos, así como la justificación de los datos escogidos para la realización del dashboard.
Mediante el uso de la API del sitio web https://datosabiertos.enacom.gob.ar/ se obtuvo un dataset que incluye toda la información disponible del sitio, para revisar cuáles se utilizarán.
Se exploraron los 18 datasets obtenidos anteriormente, para detectar features relevantes. Se seleccionaron aquellos que estaban segregados por provincia, por ser los que mayor información aportaban, y de los cuáles se podrían obtener KPIs significativos.
Algunos de los datasets tenían tipos de datos incorrectos, caracteres dentro de campos numéricos, etc. Se revisaron los campos de los datasets y se aplicaron correcciones.
Con los datasets limpios, se realizó el merge, y se quitaron columnas totalizadoras. Luego, se exportó el DF a un CSV para su consumo en PowerBI, revisando que la configuración regional compute bien los decimales. También se modificó el año para que fuera de tipo Date.
- Variación porcentual trimestral de los accesos al servicio de internet cada 100 hogares, por provincia.
- Variación porcentual trimestral de la cantidad de usuarios de las tecnologías más frecuentes, por provincia.
- Rangos de velocidad, por provincia, y variación del promedio nacional.
- Ingresos versus accesos cada 100 hogares, por provincia.
Se utilizaron scripts para realizar la carga del CSV y para elaborar una columna Trimestre con tipo Date.
Se estrableció un Dashboard con un tema oscuro y visualizaciones para facilitar el entendimiento los KPIs.
El reporte se puede encontrar en el archivo EDA.ipynb, que fue realizado explicando los pasos, estableciendo conclusiones y explicando cómo se llegó a ellas.
Éste fue un proyecto desafiante, ya que el énfasis estaba en analizar e interpretar los datos. Por supuesto que esta interpretación es totalmente subjetiva, y de ahí el valor agregado que pueda aportar el Data Analyst.
¡Muchas gracias por llegar hasta aquí!