El objetivo principal de este proyecto es aplicar los fundamentos de ciencia de datos para desarrollar un sistema integral de análisis de noticias salvadoreñas. Se abordarán diferentes etapas, desde la obtención de datos mediante web scraping hasta la implementación de modelos de aprendizaje automático y procesamiento del lenguaje natural, culminando con la creación de una interfaz interactiva utilizando Streamlit.
Se utilizaron técnicas de web scraping o APIs para obtener noticias de un periódico salvadoreño, por ejemplo, El Diario de Hoy.
- Análisis del Código de la Página Principal: Identificación del menú.
- Extracción de Categorías: Obtención de las categorías principales de noticias a partir del menú.
- Obtención de Subcategorías: Identificación de las subcategorías asociadas a cada categoría principal.
- Análisis de URLs: Determinación de las combinaciones existentes de categorías y subcategorías.
- Web Scraping de Categorías: Obtención de las URLs individuales de cada noticia.
- Exploración de URLs de Noticias: Extracción de información detallada, como título, resumen, fecha de publicación, autor, cuerpo de la noticia, palabras clave y URL.
- Almacenamiento de Datos: Guardado de cada conjunto de datos en una lista individual.
- Conversión a Diccionario: Transformación de las listas en un diccionario.
- Transformación a DataFrame: Conversión del diccionario en un DataFrame de pandas para análisis posterior.
- Exportación del DataFrame: Guardado como archivo CSV agregando un timestamp para individualizar cada extracción de datos.
Se agrego el archivo de Scraper para el Diario El Mundo, por el momento este no recolecta las palabras clave.
Se agrego el Analisis de datos para un CSV de El Diario de Hoy.