You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
# Web Scraping: Consulta Amigable MEF <aid='a'></a>
2
4
Este proyecto utiliza Selenium para automatizar la navegación web y extraer datos del portal [Consulta Amigable](https://apps5.mineco.gob.pe/transparencia/Mensual/default.aspx) del MEF. Los datos extraídos se guardan en un archivo XLSX/CSV para su posterior análisis y procesamiento.
3
5
4
6
El scraper está optimizado para extraer la ejecución del gasto con frecuencia mensual según la desagregación "¿Quién gasta?", iterando por año, departamento, provincia y municipalidad, siendo este último el nivel donde se obtienen los datos.
5
7
6
8
7
-
## 1. Requisitos
9
+
## Contenido
10
+
1.[**Requisitos**](#1)
11
+
2.[**Instalación**](#2)
12
+
3.[**Estructura del Proyecto**](#3)
13
+
4.[**Uso**](#4)
14
+
15
+
16
+
## 1. Requisitos <aid='1'></a>
8
17
9
18
Este proyecto se desarrolló en:
10
19
* Python 3.11
@@ -20,7 +29,7 @@ selenium==4.28.1
20
29
requests==2.32.3
21
30
```
22
31
23
-
## 2. Instalación
32
+
## 2. Instalación <aid='2'></a>
24
33
25
34
### 2.1. Clonar el repositorio
26
35
Clona este repositorio en tu máquina local utilizando el siguiente comando:
@@ -59,7 +68,7 @@ Los archivos extraídos del `.zip` guardar y/o reemplazar en la carpeta `03_con
59
68
> [!IMPORTANT]
60
69
> La versión del Chrome (el navegador regular) debe estar actualizado.
61
70
62
-
## 3. Estructura del Proyecto
71
+
## 3. Estructura del Proyecto <aid='3'></a>
63
72
64
73
```
65
74
/WS CAMEF/
@@ -183,7 +192,7 @@ stateDiagram
183
192
***Nota:** Este diagrama muestra el flujo de navegación y extracción de datos, detallando las iteraciones en la automatización. Implícitamente, después de cada `click_on_element()`, se ejecuta `switch_to_frame()`.*
184
193
185
194
186
-
### 3.2`c_cleaner.py`
195
+
### 3.3`c_cleaner.py`
187
196
Este script se encarga de la limpieza y preprocesamiento de los datos extraídos.
188
197
189
198
- Carga los datos desde el archivo generado por `b_scraper.py`.
@@ -200,7 +209,7 @@ El script se compone de las siguientes funciones:
200
209
-**`main()`** → Función principal que ejecuta la secuencia de limpieza y almacenamiento de datos.
201
210
202
211
203
-
## 4. Uso
212
+
## 4. Uso <aid='4'></a>
204
213
205
214
### 4.1. Activar el entorno virtual
206
215
@@ -221,9 +230,14 @@ python 02_src\b_scraper.py
221
230
python 02_src\c_cleaner.py
222
231
```
223
232
224
-
## 5. Licencia
233
+
## Licencia
225
234
Este proyecto está licenciado bajo la Licencia MIT. Consulta el archivo LICENSE para más detalles.
0 commit comments