Skip to content

Commit b977435

Browse files
authored
Update README.md
1 parent f5cfb7c commit b977435

File tree

1 file changed

+31
-1
lines changed

1 file changed

+31
-1
lines changed

README.md

+31-1
Original file line numberDiff line numberDiff line change
@@ -17,8 +17,38 @@ Datos del Instituto Electoral de la CDMX:
1717

1818
Los datos abiertos, son aquellos datos digitales de carácter público que son accesibles en línea y pueden ser utilizables, reutilizables y redistribuidos por cualquier interesado, sin la necesidad de contar con un permiso específico. Al respecto, el Gobierno de México, en todos sus niveles, es decir, Federal, Estatal y Municipal, pone a disposición de la ciudadanía la información que genera. Ahora bien, en lo que respecta a temas de seguridad, de acuerdo con la Fiscalía General de la República, los procedimientos penales acusatorios inician con una denuncia ante el Ministerio Público, es importante aclarar que no siempre el denunciante es el afectado, por ejemplo, casos de homicidio. Una vez que la denuncia ha sido realizada, se inicia una carpeta de investigación, en donde se le da seguimiento al caso.
1919

20-
Derivado de lo anterior, los datos que son públicos de estas carpetas de investigación de la CDMX, se localizan en el portal de datos abiertos del Gobierno de la CDMX, en el link anteriormente mencionado. A fin de realizar un análisis de esta información y presentar los resultados obtenidos, se elaboró un Dashboard en Rstudio, aunque podría decirse que ese es el objetivo principal del dashboard, existe otro objetivo y es la adecuada limpieza de una base de datos, ya que el que la información se encuentre disponible, no quiere decir que no tenga errores.
20+
Derivado de lo anterior, los datos que son públicos de estas carpetas de investigación de la CDMX, se localizan en el portal de datos abiertos del Gobierno de la CDMX, en el link anteriormente mencionado. A fin de realizar un análisis de esta información y presentar los resultados obtenidos, se elaboró un Dashboard en Rstudio, aunque podría decirse que ese es el objetivo principal del dashboard, existe otro objetivo y es la adecuada limpieza de una base de datos, ya que el que la información se encuentre disponible, no quiere decir que no tenga errores. La información fue analizada en el software R. Se aclara que para el 2024, la base solo tiene datos hasta septiembre.
2121

2222
## Metodología
2323

24+
Se informa que la base de datos de la Fiscalía General de Justicia (FGJ) de la CDMX, al momento de la fecha de la descarga, contenía 1,415,763 filas y 22 columnas. La base de datos pasó por varios pasos de limpieza, los cuales se enlistan a continuación:
2425

26+
1. Se eliminaron duplicados.
27+
28+
Las Buenas Prácticas Estadísticas y Geográficas se basan en diversos factores, dos de ellos son la confiabilidad y la veracidad. Normalmente una base de datos contiene un identificador ID, el cual permite asumir que cada registro es único, no obstante, ese no era el caso de la base. Por lo que se procedió a analizar si había filas repetidas por completo, es decir, con la misma información en todas las columnas. Se encontró que la base tenía 8878 duplicados, los cuales fueron eliminados y la base pasó a tener 1,406,885 registros.
29+
30+
2. Se eliminaron columnas.
31+
32+
De manera genera, en lo que respecta a las fechas de las carpetas había dos categorías, siendo "_inicio" y "_hecho", la primera se refería a la fecha en la que se dió inicio a la carpeta de investigación. Por otra parte, "_hecho" se refería al delito en sí mismo, la fecha, mes y año en el que ocurrió, por lo que para fines prácticos, se decidió conservar solo las columnas correspondientes al delito, es decir, se conservó "_hecho".
33+
34+
3. Se eliminaron las filas que tenían datos NA de la columna de fecha_hecho.
35+
36+
Al realizar un análisis espacio-temporal de la información, los datos más importantes radican en el uso de información confiable, por lo que las filas que no tuvieran valores en la columna de fecha fueron eliminadas. Así mismo, se encontraron discrepancias en la información de las columnas de mes y año. En el primer caso, había meses escritos en inglés y otros en español, en el segundo caso había años mal escritos. Por lo que estos fueron automáticamente corregidos y la base pasó a tener 1,406,478 registros.
37+
38+
4. Se eliminaron las filas que en las coordenadas tenían NA.
39+
40+
La información al tener un comonente espacial, fue indispensable eliminar las filas que tenían valores vacíos en las coordenadas. Además, se creó una columna llamada FACTOR, que valdría 1 en todas las filas, esto con el fin de facilitar las operaciones que se realizaron después. La base pasó a tener 1,333,338 registros.
41+
42+
5. Se filtró la información, para conservar de 2019 a 2024.
43+
44+
Un resumen a la columna de la fecha y a la del año, permitio corroborar que había fechas de incluso 100 años atrás, por lo que para continuar con el análisis, estas fechas fueron eliminadas. Así mismo, se agregó una columna ID. La base pasó a tener 1304535 registros, **que es el número final de observaciones del resto de operaciones que se realizaron.**
45+
46+
6. Se agregaron dos columnas, una para la hora y otra para el día de la semana. Además se reordenaron columnas
47+
48+
7. Se realizó una unión espacial de la base con la capa de las colonias establecidas por el IECM.
49+
50+
Dentro de la base de la FGJ, la columna alcaldia_hecho tenía celdas vacías y varios delitos tenían coordenadas en otros Estados vecinos, muchos más de los que un breve resumen de la información preeliminar había aarojado. Por lo que se hizo una union espacial, usando join = st_nearest_feature, por lo que todos los registros contaron con alcaldía y colonias y el número de filas no cambió. No obstante, se destaca que se usó join = st_nearest_feature y que había delitos cuyas coordenadas estaban en otros Estados, esto implica que la captura de los datos debe de ser vigilada con mayor precisión, ya que una columna tan importante como colonia, depende de una unión geoespacial, ya que de esta columna se deriva otra más importante como lo es Alcaldía.
51+
52+
8. Se eliminaron las columnas “colonia_catalogo” “alcaldia_hecho” “alcaldia_catalogo” “municipio_hecho” y finalmente se obtuvo una base limpia.
53+
54+
9. Posteriormente, se procedió a realizar las tablas, gráficas y mapas que se presentan en los siguientes apartados del dashboard.

0 commit comments

Comments
 (0)