Skip to content

Repositorio del equipo DataBuesos para el datatón anticorrupción 2021 organizado por la SESNA

License

Notifications You must be signed in to change notification settings

jjsantos01/datatonanticorrupcion2021

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Repositorio del equipo Databuesos

Introducción

Las declaraciones patrimoniales y de intereses son una herramienta valiosa en el combate a la corrupción y la detección de conflictos de interés. Este ejercicio de obligaciones presenta retos importantes para el manejo de su información, ya que requiere del análisis de varias categorías y miles de declaraciones para poder detectar posibles actos de corrupción o colusión. Entendiendo los recursos limitados de aquellos encargados de utilizar esta información para mejorar el funcionamiento de la administración pública, surge la necesidad de utilizar mecanismos y técnicas de análisis que vuelvan eficiente y rápido la revisión de información. Con el fin de facilitar esta comprobación, se propone un sistema que detecta anomalías en las declaraciones patrimoniales de los funcionarios tanto por lo declarado como por lo omitido.

El proyecto Anomalías en el Sistema tienen como objetivo facilitar la detección de anomalías en declaraciones patrimoniales y de interés de funcionarios públicos en 4 categorías:

  • Anomalías en evolución de ingresos
  • Anomalías en evolución patrimonial
  • Anomalías en la consistencia del perfil del declarante con el patrimonio declarado
  • Existencia de funcionarios públicos sancionados

El sistema permite al usuario navegar por institución para conocer el puntaje general respecto a la cantidad de funcionarios con anomalías, explorar cada una de las anomalías en la institución e identificar a detalle las anomalías por funcionario.

Metodología: ¿Cómo se detectan las anomalías?

Cada una de las anomalías considera distintos criterios con el objetivo de determinar de la mejor manera un comportamiento atípico dentro de las 40,019 declaraciones públicas analizadas:

Anomalías en evolución de ingresos

Sé calculó el crecimiento del ingreso anual por funcionario y se calificaron como anómalos los casos en los que el funcionario que incrementó su ingreso en mas del doble

Anomalias en evolución patrimonial

Se dividió el patrimonio acumulado del declarante entre su ingreso total anual, lo que ejemplifica el total de años de trabajo necesarios para acumular el patrimonio declarado. Aquellos individuos con más de 60 años de patrimonio acumulado son casos anómalos.

Anomalías en la consistencia del perfil vs patrimonio

Consideramos que existen inconsistencias entre el perfil de un funcionario y su declaración cuando el monto declarado no corresponde a lo que sería considerado "normal" dado el nivel del cargo, ingresos, profesión, nivel educativo, años de experiencia laboral y número de bienes, vehículos (de lujo o normal) y cuentas declaradas por el funcionario. Por ejemplo, esperaríamos que las personas que se desempeñan como Titulares de Unidad y tengan una maestría declaren un patrimonio mayor que un Jefe de Departamento que tiene una licenciatura.

Para calcular qué tan alejado se encuentra el valor de una declaración de lo que sería "esperable" dado su perfil, corrimos un modelo de regresión (Gradient boosting regression) en el que la variable dependiente es el monto total del patrimonio declarado (valor de los inmuebles, vehículos e inversiones) y las variables explicativas fueron el nivel del cargo, ingresos anuaales netos, profesión, nivel educativo, años de experiencia laboral, número de bienes, vehículos y cuentas declarados por el funcionario. A partir del modelo ajustado, calculamos el valor predicho del patrimonio para cada funcionario. Este valor es el que consideramos como lo "esperable" dadas sus características. Se determina la anomalía, si lo declarado está 20% por encima o por debajo de lo esperable.

Para el caso de las personas que declararon tener 0 de patrimonio, se inspeccionaron los datos inspección y se consideró anormal si un funcionario de nivel superior a subdirección declara 0 de patrimonio. Lo anterior debido a que se considera poco probable no contar con patrimonio dado el nivel de ingreso anual recibido.

Adicionalmente, aplicamos un modelo de detección de anomalías no supervisado (isolation Forest) sobre los datos declarados: número y valor de los inmuebles, vehículos e inversiones, nivel educativo, experiencia laboral en sector público y privado, ingreso neto anual, nivel del cargo y profesión. El modelo clasifica a las observaciones como anómalas o no dependiendo de los valores de las variables declaradas. De esta forma encontramos que hay un grupo de funcionarios que normalmente declara grandes montos de patrimonio, pero particularmente llamó la atención que en este grupo el número de vehículos es muy alto (7), así como también el número de vehículos de lujo (3.6) en promedio.

Los resultados se pueden consultar en el siquiente tablero: https://lnppmicrositio.shinyapps.io/dataton_anticorrupcion_2021/

Existencia de funcionarios públicos sancionados

Indica si el funcionario ha sido san en al algún momento de su carrera y agrega una agravante si el funcionario operaba en el área de contrataciones públicas.

Repositorio

El código con el que se analizaron los datos y se creó el dashboard puede ser consultado en:

https://github.com/jjsantos01/datatonanticorrupcion2021

El análisis de los datos de las declaraciones y los modelos de regresión generados se encuentran dentro de la carpeta "analisis_datos". Están generados usando el lenguaje Python y para correrlos solo es necesario descargar la distribución de Anaconda (https://www.anaconda.com/products/individual) con Python 3.8. Las librerías necesarias ya vienen incluidas. Es importante notar que dentro de este repo no están los datos de las declaraciones patrimoniales porque son muy pesadas. Pueden descargarse desde el repositorio oficial del concurso https://github.com/pdnmx/dataton2021-datos

Para la creación del tablero empleamos el software R y las librerías Tydiverse y Shiny.

About

Repositorio del equipo DataBuesos para el datatón anticorrupción 2021 organizado por la SESNA

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published