Skip to content

Latest commit

 

History

History

income_declaration

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Парсер деклараций о доходах ПДЛ РФ

(Python 2.x) Извлечение информации из деклараций о доходах ПДЛ РФ и создание БД.

Описание

Для первоначальной обработки деклараций использовалась программа Universal Text Extractor. Декларации объединяются в один .csv файл. Содержимое файла - таблица вида:

  • Организация
  • Год
  • ФИО
  • Владелец
  • Должность
  • Вид объекта (в собственности)
  • Вид собственности
  • Площадь (в собственности)
  • Страна расположения (в собственности)
  • Вид объекта (в пользовании)
  • Площадь (в пользовании)
  • Страна расположения (в пользовании)
  • Транспортные средства
  • Декларированный годовой доход
  • Сведения об источниках получения средств

Файлы

  • authority_links.txt - перечень органов власти и ссылок на них
  • db_scheme.pdf - предполагаемая схема БД
  • example - пример обработки
  • project.json - проект программы Universal Text Extractor
  • queries.sql - полезные SQL запросы:
    • поиск деклараций в конкретных организациях
    • объединение уже существующей БД с новой
    • создание сводной таблицы
  • script.py - обработка объединенных деклараций и подготовка файлов для загрузки в БД