Skip to content

Latest commit

 

History

History
37 lines (34 loc) · 2.33 KB

README.md

File metadata and controls

37 lines (34 loc) · 2.33 KB

Парсер деклараций о доходах ПДЛ РФ

(Python 2.x) Извлечение информации из деклараций о доходах ПДЛ РФ и создание БД.

Описание

Для первоначальной обработки деклараций использовалась программа Universal Text Extractor. Декларации объединяются в один .csv файл. Содержимое файла - таблица вида:

  • Организация
  • Год
  • ФИО
  • Владелец
  • Должность
  • Вид объекта (в собственности)
  • Вид собственности
  • Площадь (в собственности)
  • Страна расположения (в собственности)
  • Вид объекта (в пользовании)
  • Площадь (в пользовании)
  • Страна расположения (в пользовании)
  • Транспортные средства
  • Декларированный годовой доход
  • Сведения об источниках получения средств

Файлы

  • authority_links.txt - перечень органов власти и ссылок на них
  • db_scheme.pdf - предполагаемая схема БД
  • example - пример обработки
  • project.json - проект программы Universal Text Extractor
  • queries.sql - полезные SQL запросы:
    • поиск деклараций в конкретных организациях
    • объединение уже существующей БД с новой
    • создание сводной таблицы
  • script.py - обработка объединенных деклараций и подготовка файлов для загрузки в БД