(Python 2.x) Извлечение информации из деклараций о доходах ПДЛ РФ и создание БД.
Для первоначальной обработки деклараций использовалась программа Universal Text Extractor. Декларации объединяются в один .csv файл. Содержимое файла - таблица вида:
- Организация
- Год
- ФИО
- Владелец
- Должность
- Вид объекта (в собственности)
- Вид собственности
- Площадь (в собственности)
- Страна расположения (в собственности)
- Вид объекта (в пользовании)
- Площадь (в пользовании)
- Страна расположения (в пользовании)
- Транспортные средства
- Декларированный годовой доход
- Сведения об источниках получения средств
- authority_links.txt - перечень органов власти и ссылок на них
- db_scheme.pdf - предполагаемая схема БД
- example - пример обработки
- 2013-2015.xlsx и 2016.xlsx - декларации за 2013-2016 годы
- declarations.csv - декларации, обработанные с помощью Universal Text Extractor
- dump.sql - дамп итоговой БД
- pivot_result.xlsx - итоговая сводная таблица
- project.json - проект программы Universal Text Extractor
- queries.sql - полезные SQL запросы:
- поиск деклараций в конкретных организациях
- объединение уже существующей БД с новой
- создание сводной таблицы
- script.py - обработка объединенных деклараций и подготовка файлов для загрузки в БД