Datensatzdokumentation
Robert Koch-Institut | RKI
Nordufer 20
13353 Berlin
Niels Michalski¹, Lola Omar Soliman¹, Marvin Reis¹, Fabian Tetzlaff¹, Enno Nowossadeck¹ und Jens Hoebel¹ (Projektleitung)
¹ Robert Koch-Institut | FG 28 Soziale Determinanten der Gesundheit
Zitieren
Michalski, N., Soliman, L., Reis, M., Tetzlaff, F., Nowossadeck, E., & Hoebel, J. (2025). German Index of Socioeconomic Deprivation (GISD) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.14781119
Im Datensatz "German Index of Socioeconomic Deprivation (GISD)" werden die Daten des gleichnamigen Indexes bereitgestellt und dokumentiert. Er dient als Maß relativer regionaler sozioökonomischer Benachteiligung. Der German Index of Socieoeoconomic Deprivation (GISD) wird seit 2017 am Robert Koch-Institut erstellt, um regionale sozioökonomische Ungleichheiten in der Gesundheit sichtbar zu machen und Ansatzpunkte zur Erklärung regionaler Unterschiede in der Gesundheit aufzeigen zu können. Die Indikatoren des GISD werden so gewählt, dass sie eine Analogie zum in der Sozialepidemiologie etablierten individuellen sozioökonomischen Status (SES) zulassen, der die Dimensionen Bildung, Beruf und Einkommen zusammenfasst. Durch diese Konzeption wird es möglich mit dem GISD sozioökonomische Unterschiede in den Gesundheitschancen, Krankheits- und Sterberisiken in Deutschland auch anhand von Daten untersuchen zu können, die auf individueller Ebene keine Information zum sozioökonomischen Status enthalten. Der Begriff regionale Deprivation wird hier in Anlehnung an den Begriff der sozialen Deprivation verwendet und bezeichnet den Grad der Benachteiligung, der aus einem relativen Mangel an sozioökonomischen Ressourcen und aus einem hohen Niveau sozialräumlicher Belastungen in der jeweiligen Wohnregion resultiert, der Einschränkungen der gesellschaftlichen Teilhabechancen zur Folge hat.
Für die Referenzierung des GISD wird empfohlen zusätzlich zur Datenzitation folgende Publikation im Journal of Health Monitoring zu zitieren. Diese enthält eine ausführliche Einführung in den GISD. Einige Textbausteine dieser Onlinedokumentation wurden dieser Publikation entnommen:
Michalski N, Reis M, Tetzlaff F, Herber M, Kroll LE, Hövener C, Nowossadeck E, Hoebel J (2022) German Index of Socioeconomic Deprivation (GISD): Revision, Aktualisierung und Anwendungsbeispiele. J Health Monit 7(S5): 2–24. DOI: 10.25646/10640
Die englische Version ist verfügbar unter:
Michalski N, Reis M, Tetzlaff F, Herber M, Kroll LE et al. (2022) German Index of Socioeconomic Deprivation (GISD): Revision, update and applications. J Health Monit 7(S5): 2–23. DOI 10.25646/10641
Die Begleitpublikation zur Ursprungsversion des GISD findet sich hier:
Kroll LE, Schumann M, Hoebel J et al. (2017) Regionale Unterschiede in der Gesundheit – Entwicklung eines sozioökonomischen Deprivationsindex für Deutschland. J Health Monit 2(2):103-120 DOI: 10.25646/2573.2
Der "German Index of Socioeconomic Deprivation (GISD)" dient im Rahmen der epidemiologischen Forschung und Gesundheitsberichterstattung am Robert Koch-Institut zur Bearbeitung der Themenschwerpunkte regionale Unterschiede in der Gesundheit und soziale Ungleichheit der Gesundheitschancen und Erkrankungsrisiken.
Die Federführung der Entwicklung, Betreuung und Primäranwendung liegt im Fachgebiet 28 | Sozialen Determinanten der Gesundheit. Autoren des aktuellen Datensatzes sind Niels Michalski und Lola Omar Soliman. Die Projektleitung liegt bei Jens Hoebel. Die Ursprungsversion des GISD wurde von Lars E. Kroll erstellt. Aktualisierungen und Revisionen des GISD erscheinen in regelmäßigen Abständen. Fragen zur Generierung und Verwendung des GISD können an GISD@rki.de gerichtet werden.
Die Veröffentlichung der Daten, die Datenkuration sowie das Qualitätsmanagement der (Meta-)Daten erfolgt durch das Fachgebiet MF 4 | Fach- und Forschungsdatenmanagement. Fragen zum Datenmanagement können an das Open Data Team des Fachgebiets MF4 gerichtet werden OpenData@rki.de.
Die Erstellung des GISD erfolgte mit dem Ziel, ein Maß für die relative sozioökonomische Schlechterstellung von Regionen in Deutschland zu entwickeln. Der Index sollte eine Analogie zum sozioökonomischen Status (SES) auf Individualebene zulassen und auch Entwicklungen über die Zeit abbilden können. Der Index sollte sozioökonomische Unterschiede dabei möglichst feingliedrig, d.h. auf möglichst kleinräumiger regionaler Ebene, abbilden. Primärer Bezugsrahmen des Indexes sollte das gesamte Bundesgebiet sein, um Gesundheitsdaten mit Regionalbezug aus unterschiedlichen Quellen analysieren und für Deutschland repräsentative Aussagen treffen zu können. Als Datengrundlage sollten Sekundärdaten aus Quellen verwendet werden, die frei zugänglich sind und deren datenschutz- und urheberrechtliche Verwendung unproblematisch ist.
Gemäß dieser Kriterien wird der GISD auf Ebene der Gemeinden jahresweise für den Zeitraum 1998 bis 2021 generiert und für die unterschiedliche Raumabgrenzungen (Gemeindeverbände, Kreis, Raumordnungsregionen, NUTS-2) bevölkerungsgewichtet aggregiert. Auf jeder räumlichen Ebene wird jeder Region des Gebietsstands ein Wert zugeordnet.
Ebene | Anzahl (Stand 31.12.2022) |
---|---|
Gemeinden | 10786 |
Gemeindeverbände und verbandsfreie Gemeinden (GVB) | 4396 |
Kreise und kreisfreie Städte (Kreise) | 400 |
Raumordnungsregionen (ROR) | 96 |
NUTS-2 | 38 |
Für die Generierung des GISD werden bevorzugt Daten aus der Datenbank INKAR (Indikatoren und Karten zur Raum- und Stadtentwicklung) des Bundesinstituts für Bau-, Stadt- und Raumforschung (BBSR) verwendet. Bei INKAR handelt es sich um einen interaktiven Online-Atlas mit regionalstatistischen Informationen zu den Themen Bevölkerungsentwicklung, Arbeitsmarkt, Bildung, Wirtschaft, Wohnen, Verkehr und Umwelt. In der Datenbank sind rund 600 Indikatoren für verschiedene regionale Ebenen hinterlegt, so dass Vergleiche zwischen europäischen Regionen, Bundesländern, Kreisen, Gemeindeverbänden und verbandsfreien Gemeinden ermöglicht werden. Die Untergliederung der regionalen Einheiten basiert auf der administrativen Gliederung Deutschlands. Die Zeitreihen der Statistiken reichen zum Teil bis ins Jahr 1995 zurück. Die INKAR-Daten bieten durch ihre öffentliche Verfügbarkeit und gute Dokumentation ein hohes Maß an Transparenz. Zudem werden die Daten über die Zeit harmonisiert und auf die aktuellen Gebietsstände bezogen, so dass zeitliche Trends analysiert werden können. Aufgrund der genannten Eigenschaften werden Daten aus der INKAR-Datenbank gegenüber anderen Datenquellen bevorzugt. Die Zeitreihen für zwei Indikatoren wurden für frühere Jahre (bis 2011) von der Statistik der Bundesagentur für Arbeit bezogen.
Der Index greift im Wesentlichen auf die Indikatoren zurück, deren Auswahl in einer früheren Version des GISD auf Grundlage der Ergebnisse einer systematischen Literaturrecherche in den Literaturdatenbanken von PubMed und Google Scholar getroffen wurde Kroll et al 2017. Die Indikatoren sollten außerdem drei weitere Kriterien erfüllen: Erstens die regionale Auflösung der Daten sollte möglichst fein sein. Sie sollten mindestens auf Kreisebene, idealerweise auf Ebene der Gemeinden oder Gemeindeverbände und verbandsfreien Gemeinden (GVB) vorliegen. Zweitens sollten die Indikatoren möglichst über einen Zeitraum von derzeit rückblickend 20 Jahren verfügbar und auf aktuelle Gebietsstände bezogen sein. Drittens sollten die Indikatoren ausreichend hoch mit anderen Indikatoren der gleichen Teildimension korrelieren, um eine Zusammenfassung zu einer Dimension zu rechtfertigen. Für die aktuelle Version des GISD wurden die derzeit in der INKAR-Datenbank bereitgestellten Indikatoren auf ihre Eignung hin überprüft. Hierbei stellte sich heraus, dass alle acht ursprünglich verwendeten Indikatoren auch weiterhin in der INKAR-Datenbank enthalten sind. Der Indikator „Anteil sozialversicherungspflichtig Beschäftigter ohne Berufsabschluss an allen sozialversicherungspflichtig Beschäftigten“ wurde seit der Version GISD Release 2022 v1.0 in die Liste der Indikatoren aufgenommen. Dadurch kann die Bildungsdimension in der vorliegenden Revision wie die Einkommens- und Beschäftigungsdimension durch drei Indikatoren repräsentiert werden. Um der mangelnden Analogie der Indikatoren der Beschäftigungsdimension mit denen des Berufsstatus im sozioökonomischen Status (SES) gerecht zu werden, weicht die Bezeichnung dieser GISD-Dimension von der des SES ab. In folgender Tabelle sind die Dimensionen mit ihren Indikatoren und der jeweiligen Ursprungsquelle der Daten dargestellt:
Dimension | Name des Indikators | Indikator | Regionale Tiefe | Quelle |
---|---|---|---|---|
Bildung | Beschäftigte mit (Fach-)Hochschulabschluss | Anteil der SV-Beschäftigten am Wohnort mit akademischem Abschluss an den SV-Beschäftigten am Wohnort in % | Kreis | Statistik der Bundesagentur für Arbeit |
Bildung | Beschäftigte ohne Abschluss | Anteil der SV-Beschäftigten am Wohnort ohne Berufsabschluss an den SV-Beschäftigten am Wohnort in % | Kreis | Statistik der Bundesagentur für Arbeit |
Bildung | Schulabgänger:innen ohne Abschluss | Anteil der Schulabgänger:innen ohne Hauptschulabschluss an den Schulabgänger:innen in % | Kreis | Statistik der allgemeinbildenden Schulen des Bundes und der Länder |
Beschäftigung | Arbeitslosigkeit | Anteil der Arbeitslosen an den Einwohner:innen im erwerbsfähigen Alter | Gemeinde | Statistik der Bundesagentur für Arbeit |
Beschäftigung | Beschäftigtenquote | SV-Beschäftigte am Wohnort je 100 Einwohner:innen im erwerbsfähigen Alter | Gemeinde | Statistik der Bundesagentur für Arbeit |
Beschäftigung | Bruttolohn und -gehalt | Monatlicher Bruttoverdienst der Arbeitnehmer:innen in Euro | Kreis | Volkswirtschaftliche Gesamtrechnung der Länder |
Einkommen | Steuereinnahmen | Einkommensteuer in € je Einwohner:in | Gemeindeverband | Volkswirtschaftliche Gesamtrechnung der Länder |
Einkommen | Haushaltsnettoeinkommen | Durchschnittliches Haushaltseinkommen in € je Einwohner:in | Kreis | Schuldneratlas Deutschland des Verbands der Vereine Creditreform e.V. |
Einkommen | Schuldner:innenquote | Private Schuldner:innen je 100 volljährige Einwohner:innen in % | Kreis | Realsteuervergleich des Bundes und der Länder + INKAR |
Quellen: INKAR 2024, Statistik der Bundesagentur für Arbeit
GVB = Gemeindeverbände und verbandsfreie Gemeinden
SV = sozialversicherungspflichtig
*Datenquelle: Für die Anteile der sozialversicherungspflichtig Beschäftigten ohne Abschluss und mit akademischem Abschluss wurden die Daten für die Jahre 2001 bis 2011 direkt über die Statistik der Bundesagentur für Arbeit bezogen Statistik der Bundesagentur für Arbeit. Alle weiteren Daten wurden aus INKAR 2024 bezogen.
*Für die Beschäftigtenquote standen Werte für die Gemeindeebene erst ab 2001 zur Verfügung. Für die Jahre 1998 bis 2000 wurden den Gemeinden die Werte der Kreisebene zugeordnet.
Für zwei der neun Indikatoren sind Daten auf der Ebene der Gemeinden verfügbar, für einen Indikator auf Ebene der Gemeindeverbände und verbandsfreien Gemeinden (GVB), so dass der Index auch Unterschiede in der sozioökonomischen Deprivation zwischen Gemeinden innerhalb von Kreisen feststellen kann. Für die Bildungsindikatoren „Beschäftigte ohne Abschluss“ und „Beschäftigte mit (Fach-)Hochschulabschluss“ gibt es aufgrund einer Umstellung im Meldeverfahren zur Sozialversicherung keine Werte für das Jahr 2012 (Statistik der Bundesagentur für Arbeit). Um diese Zeitreihenlücke zu füllen wurden die Daten für 2011 auch auf 2012 übertragen. Für einige Indikatoren beginnen die Zeitreihen nicht im Basisjahr 1998. Für diese Indikatoren wurden fehlende Werte auf Grundlage der vorhandenen Zeitreihen geschätzt (lineare Random-Intercept-Modelle für Zeitreihen). Das betrifft die Jahre vor 2004 und insbesondere die Jahre 1998 bis 2000, für die Werte von fünf Indikatoren auf diese Weise imputiert wurden. Von 2001 bis 2003 mussten nur fehlende Werte eines Indikators geschätzt werden. Um die Informationen der Rohdaten als Zeitreihe verwenden zu können und für die Hauptkomponentenanalyse aufzubereiten, wurden einige Indikatoren um Artefakte der Erhebung und statistische Artefakte bereinigt: 1) Die Indikatoren mit währungsbasierten, nach oben offenen Skalen (Steuereinnahmen, Bruttolohn und mittleres Haushaltsnettoeinkommen) wurden kaufkraftbereinigt und logarithmiert. 2) Für die Indikatoren „Beschäftigte ohne Abschluss“ und „Beschäftigte mit (Fach-)Hochschulabschluss“ führte die bereits erwähnte Umstellung im Meldeverfahren zur Sozialversicherung zu einer Veränderung der Niveaus der Zeitreihe. Die durchschnittliche Veränderung des Niveauparameters durch die Umstellung des Meldeverfahrens wurde statistisch identifiziert und die Zeitreihe vor der Umstellung auf das Niveau nach der Umstellung angepasst. 3) Der Indikator „Schulabgängerinnen und -abgänger ohne Abschluss“ wurde um Einflüsse der G8-Reformen auf die jährlichen Zahlen der Schulabgängerinnen und -abgänger bereinigt. Diese Korrektur war notwendig, da die Schulabschlussjahrgänge in den Jahren, in denen die ersten Schülerinnen und Schüler im neu eingeführten G8-System nach zwölf Jahren ihr Abitur machen, doppelt besetzt sind und der Anteil der Schulabgängerinnen und -abgänger ohne Abschluss deshalb aufgrund der insgesamt höheren Abschlusszahlen geringer ausfällt. Umgekehrtes gilt in den Jahren, in denen die Rücknahme der G8-Reform griff. Um diese Artefakte herauszurechnen wurde die statistischen Effekte der G8-Reformen mit den Daten regressionsanalytisch geschätzt und für die betroffenen Bundesländer in den betreffenden Jahren abgezogen. 4) Bei der Betrachtung des Indikators Anteil der Beschäftigten ohne Abschluss fiel eine bimodale Verteilung auf, die auf den deutlich geringeren Anteil an Beschäftigten ohne Abschluss in den ostdeutschen Bundesländern zurückzuführen ist. Inhaltlich sollte der Indikator als Proxy für den Bildungsstand der Bevölkerung dienen. Historische gewachsene Unterschiede zwischen den Landesteilen sowie die Einbindung der DDR-Bevölkerung ins Erwerbssystem der BRD sorgen in dieser Frage allerdings für unterschiedliche Vergleichsmaßstäbe. Um für diese historisch geprägten und demografischen Unterschiede zu korrigieren, wurde die mittlere Differenz der entsprechenden Anteile zwischen ost- und westdeutschen Bundesländern bestimmt und den Regionen in den ostdeutschen Bundesländern zugeschlagen, wodurch eine unimodale Verteilung der Werte erzeugt wurde.
Die Bestimmung der Indexwerte erfolgt in drei Schritten. In einem ersten Schritt werden separate Hauptkomponentenanalysen für jede der drei Teildimension durchgeführt. Aus diesen werden in einem zweiten Schritt Werte für die Teildimensionen über das Faktor-Scoring-Verfahren generiert. In einem dritten Schritt werden die Werte für die Teildimensionen normalisiert und zum GISD-Score aufsummiert. Für die Hauptkomponentenanalysen werden die Daten der GISD-Indikatoren für die 20 aktuellsten Jahre (2002-2021) gepoolt. Dadurch kann neben der Variation zwischen den regionalen Einheiten auch die Variation über die Zeit genutzt werden, um die Zusammenhänge zwischen den Indikatoren zu bestimmen. Durch den Einschlussbeschränkung der Daten bis 2001 wird außerdem potenziellen Verzerrungen der Gewichte durch imputierte Werte vorgebeugt. Die Hauptkomponentenanalysen bestätigen für jede Teildimension eine eindimensionale Struktur. Die Faktorladungen, die als Korrelation der Indikatoren mit der Hauptkomponente gelesen werden können, erreichen zufriedenstellende bis gute Werte:
Dimension | Variable | Faktorladung | Anteil am Teilscore | Anteil GISD |
---|---|---|---|---|
Bildung | Beschäftigte mit akad. Abschluss (adj.) | 0.71 | 34.3 | 11.4 |
Bildung | Beschäftigte ohne Abschluss (adj.) | -0.71 | 34.3 | 11.4 |
Bildung | Schulabgänger ohne Abschluss (adj.) | -0.67 | 31.4 | 10.5 |
Beschäftigung | Arbeitslosigkeit | -0.83 | 39.5 | 13.2 |
Beschäftigung | Beschäftigtenquote | 0.58 | 19.5 | 6.5 |
Beschäftigung | Bruttoverdienst (log.) | 0.84 | 40.9 | 13.6 |
Einkommen | Einkommensteuer (log.) | 0.92 | 40.3 | 13.4 |
Einkommen | Haushaltseinkommen (log.) | 0.92 | 40.8 | 13.6 |
Einkommen | Schuldnerquote | -0.63 | 18.9 | 6.3 |
log. = logarithmiert,
adj. = adjustiert
*Darstellung der Faktorladungen auf der ersten Hauptkomponente für die einzelnen Dimensionen. Eigenwerte der ersten Komponenten: η(Beschäftigung) = 1.7; η(Einkommen) = 2.1; η(Bildung) = 1.5. Die Eigenwerte der zweiten und dritten Komponenten liegen jeweils unter 0,85. Korrelationen zwischen den Scores der Teildimensionen für das Jahr 2021: r(Beschäftigung|Einkommen) = 0.69; r(Beschäftigung|Bildung) = 0.52; r(Einkommen|Bildung) = 0.75
Mit Hilfe des Faktor-Scorings werden für jede Gemeinde im Datensatz Werte (GISD-Scores) berechnet. Auch für die Jahre 1998 bis 2001 wurden dabei GISD-Scores generiert. Die Faktorwerte der drei Teildimensionen werden anschließend jahresweise jeweils auf einen Wertebereich zwischen 0 (niedrigste Deprivation) und 1 (höchste Deprivation) normiert. Danach wurden die drei Teilscores aufaddiert, so dass jede Teildimension mit einem Gewicht von etwa einem Drittel in den Gesamt-Index eingeht. Die so entstandenen GISD-Scores der Gemeinden werden anschließend jeweils für höhere regionale Einheiten (GVB, Landkreise und kreisfreie Städte, Raumordnungsregionen und die statistischen Regionen gemäß der amtlichen europäischen Statistik NUTS-2) bevölkerungsgewichtet aggregiert. Die Berechnung der GISD-Scores für die höheren regionalen Ebenen mittels bevölkerungsgewichteter Aggregation sorgt dafür, dass zur Berechnung der GISD-Scores für jede räumliche Ebene die gleiche Gewichtung der Indikatoren zur Anwendung kommt. Ausgehend von der Gemeindeebene werden auf diese Weise auch Werte für weitere Raumbezüge wie Postleitzahlgebiete generiert. Die Werte werden auf den jeweiligen Ebenen jahresweise so normiert, dass die sozioökomische Deprivation der Regionen Werte zwischen 0 (niedrigste Deprivation) und 1 (höchste Deprivation) annehmen kann. Zudem werden die Einheiten der genannten Raumebenen für die weiteren Analysen gemäß der Verteilung ihrer Indexwerte für jedes Jahr in fünf Gruppen von je zwanzig Prozent (Quintile, Fünftel) eingeteilt, wobei jeweils das unterste Fünftel „niedrige“ und das oberste Fünftel „hohe“ sozioökonomische Deprivation kennzeichnet.
Zu beachten ist, dass die jahresweise Normierung der Scores Folgen für die Interpretation der GISD-Scores über die Zeit hat. Die Scores geben das Ausmaß der sozioökonomischen Deprivation in einem Jahr immer relativ zu den Regionen mit dem höchsten und niedrigsten Wert in dem entsprechenden Jahr wider. Weil der GISD-Score einer Region also von den extremen Werten eines Jahres anhängt, steht ein niedrigerer Wert im Vergleich zwischen zwei Jahren, nicht notwendigerweise für einen Verringerung der absoluten Deprivation.
Im Repositorium werden die GISD-Daten bestehend aus den GISD-Scores für die jeweiligen regionalen Ebenen und Jahre bereitgestellt. Im Ordner "Bund" befinden sich die GISD-Daten mit Bezugsrahmen Bundesebene. Im Ordner "Bundesland" sind die GISD-Daten bezogen auf die jeweiligen Bundesländer mit Ausnahme der Stadtstaaten Bremen, Hamburg und Berlin abgelegt. Innerhalb der Stadtstaaten kann bisher nicht regional differenziert werden. Das aktuelle Release entspricht der Version GISD Release 2025 v1.0. Frühere Versionen finden sich im Archiv.
Die Dateinamen sind nach dem Schema GISD_Bezugsrahmen_Raumabgrenzung.csv
bezeichnet. Die Sequenz "Bezugsrahmen" repräsentiert, ob als Bezugsrahmen die Bundesebene "Bund" oder ein bestimmtes Bundesland "Name des Bundeslandes" ausgewählt werden soll. Die Sequenz "Raumabgrenzung" markiert die "regionale Ebene" auf der der GISD verwendet werden soll.
Beispiel: Die Datei GISD_Sachsen_Gemeinde.csv
enhält die Daten des GISD auf Gemeindeebene mit dem Bezugsrahmen Sachsen.
Die Datensätze enthalten folgende Merkmale:
- Information zur regionalen Einheit (IDs und Namen)
- GISD-Score
- GISD-Quintil für den jeweiligen Bezugsrahmen
- GISD-Perzentil für den jeweiligen Bezugsrahmen
- GISD-Kategorien
- Beobachtungsjahr
Die GISD-Daten enthalten die in der folgenden Tabelle abgebildeten Variablen und deren Ausprägungen:
Variable | Typ | Ausprägung | Beschreibung |
---|---|---|---|
gemeinde_id, gvb_id, kreis_id, nuts2_id, ror_id, plz2, plz3, plz4, plz5 | String | 01001 DE01 ... |
ID der regionalen Einheit basierend auf dem amtlichen Regionalschlüssel für Gemeinden, Gemeindeverbände , Stadt- und Landkreise, NUTS-2, Raumordnungsregion sowie Postleitzahl 2-, 3-, 4-, 5-Steller |
gisd_score | Dezimalzahl | 0 bis 1 |
Berechneter Score Sozioökonomischer Deprivation für die jeweilige Raumheinheit |
gisd_5 | Natürliche Zahl | 1 ,2 ,3 ,4 ,5 |
Zugewiesenes GISD-Quintil der Raumeinheit gemäß der jährlichen Verteilung auf der jeweiligen räumlichen Ebene |
gisd_10 | Natürliche Zahl | 1 ,2 ,3 ,4 ,5 , 6 ,7 ,8 ,9 ,10 |
Zugewiesenes GISD-Dezil der Raumeinheit gemäß der jährlichen Verteilung auf der jeweiligen räumlichen Ebene |
gisd_k | Natürliche Zahl | 1 ,2 ,3 |
1 unterstes Quintil, 2 drei mittlere Qunitile, 3 oberstes Qunitil |
gemeinde_name, gvb_name, kreis_name, nuts2_name, ror_name | String | Flensburg, Stadt ,Kiel, Landeshauptstadt , ..., Windischleuba |
Name der Raumeinheit |
year | Natürliche Zahl | 1998 bis 2019 |
Beobachtungsjahr |
Die Daten sind im Datensatz als kommaseparierte .csv
-Datei enthalten. Der verwendete Zeichensatz der .csv-Datei ist UTF-8. Trennzeichen der einzelnen Werte ist ein Komma ",".
- Zeichensatz:
UTF-8
- Datumsformat:
ISO8601
- .csv-Trennzeichen:
,
Zusätzlich wurden die Daten im Format .dta
des Softwarepakets Stata v17 bereitgestellt.
Für die Reproduzierbarkeit werden die Rohdaten aus der INKAR-Datenbank und die Syntax zur Generierung des GISD als Kontexmaterialien zur Verfügung gestellt.
Im Repositorium werden außerdem frühere Versionen (Releases) für Replikationszwecke zum Download angeboten.
Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese sind im Metadaten-Ordner hinterlegt:
Versionierung und DOI-Vergabe erfolgt über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.
In der zenodo.json ist neben der Publikationsdatum ("publication_date"
) auch der Datenstand enthalten:
"dates": [
{
"start": "2023-09-11T15:00:21+02:00",
"end": "2023-09-11T15:00:21+02:00",
"type": "Collected",
"description": "Date when the Dataset was created"
}
],
Aktualisierung & Bugfixes in der Version 2025-01-31:
- Die Aktualisierung führt eine neue GISD-Version GISD_Release_2025_v1.0 ein.
- GISD_Release_2025_v1.0 ersetzt die GISD-Version GISD_Release_2022_v1.1 als aktuelles Release. GISD_Release_2022_v1.1 wird dem Archiv hinzugefügt.
- Entsprechend wurden auch die Syntax zur Replikation der GISD Generierung und die Rohdaten aktualisiert.
- GISD_Release_2025_v1.0 enthält nun GISD-Scores für die Jahre bis 2021. Im Zuge der Generierung wurden auch die Werte aller weiteren Jahre revidiert.
- Die GISD-Scores im GISD_Release_2025_v1.0 differenzieren nun auf Gemeindeebene innerhalb von Gemeindeverbänden.
- In GISD_Release_2025_v1.0 nimmt Glättungen von Ausreißern bei den Teildimensionen Beschäftigung und Einkommen vor, die bisher zu Brüchen in den Zeitreihen für die Teildimensionen und für den GISD geführt haben.
- Die Teilscores werden nun jahresweise normiert, bevor sie zum GISD-Score aufsummiert werden. Dadurch wird die Gleichgewichtung der Teildimensionen abgesichert.
- Die Zuordnung der Werte zu Postleitzahlbereichen wurde erneuert und verwendet nun amtliche PLZ-Daten.
- Neben der Revision der GISD-Scores in GISD_Release_2025_v1.0 wird auch GISD_Release_2022_v1.1 fortgeführt und um die Jahre 2020 und 2021 ergänzt. Die Fortschreibung der GISD_Release_2022_v1.1 findet sich in der Version GISD_Release_2022_v1.2_Fortschreibung. Sie wendet die Gewichtung der Indikatoren und den Gebietsstand (31.12.2019) aus der GISD-Version GISD_Release_2022_v1.1 auf die Rohdaten der Jahre 2020 und 2021 an.
Ergänzung & Bugfix in der Version vom 03.01.2024:
- Dem Archiv wurde die Version GISD_Release_2022_v1.1 hinzugefügt
- Bei der Generierung der GISD-Scores für die Postleitzahlebene blieben Postleitzahlen aus dem Kreis Göttingen unberücksichtigt. Die fehlenden Werte wurden eingefügt.
- Die Syntax zur Replikation der GISD Generierung wurde überarbeitet
- Die Rohdaten sind nun vollständig verfügbar. In den früheren Versionen waren die Zeitreihen der Rohdaten für die Indikatoren Beschäftigte ohne Abschluss und Beschäftigte mit akademischem Abschluss wegen unklarer Berechtigung der Weitergabe der Daten nicht vollständig.
Ergänzung in der Version vom 26.5.2023:
- Dem Archiv wurde die Version GISD_Release_2022_v0.1 hinzugefügt
Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese sind im Metadatenordner hinterlegt:
Versionierung und DOI-Vergabe erfolgt über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.
In der zenodo.json ist neben dem Publikationsdatum ("publication_date"
) auch der Datenstand in folgendem Format enthalten (Beispiel):
"dates": [
{
"start": "2023-09-11T15:00:21+02:00",
"end": "2023-09-11T15:00:21+02:00",
"type": "Collected",
"description": "Date when the Dataset was created"
}
],
Zusätzlich beschreiben wir tabellarische Daten mithilfe des Data Package Standards. Ein Data Package ist eine strukturierte Sammlung von Daten und zugehörigen Metadaten, die den Austausch und die Wiederverwendung von Daten erleichtert. Es besteht aus einer datapackage.json-Datei, die zentrale Informationen wie die enthaltenen Ressourcen, ihre Formate und Schema-Definitionen beschreibt.
Der Data Package Standard wird von der Open Knowledge Foundation bereitgestellt und ist ein offenes Format, das eine einfache, maschinenlesbare Beschreibung von Datensätzen ermöglicht.
Die Liste der in diesem Repository enthaltenen Daten ist in folgender Datei hinterlegt:
Für tabellarische Daten definieren wir zusätzlich ein Table Schema, das die Struktur der Tabellen beschreibt, einschließlich Spaltennamen, Datentypen und Validierungsregeln. Diese Schema-Dateien finden sich unter:
Offene Forschungsdaten des RKI werden auf Zenodo.org, GitHub.com, OpenCoDE und Edoc.rki.de bereitgestellt:
- https://zenodo.org/communities/robertkochinstitut
- https://github.com/robert-koch-institut
- https://gitlab.opencode.de/robert-koch-institut
- https://edoc.rki.de/
Der Datensatz "German Index of Socioeconomic Deprivation (GISD)" ist lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International.
Die im Datensatz bereitgestellten Daten sind, unter Bedingung der Namensnennung des Robert Koch-Instituts als Quelle, frei verfügbar. Das bedeutet, jede Person hat das Recht die Daten zu verarbeiten und zu verändern, Derivate des Datensatzes zu erstellen und sie für kommerzielle und nicht kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden sich in der LICENSE bzw. LIZENZ Datei des Datensatzes.