Skip to content

Der German Index of Socioeconomic Deprivation (GISD) ist ein am Robert Koch-Institut entwickelter Index zur Erfassung regionaler sozioökonomischer Benachteiligung. Er wird verwendet, um regionale sozioökonomische Ungleichheiten in der Gesundheit sichtbar zu machen und Ansatzpunkte zur Erklärung regionaler Unterschiede in der Gesundheit aufzeigen...

License

Notifications You must be signed in to change notification settings

robert-koch-institut/German_Index_of_Socioeconomic_Deprivation_GISD

Repository files navigation

Datensatzdokumentation

German Index of Socioeconomic Deprivation (GISD)

Robert Koch-Institut | RKI
Nordufer 20
13353 Berlin

Niels Michalski¹, Lola Omar Soliman¹, Marvin Reis¹, Fabian Tetzlaff¹, Enno Nowossadeck¹ und Jens Hoebel¹ (Projektleitung)

  ¹ Robert Koch-Institut | FG 28 Soziale Determinanten der Gesundheit


Zitieren

Michalski, N., Soliman, L., Reis, M., Tetzlaff, F., Nowossadeck, E., & Hoebel, J. (2025). German Index of Socioeconomic Deprivation (GISD) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.14781119

Informationen zum Forschungskontext

Im Datensatz "German Index of Socioeconomic Deprivation (GISD)" werden die Daten des gleichnamigen Indexes bereitgestellt und dokumentiert. Er dient als Maß relativer regionaler sozioökonomischer Benachteiligung. Der German Index of Socieoeoconomic Deprivation (GISD) wird seit 2017 am Robert Koch-Institut erstellt, um regionale sozioökonomische Ungleichheiten in der Gesundheit sichtbar zu machen und Ansatzpunkte zur Erklärung regionaler Unterschiede in der Gesundheit aufzeigen zu können. Die Indikatoren des GISD werden so gewählt, dass sie eine Analogie zum in der Sozialepidemiologie etablierten individuellen sozioökonomischen Status (SES) zulassen, der die Dimensionen Bildung, Beruf und Einkommen zusammenfasst. Durch diese Konzeption wird es möglich mit dem GISD sozioökonomische Unterschiede in den Gesundheitschancen, Krankheits- und Sterberisiken in Deutschland auch anhand von Daten untersuchen zu können, die auf individueller Ebene keine Information zum sozioökonomischen Status enthalten. Der Begriff regionale Deprivation wird hier in Anlehnung an den Begriff der sozialen Deprivation verwendet und bezeichnet den Grad der Benachteiligung, der aus einem relativen Mangel an sozioökonomischen Ressourcen und aus einem hohen Niveau sozialräumlicher Belastungen in der jeweiligen Wohnregion resultiert, der Einschränkungen der gesellschaftlichen Teilhabechancen zur Folge hat.

Für die Referenzierung des GISD wird empfohlen zusätzlich zur Datenzitation folgende Publikation im Journal of Health Monitoring zu zitieren. Diese enthält eine ausführliche Einführung in den GISD. Einige Textbausteine dieser Onlinedokumentation wurden dieser Publikation entnommen:

Michalski N, Reis M, Tetzlaff F, Herber M, Kroll LE, Hövener C, Nowossadeck E, Hoebel J (2022) German Index of Socioeconomic Deprivation (GISD): Revision, Aktualisierung und Anwendungsbeispiele. J Health Monit 7(S5): 2–24. DOI: 10.25646/10640

Die englische Version ist verfügbar unter:

Michalski N, Reis M, Tetzlaff F, Herber M, Kroll LE et al. (2022) German Index of Socioeconomic Deprivation (GISD): Revision, update and applications. J Health Monit 7(S5): 2–23. DOI 10.25646/10641

Die Begleitpublikation zur Ursprungsversion des GISD findet sich hier:

Kroll LE, Schumann M, Hoebel J et al. (2017) Regionale Unterschiede in der Gesundheit – Entwicklung eines sozioökonomischen Deprivationsindex für Deutschland. J Health Monit 2(2):103-120 DOI: 10.25646/2573.2

Administrative und organisatorische Angaben

Der "German Index of Socioeconomic Deprivation (GISD)" dient im Rahmen der epidemiologischen Forschung und Gesundheitsberichterstattung am Robert Koch-Institut zur Bearbeitung der Themenschwerpunkte regionale Unterschiede in der Gesundheit und soziale Ungleichheit der Gesundheitschancen und Erkrankungsrisiken.
Die Federführung der Entwicklung, Betreuung und Primäranwendung liegt im Fachgebiet 28 | Sozialen Determinanten der Gesundheit. Autoren des aktuellen Datensatzes sind Niels Michalski und Lola Omar Soliman. Die Projektleitung liegt bei Jens Hoebel. Die Ursprungsversion des GISD wurde von Lars E. Kroll erstellt. Aktualisierungen und Revisionen des GISD erscheinen in regelmäßigen Abständen. Fragen zur Generierung und Verwendung des GISD können an GISD@rki.de gerichtet werden.

Die Veröffentlichung der Daten, die Datenkuration sowie das Qualitätsmanagement der (Meta-)Daten erfolgt durch das Fachgebiet MF 4 | Fach- und Forschungsdatenmanagement. Fragen zum Datenmanagement können an das Open Data Team des Fachgebiets MF4 gerichtet werden OpenData@rki.de.

Zielkriterien und Datengrundlage

Beschreibung der Zielkriterien

Die Erstellung des GISD erfolgte mit dem Ziel, ein Maß für die relative sozioökonomische Schlechterstellung von Regionen in Deutschland zu entwickeln. Der Index sollte eine Analogie zum sozioökonomischen Status (SES) auf Individualebene zulassen und auch Entwicklungen über die Zeit abbilden können. Der Index sollte sozioökonomische Unterschiede dabei möglichst feingliedrig, d.h. auf möglichst kleinräumiger regionaler Ebene, abbilden. Primärer Bezugsrahmen des Indexes sollte das gesamte Bundesgebiet sein, um Gesundheitsdaten mit Regionalbezug aus unterschiedlichen Quellen analysieren und für Deutschland repräsentative Aussagen treffen zu können. Als Datengrundlage sollten Sekundärdaten aus Quellen verwendet werden, die frei zugänglich sind und deren datenschutz- und urheberrechtliche Verwendung unproblematisch ist.

Regionale Ebenen

Gemäß dieser Kriterien wird der GISD auf Ebene der Gemeinden jahresweise für den Zeitraum 1998 bis 2021 generiert und für die unterschiedliche Raumabgrenzungen (Gemeindeverbände, Kreis, Raumordnungsregionen, NUTS-2) bevölkerungsgewichtet aggregiert. Auf jeder räumlichen Ebene wird jeder Region des Gebietsstands ein Wert zugeordnet.

Ebene Anzahl (Stand 31.12.2022)
Gemeinden 10786
Gemeindeverbände und verbandsfreie Gemeinden (GVB) 4396
Kreise und kreisfreie Städte (Kreise) 400
Raumordnungsregionen (ROR) 96
NUTS-2 38

Datengrundlage

Für die Generierung des GISD werden bevorzugt Daten aus der Datenbank INKAR (Indikatoren und Karten zur Raum- und Stadtentwicklung) des Bundesinstituts für Bau-, Stadt- und Raumforschung (BBSR) verwendet. Bei INKAR handelt es sich um einen interaktiven Online-Atlas mit regionalstatistischen Informationen zu den Themen Bevölkerungsentwicklung, Arbeitsmarkt, Bildung, Wirtschaft, Wohnen, Verkehr und Umwelt. In der Datenbank sind rund 600 Indikatoren für verschiedene regionale Ebenen hinterlegt, so dass Vergleiche zwischen europäischen Regionen, Bundesländern, Kreisen, Gemeindeverbänden und verbandsfreien Gemeinden ermöglicht werden. Die Untergliederung der regionalen Einheiten basiert auf der administrativen Gliederung Deutschlands. Die Zeitreihen der Statistiken reichen zum Teil bis ins Jahr 1995 zurück. Die INKAR-Daten bieten durch ihre öffentliche Verfügbarkeit und gute Dokumentation ein hohes Maß an Transparenz. Zudem werden die Daten über die Zeit harmonisiert und auf die aktuellen Gebietsstände bezogen, so dass zeitliche Trends analysiert werden können. Aufgrund der genannten Eigenschaften werden Daten aus der INKAR-Datenbank gegenüber anderen Datenquellen bevorzugt. Die Zeitreihen für zwei Indikatoren wurden für frühere Jahre (bis 2011) von der Statistik der Bundesagentur für Arbeit bezogen.

Auswahl der Indikatoren

Der Index greift im Wesentlichen auf die Indikatoren zurück, deren Auswahl in einer früheren Version des GISD auf Grundlage der Ergebnisse einer systematischen Literaturrecherche in den Literaturdatenbanken von PubMed und Google Scholar getroffen wurde Kroll et al 2017. Die Indikatoren sollten außerdem drei weitere Kriterien erfüllen: Erstens die regionale Auflösung der Daten sollte möglichst fein sein. Sie sollten mindestens auf Kreisebene, idealerweise auf Ebene der Gemeinden oder Gemeindeverbände und verbandsfreien Gemeinden (GVB) vorliegen. Zweitens sollten die Indikatoren möglichst über einen Zeitraum von derzeit rückblickend 20 Jahren verfügbar und auf aktuelle Gebietsstände bezogen sein. Drittens sollten die Indikatoren ausreichend hoch mit anderen Indikatoren der gleichen Teildimension korrelieren, um eine Zusammenfassung zu einer Dimension zu rechtfertigen. Für die aktuelle Version des GISD wurden die derzeit in der INKAR-Datenbank bereitgestellten Indikatoren auf ihre Eignung hin überprüft. Hierbei stellte sich heraus, dass alle acht ursprünglich verwendeten Indikatoren auch weiterhin in der INKAR-Datenbank enthalten sind. Der Indikator „Anteil sozialversicherungspflichtig Beschäftigter ohne Berufsabschluss an allen sozialversicherungspflichtig Beschäftigten“ wurde seit der Version GISD Release 2022 v1.0 in die Liste der Indikatoren aufgenommen. Dadurch kann die Bildungsdimension in der vorliegenden Revision wie die Einkommens- und Beschäftigungsdimension durch drei Indikatoren repräsentiert werden. Um der mangelnden Analogie der Indikatoren der Beschäftigungsdimension mit denen des Berufsstatus im sozioökonomischen Status (SES) gerecht zu werden, weicht die Bezeichnung dieser GISD-Dimension von der des SES ab. In folgender Tabelle sind die Dimensionen mit ihren Indikatoren und der jeweiligen Ursprungsquelle der Daten dargestellt:

Dimension Name des Indikators Indikator Regionale Tiefe Quelle
Bildung Beschäftigte mit (Fach-)Hochschulabschluss Anteil der SV-Beschäftigten am Wohnort mit akademischem Abschluss an den SV-Beschäftigten am Wohnort in % Kreis Statistik der Bundesagentur für Arbeit
Bildung Beschäftigte ohne Abschluss Anteil der SV-Beschäftigten am Wohnort ohne Berufsabschluss an den SV-Beschäftigten am Wohnort in % Kreis Statistik der Bundesagentur für Arbeit
Bildung Schulabgänger:innen ohne Abschluss Anteil der Schulabgänger:innen ohne Hauptschulabschluss an den Schulabgänger:innen in % Kreis Statistik der allgemeinbildenden Schulen des Bundes und der Länder
Beschäftigung Arbeitslosigkeit Anteil der Arbeitslosen an den Einwohner:innen im erwerbsfähigen Alter Gemeinde Statistik der Bundesagentur für Arbeit
Beschäftigung Beschäftigtenquote SV-Beschäftigte am Wohnort je 100 Einwohner:innen im erwerbsfähigen Alter Gemeinde Statistik der Bundesagentur für Arbeit
Beschäftigung Bruttolohn und -gehalt Monatlicher Bruttoverdienst der Arbeitnehmer:innen in Euro Kreis Volkswirtschaftliche Gesamtrechnung der Länder
Einkommen Steuereinnahmen Einkommensteuer in € je Einwohner:in Gemeindeverband Volkswirtschaftliche Gesamtrechnung der Länder
Einkommen Haushaltsnettoeinkommen Durchschnittliches Haushaltseinkommen in € je Einwohner:in Kreis Schuldneratlas Deutschland des Verbands der Vereine Creditreform e.V.
Einkommen Schuldner:innenquote Private Schuldner:innen je 100 volljährige Einwohner:innen in % Kreis Realsteuervergleich des Bundes und der Länder + INKAR

Quellen: INKAR 2024, Statistik der Bundesagentur für Arbeit

GVB = Gemeindeverbände und verbandsfreie Gemeinden
SV = sozialversicherungspflichtig

*Datenquelle: Für die Anteile der sozialversicherungspflichtig Beschäftigten ohne Abschluss und mit akademischem Abschluss wurden die Daten für die Jahre 2001 bis 2011 direkt über die Statistik der Bundesagentur für Arbeit bezogen Statistik der Bundesagentur für Arbeit. Alle weiteren Daten wurden aus INKAR 2024 bezogen.

*Für die Beschäftigtenquote standen Werte für die Gemeindeebene erst ab 2001 zur Verfügung. Für die Jahre 1998 bis 2000 wurden den Gemeinden die Werte der Kreisebene zugeordnet.

Laufende Raumbeobachtung des BBSR - INKAR, Ausgabe 03/2024. Hrsg.: Bundesinstituts für Bau-, Stadt- und Raumforschung (BBSR), Bonn.

Statistik der Bundesagentur für Arbeit (2022) Tabellen, Beschäftigte nach Berufen (KldB 2010) (Quartalszahlen), Nürnberg.

Datenaufbereitung

Zeitreihenimputation und Datenharmonisierung

Für zwei der neun Indikatoren sind Daten auf der Ebene der Gemeinden verfügbar, für einen Indikator auf Ebene der Gemeindeverbände und verbandsfreien Gemeinden (GVB), so dass der Index auch Unterschiede in der sozioökonomischen Deprivation zwischen Gemeinden innerhalb von Kreisen feststellen kann. Für die Bildungsindikatoren „Beschäftigte ohne Abschluss“ und „Beschäftigte mit (Fach-)Hochschulabschluss“ gibt es aufgrund einer Umstellung im Meldeverfahren zur Sozialversicherung keine Werte für das Jahr 2012 (Statistik der Bundesagentur für Arbeit). Um diese Zeitreihenlücke zu füllen wurden die Daten für 2011 auch auf 2012 übertragen. Für einige Indikatoren beginnen die Zeitreihen nicht im Basisjahr 1998. Für diese Indikatoren wurden fehlende Werte auf Grundlage der vorhandenen Zeitreihen geschätzt (lineare Random-Intercept-Modelle für Zeitreihen). Das betrifft die Jahre vor 2004 und insbesondere die Jahre 1998 bis 2000, für die Werte von fünf Indikatoren auf diese Weise imputiert wurden. Von 2001 bis 2003 mussten nur fehlende Werte eines Indikators geschätzt werden. Um die Informationen der Rohdaten als Zeitreihe verwenden zu können und für die Hauptkomponentenanalyse aufzubereiten, wurden einige Indikatoren um Artefakte der Erhebung und statistische Artefakte bereinigt: 1) Die Indikatoren mit währungsbasierten, nach oben offenen Skalen (Steuereinnahmen, Bruttolohn und mittleres Haushaltsnettoeinkommen) wurden kaufkraftbereinigt und logarithmiert. 2) Für die Indikatoren „Beschäftigte ohne Abschluss“ und „Beschäftigte mit (Fach-)Hochschulabschluss“ führte die bereits erwähnte Umstellung im Meldeverfahren zur Sozialversicherung zu einer Veränderung der Niveaus der Zeitreihe. Die durchschnittliche Veränderung des Niveauparameters durch die Umstellung des Meldeverfahrens wurde statistisch identifiziert und die Zeitreihe vor der Umstellung auf das Niveau nach der Umstellung angepasst. 3) Der Indikator „Schulabgängerinnen und -abgänger ohne Abschluss“ wurde um Einflüsse der G8-Reformen auf die jährlichen Zahlen der Schulabgängerinnen und -abgänger bereinigt. Diese Korrektur war notwendig, da die Schulabschlussjahrgänge in den Jahren, in denen die ersten Schülerinnen und Schüler im neu eingeführten G8-System nach zwölf Jahren ihr Abitur machen, doppelt besetzt sind und der Anteil der Schulabgängerinnen und -abgänger ohne Abschluss deshalb aufgrund der insgesamt höheren Abschlusszahlen geringer ausfällt. Umgekehrtes gilt in den Jahren, in denen die Rücknahme der G8-Reform griff. Um diese Artefakte herauszurechnen wurde die statistischen Effekte der G8-Reformen mit den Daten regressionsanalytisch geschätzt und für die betroffenen Bundesländer in den betreffenden Jahren abgezogen. 4) Bei der Betrachtung des Indikators Anteil der Beschäftigten ohne Abschluss fiel eine bimodale Verteilung auf, die auf den deutlich geringeren Anteil an Beschäftigten ohne Abschluss in den ostdeutschen Bundesländern zurückzuführen ist. Inhaltlich sollte der Indikator als Proxy für den Bildungsstand der Bevölkerung dienen. Historische gewachsene Unterschiede zwischen den Landesteilen sowie die Einbindung der DDR-Bevölkerung ins Erwerbssystem der BRD sorgen in dieser Frage allerdings für unterschiedliche Vergleichsmaßstäbe. Um für diese historisch geprägten und demografischen Unterschiede zu korrigieren, wurde die mittlere Differenz der entsprechenden Anteile zwischen ost- und westdeutschen Bundesländern bestimmt und den Regionen in den ostdeutschen Bundesländern zugeschlagen, wodurch eine unimodale Verteilung der Werte erzeugt wurde.

Indexbildung

Die Bestimmung der Indexwerte erfolgt in drei Schritten. In einem ersten Schritt werden separate Hauptkomponentenanalysen für jede der drei Teildimension durchgeführt. Aus diesen werden in einem zweiten Schritt Werte für die Teildimensionen über das Faktor-Scoring-Verfahren generiert. In einem dritten Schritt werden die Werte für die Teildimensionen normalisiert und zum GISD-Score aufsummiert. Für die Hauptkomponentenanalysen werden die Daten der GISD-Indikatoren für die 20 aktuellsten Jahre (2002-2021) gepoolt. Dadurch kann neben der Variation zwischen den regionalen Einheiten auch die Variation über die Zeit genutzt werden, um die Zusammenhänge zwischen den Indikatoren zu bestimmen. Durch den Einschlussbeschränkung der Daten bis 2001 wird außerdem potenziellen Verzerrungen der Gewichte durch imputierte Werte vorgebeugt. Die Hauptkomponentenanalysen bestätigen für jede Teildimension eine eindimensionale Struktur. Die Faktorladungen, die als Korrelation der Indikatoren mit der Hauptkomponente gelesen werden können, erreichen zufriedenstellende bis gute Werte:

Dimension Variable Faktorladung Anteil am Teilscore Anteil GISD
Bildung Beschäftigte mit akad. Abschluss (adj.) 0.71 34.3 11.4
Bildung Beschäftigte ohne Abschluss (adj.) -0.71 34.3 11.4
Bildung Schulabgänger ohne Abschluss (adj.) -0.67 31.4 10.5
Beschäftigung Arbeitslosigkeit -0.83 39.5 13.2
Beschäftigung Beschäftigtenquote 0.58 19.5 6.5
Beschäftigung Bruttoverdienst (log.) 0.84 40.9 13.6
Einkommen Einkommensteuer (log.) 0.92 40.3 13.4
Einkommen Haushaltseinkommen (log.) 0.92 40.8 13.6
Einkommen Schuldnerquote -0.63 18.9 6.3

log. = logarithmiert,
adj. = adjustiert

*Darstellung der Faktorladungen auf der ersten Hauptkomponente für die einzelnen Dimensionen. Eigenwerte der ersten Komponenten: η(Beschäftigung) = 1.7; η(Einkommen) = 2.1; η(Bildung) = 1.5. Die Eigenwerte der zweiten und dritten Komponenten liegen jeweils unter 0,85. Korrelationen zwischen den Scores der Teildimensionen für das Jahr 2021: r(Beschäftigung|Einkommen) = 0.69; r(Beschäftigung|Bildung) = 0.52; r(Einkommen|Bildung) = 0.75

Mit Hilfe des Faktor-Scorings werden für jede Gemeinde im Datensatz Werte (GISD-Scores) berechnet. Auch für die Jahre 1998 bis 2001 wurden dabei GISD-Scores generiert. Die Faktorwerte der drei Teildimensionen werden anschließend jahresweise jeweils auf einen Wertebereich zwischen 0 (niedrigste Deprivation) und 1 (höchste Deprivation) normiert. Danach wurden die drei Teilscores aufaddiert, so dass jede Teildimension mit einem Gewicht von etwa einem Drittel in den Gesamt-Index eingeht. Die so entstandenen GISD-Scores der Gemeinden werden anschließend jeweils für höhere regionale Einheiten (GVB, Landkreise und kreisfreie Städte, Raumordnungsregionen und die statistischen Regionen gemäß der amtlichen europäischen Statistik NUTS-2) bevölkerungsgewichtet aggregiert. Die Berechnung der GISD-Scores für die höheren regionalen Ebenen mittels bevölkerungsgewichteter Aggregation sorgt dafür, dass zur Berechnung der GISD-Scores für jede räumliche Ebene die gleiche Gewichtung der Indikatoren zur Anwendung kommt. Ausgehend von der Gemeindeebene werden auf diese Weise auch Werte für weitere Raumbezüge wie Postleitzahlgebiete generiert. Die Werte werden auf den jeweiligen Ebenen jahresweise so normiert, dass die sozioökomische Deprivation der Regionen Werte zwischen 0 (niedrigste Deprivation) und 1 (höchste Deprivation) annehmen kann. Zudem werden die Einheiten der genannten Raumebenen für die weiteren Analysen gemäß der Verteilung ihrer Indexwerte für jedes Jahr in fünf Gruppen von je zwanzig Prozent (Quintile, Fünftel) eingeteilt, wobei jeweils das unterste Fünftel „niedrige“ und das oberste Fünftel „hohe“ sozioökonomische Deprivation kennzeichnet.

Zu beachten ist, dass die jahresweise Normierung der Scores Folgen für die Interpretation der GISD-Scores über die Zeit hat. Die Scores geben das Ausmaß der sozioökonomischen Deprivation in einem Jahr immer relativ zu den Regionen mit dem höchsten und niedrigsten Wert in dem entsprechenden Jahr wider. Weil der GISD-Score einer Region also von den extremen Werten eines Jahres anhängt, steht ein niedrigerer Wert im Vergleich zwischen zwei Jahren, nicht notwendigerweise für einen Verringerung der absoluten Deprivation.

Datenbereitstellung

Im Repositorium werden die GISD-Daten bestehend aus den GISD-Scores für die jeweiligen regionalen Ebenen und Jahre bereitgestellt. Im Ordner "Bund" befinden sich die GISD-Daten mit Bezugsrahmen Bundesebene. Im Ordner "Bundesland" sind die GISD-Daten bezogen auf die jeweiligen Bundesländer mit Ausnahme der Stadtstaaten Bremen, Hamburg und Berlin abgelegt. Innerhalb der Stadtstaaten kann bisher nicht regional differenziert werden. Das aktuelle Release entspricht der Version GISD Release 2025 v1.0. Frühere Versionen finden sich im Archiv.

GISD_Release_aktuell/Bund
GISD_Release_aktuell/Bundesland

Die Dateinamen sind nach dem Schema GISD_Bezugsrahmen_Raumabgrenzung.csv bezeichnet. Die Sequenz "Bezugsrahmen" repräsentiert, ob als Bezugsrahmen die Bundesebene "Bund" oder ein bestimmtes Bundesland "Name des Bundeslandes" ausgewählt werden soll. Die Sequenz "Raumabgrenzung" markiert die "regionale Ebene" auf der der GISD verwendet werden soll.

Beispiel: Die Datei GISD_Sachsen_Gemeinde.csv enhält die Daten des GISD auf Gemeindeebene mit dem Bezugsrahmen Sachsen.

Variablen und Variablenausprägungen

Die Datensätze enthalten folgende Merkmale:

  • Information zur regionalen Einheit (IDs und Namen)
  • GISD-Score
  • GISD-Quintil für den jeweiligen Bezugsrahmen
  • GISD-Perzentil für den jeweiligen Bezugsrahmen
  • GISD-Kategorien
  • Beobachtungsjahr

Die GISD-Daten enthalten die in der folgenden Tabelle abgebildeten Variablen und deren Ausprägungen:

Variable Typ Ausprägung Beschreibung
gemeinde_id, gvb_id, kreis_id, nuts2_id, ror_id, plz2, plz3, plz4, plz5 String 01001
DE01
...
ID der regionalen Einheit basierend auf dem amtlichen Regionalschlüssel für Gemeinden, Gemeindeverbände , Stadt- und Landkreise, NUTS-2, Raumordnungsregion sowie Postleitzahl 2-, 3-, 4-, 5-Steller
gisd_score Dezimalzahl 0 bis 1 Berechneter Score Sozioökonomischer Deprivation für die jeweilige Raumheinheit
gisd_5 Natürliche Zahl 1,2,3,4,5 Zugewiesenes GISD-Quintil der Raumeinheit gemäß der jährlichen Verteilung auf der jeweiligen räumlichen Ebene
gisd_10 Natürliche Zahl 1,2,3,4,5, 6,7,8,9,10 Zugewiesenes GISD-Dezil der Raumeinheit gemäß der jährlichen Verteilung auf der jeweiligen räumlichen Ebene
gisd_k Natürliche Zahl 1,2,3 1 unterstes Quintil, 2 drei mittlere Qunitile, 3 oberstes Qunitil
gemeinde_name, gvb_name, kreis_name, nuts2_name, ror_name String Flensburg, Stadt,Kiel, Landeshauptstadt, ..., Windischleuba Name der Raumeinheit
year Natürliche Zahl 1998 bis 2019 Beobachtungsjahr

Formatierung der Daten

Die Daten sind im Datensatz als kommaseparierte .csv-Datei enthalten. Der verwendete Zeichensatz der .csv-Datei ist UTF-8. Trennzeichen der einzelnen Werte ist ein Komma ",".

  • Zeichensatz: UTF-8
  • Datumsformat: ISO8601
  • .csv-Trennzeichen: ,

Zusätzlich wurden die Daten im Format .dta des Softwarepakets Stata v17 bereitgestellt.

Kontextmaterialien

Für die Reproduzierbarkeit werden die Rohdaten aus der INKAR-Datenbank und die Syntax zur Generierung des GISD als Kontexmaterialien zur Verfügung gestellt.

Kontextmaterialien/Rohdaten
Kontextmaterialien/Syntax/

Im Repositorium werden außerdem frühere Versionen (Releases) für Replikationszwecke zum Download angeboten.

Archiv

Metadaten

Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese sind im Metadaten-Ordner hinterlegt:

Metadaten/

Versionierung und DOI-Vergabe erfolgt über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.

Metadaten/zenodo.json

In der zenodo.json ist neben der Publikationsdatum ("publication_date") auch der Datenstand enthalten:

  "dates": [
    {
      "start": "2023-09-11T15:00:21+02:00",
      "end": "2023-09-11T15:00:21+02:00",
      "type": "Collected",
      "description": "Date when the Dataset was created"
    }
  ],

Updates und Bugfixes

Aktualisierung & Bugfixes in der Version 2025-01-31:

  • Die Aktualisierung führt eine neue GISD-Version GISD_Release_2025_v1.0 ein.
  • GISD_Release_2025_v1.0 ersetzt die GISD-Version GISD_Release_2022_v1.1 als aktuelles Release. GISD_Release_2022_v1.1 wird dem Archiv hinzugefügt.
  • Entsprechend wurden auch die Syntax zur Replikation der GISD Generierung und die Rohdaten aktualisiert.
  • GISD_Release_2025_v1.0 enthält nun GISD-Scores für die Jahre bis 2021. Im Zuge der Generierung wurden auch die Werte aller weiteren Jahre revidiert.
  • Die GISD-Scores im GISD_Release_2025_v1.0 differenzieren nun auf Gemeindeebene innerhalb von Gemeindeverbänden.
  • In GISD_Release_2025_v1.0 nimmt Glättungen von Ausreißern bei den Teildimensionen Beschäftigung und Einkommen vor, die bisher zu Brüchen in den Zeitreihen für die Teildimensionen und für den GISD geführt haben.
  • Die Teilscores werden nun jahresweise normiert, bevor sie zum GISD-Score aufsummiert werden. Dadurch wird die Gleichgewichtung der Teildimensionen abgesichert.
  • Die Zuordnung der Werte zu Postleitzahlbereichen wurde erneuert und verwendet nun amtliche PLZ-Daten.
  • Neben der Revision der GISD-Scores in GISD_Release_2025_v1.0 wird auch GISD_Release_2022_v1.1 fortgeführt und um die Jahre 2020 und 2021 ergänzt. Die Fortschreibung der GISD_Release_2022_v1.1 findet sich in der Version GISD_Release_2022_v1.2_Fortschreibung. Sie wendet die Gewichtung der Indikatoren und den Gebietsstand (31.12.2019) aus der GISD-Version GISD_Release_2022_v1.1 auf die Rohdaten der Jahre 2020 und 2021 an.

Ergänzung & Bugfix in der Version vom 03.01.2024:

  • Dem Archiv wurde die Version GISD_Release_2022_v1.1 hinzugefügt
  • Bei der Generierung der GISD-Scores für die Postleitzahlebene blieben Postleitzahlen aus dem Kreis Göttingen unberücksichtigt. Die fehlenden Werte wurden eingefügt.
  • Die Syntax zur Replikation der GISD Generierung wurde überarbeitet
  • Die Rohdaten sind nun vollständig verfügbar. In den früheren Versionen waren die Zeitreihen der Rohdaten für die Indikatoren Beschäftigte ohne Abschluss und Beschäftigte mit akademischem Abschluss wegen unklarer Berechtigung der Weitergabe der Daten nicht vollständig.

Ergänzung in der Version vom 26.5.2023:

  • Dem Archiv wurde die Version GISD_Release_2022_v0.1 hinzugefügt

Metadaten

Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese sind im Metadatenordner hinterlegt:

Metadaten/

Versionierung und DOI-Vergabe erfolgt über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.

Metadaten/zenodo.json

In der zenodo.json ist neben dem Publikationsdatum ("publication_date") auch der Datenstand in folgendem Format enthalten (Beispiel):

  "dates": [
    {
      "start": "2023-09-11T15:00:21+02:00",
      "end": "2023-09-11T15:00:21+02:00",
      "type": "Collected",
      "description": "Date when the Dataset was created"
    }
  ],

Zusätzlich beschreiben wir tabellarische Daten mithilfe des Data Package Standards. Ein Data Package ist eine strukturierte Sammlung von Daten und zugehörigen Metadaten, die den Austausch und die Wiederverwendung von Daten erleichtert. Es besteht aus einer datapackage.json-Datei, die zentrale Informationen wie die enthaltenen Ressourcen, ihre Formate und Schema-Definitionen beschreibt.

Der Data Package Standard wird von der Open Knowledge Foundation bereitgestellt und ist ein offenes Format, das eine einfache, maschinenlesbare Beschreibung von Datensätzen ermöglicht.

Die Liste der in diesem Repository enthaltenen Daten ist in folgender Datei hinterlegt:

datapackage.json

Für tabellarische Daten definieren wir zusätzlich ein Table Schema, das die Struktur der Tabellen beschreibt, einschließlich Spaltennamen, Datentypen und Validierungsregeln. Diese Schema-Dateien finden sich unter:

Metadaten/schemas/

Hinweise zur Nachnutzung der Daten

Offene Forschungsdaten des RKI werden auf Zenodo.org, GitHub.com, OpenCoDE und Edoc.rki.de bereitgestellt:

Lizenz

Der Datensatz "German Index of Socioeconomic Deprivation (GISD)" ist lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International.

Die im Datensatz bereitgestellten Daten sind, unter Bedingung der Namensnennung des Robert Koch-Instituts als Quelle, frei verfügbar. Das bedeutet, jede Person hat das Recht die Daten zu verarbeiten und zu verändern, Derivate des Datensatzes zu erstellen und sie für kommerzielle und nicht kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden sich in der LICENSE bzw. LIZENZ Datei des Datensatzes.