forked from awslabs/deequ
-
Notifications
You must be signed in to change notification settings - Fork 0
Skalierbarkeit
phSch08 edited this page Nov 28, 2018
·
2 revisions
- Wir generieren 20 CSV Dateien mit je 2 Mio. Einträgen und einer jeweiligen Größe von ca. 90 MiB
- Diese Testdaten enthalten die folgenden Spalten:
- idx: Zeilenindex
- random_integer: zufällig generierter Integer
- random_string: zufällig generierter String mit 10 Zeichen
- uniform_integer: überall gleicher Integerwert
- uniform_string: überall gleicher Stringwert
- repeated_integer: sich wiederholender Integerwert
- Je nach Testfall werden entsprechend viele Testdatenblöcke in die Datenbank geladen.
- wir führen Laufzeittests in der Datenbank durch
- für verschiedene Füllgrade der Datenbank
- für indizierte/nicht indizierte Daten
- da die Tests auf Entwicklungshardware ausgeführt werden, wird jeder Test mehrfach ausgeführt um Datenverfälschungen durch im Hintergrund laufende Berechnungen zu vermeiden
- Der Maximum analyzer wird auf der Spalte
random_integer
ausgeführt | Analyzer | Run1 | Run2 | Run3 | Run4 | Run5 | Run6 | Run7 | Run8 | Run9 | Run10 | |----------|------|------|------|------|------|------|------|------|------|-------| | Maximum |