feature/replace-rdd #586

shriyavanvari · 2024-09-18T22:31:16Z

Issue #, if available:

Description of changes:
The refactoring replaces the usage of RDDs with DataFrame operations in the HistogramAnalyzer to leverage DataFrame APIs for more efficient processing.

By submitting this pull request, I confirm that my contribution is made under the terms of the Apache 2.0 license.

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

* Replace 'withColumns' with 'select' (#582) 'withColumns' was introduced in Spark 3.3, so it won't work for Deequ's <3.3 builds. * Replace rdd with dataframe functions in Histogram analyzer (#586) Co-authored-by: Shriya Vanvari <svanvari@amazon.com> * Updated version in pom.xml to 2.0.8-spark-3.5 (#578) Co-authored-by: Yannis Mentekidis <mentekid@amazon.com> --------- Co-authored-by: Josh <5685731+marcantony@users.noreply.github.com> Co-authored-by: Shriya Vanvari <vanvari.shriya@gmail.com> Co-authored-by: Shriya Vanvari <svanvari@amazon.com> Co-authored-by: Yannis Mentekidis <mentekid@users.noreply.github.com> Co-authored-by: Yannis Mentekidis <mentekid@amazon.com>

* Configurable RetainCompletenessRule (#564) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Optional specification of instance name in CustomSQL analyzer metric. (#569) Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> * Adding Wilson Score Confidence Interval Strategy (#567) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Add ConfidenceIntervalStrategy * Add Separate Wilson and Wald Interval Test * Add License information, Fix formatting * Add License information * formatting fix * Update documentation * Make WaldInterval the default strategy for now * Formatting import to per line * Separate group import to per line import * CustomAggregator (#572) * Add support for EntityTypes dqdl rule * Add support for Conditional Aggregation Analyzer --------- Co-authored-by: Joshua Zexter <jzexter@amazon.com> * fix typo (#574) * Fix performance of building row-level results (#577) * Generate row-level results with withColumns Iteratively using withColumn (singular) causes performance issues when iterating over a large sequence of columns. * Add back UNIQUENESS_ID * Replace 'withColumns' with 'select' (#582) 'withColumns' was introduced in Spark 3.3, so it won't work for Deequ's <3.3 builds. * Replace rdd with dataframe functions in Histogram analyzer (#586) Co-authored-by: Shriya Vanvari <svanvari@amazon.com> * Updated version in pom.xml to 2.0.8-spark-3.4 --------- Co-authored-by: zeotuan <48720253+zeotuan@users.noreply.github.com> Co-authored-by: tylermcdaniel0 <144386264+tylermcdaniel0@users.noreply.github.com> Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> Co-authored-by: Joshua Zexter <67130377+joshuazexter@users.noreply.github.com> Co-authored-by: Joshua Zexter <jzexter@amazon.com> Co-authored-by: bojackli <478378663@qq.com> Co-authored-by: Josh <5685731+marcantony@users.noreply.github.com> Co-authored-by: Shriya Vanvari <vanvari.shriya@gmail.com> Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

* Configurable RetainCompletenessRule (#564) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Optional specification of instance name in CustomSQL analyzer metric. (#569) Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> * Adding Wilson Score Confidence Interval Strategy (#567) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Add ConfidenceIntervalStrategy * Add Separate Wilson and Wald Interval Test * Add License information, Fix formatting * Add License information * formatting fix * Update documentation * Make WaldInterval the default strategy for now * Formatting import to per line * Separate group import to per line import * CustomAggregator (#572) * Add support for EntityTypes dqdl rule * Add support for Conditional Aggregation Analyzer --------- Co-authored-by: Joshua Zexter <jzexter@amazon.com> * fix typo (#574) * Fix performance of building row-level results (#577) * Generate row-level results with withColumns Iteratively using withColumn (singular) causes performance issues when iterating over a large sequence of columns. * Add back UNIQUENESS_ID * Replace 'withColumns' with 'select' (#582) 'withColumns' was introduced in Spark 3.3, so it won't work for Deequ's <3.3 builds. * Replace rdd with dataframe functions in Histogram analyzer (#586) Co-authored-by: Shriya Vanvari <svanvari@amazon.com> * Match Breeze version with spark 3.3 (#562) * Updated version in pom.xml to 2.0.8-spark-3.3 --------- Co-authored-by: zeotuan <48720253+zeotuan@users.noreply.github.com> Co-authored-by: tylermcdaniel0 <144386264+tylermcdaniel0@users.noreply.github.com> Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> Co-authored-by: Joshua Zexter <67130377+joshuazexter@users.noreply.github.com> Co-authored-by: Joshua Zexter <jzexter@amazon.com> Co-authored-by: bojackli <478378663@qq.com> Co-authored-by: Josh <5685731+marcantony@users.noreply.github.com> Co-authored-by: Shriya Vanvari <vanvari.shriya@gmail.com> Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

* Configurable RetainCompletenessRule (#564) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Optional specification of instance name in CustomSQL analyzer metric. (#569) Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> * Adding Wilson Score Confidence Interval Strategy (#567) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Add ConfidenceIntervalStrategy * Add Separate Wilson and Wald Interval Test * Add License information, Fix formatting * Add License information * formatting fix * Update documentation * Make WaldInterval the default strategy for now * Formatting import to per line * Separate group import to per line import * CustomAggregator (#572) * Add support for EntityTypes dqdl rule * Add support for Conditional Aggregation Analyzer --------- Co-authored-by: Joshua Zexter <jzexter@amazon.com> * fix typo (#574) * Fix performance of building row-level results (#577) * Generate row-level results with withColumns Iteratively using withColumn (singular) causes performance issues when iterating over a large sequence of columns. * Add back UNIQUENESS_ID * Replace 'withColumns' with 'select' (#582) 'withColumns' was introduced in Spark 3.3, so it won't work for Deequ's <3.3 builds. * Replace rdd with dataframe functions in Histogram analyzer (#586) Co-authored-by: Shriya Vanvari <svanvari@amazon.com> * Updated version in pom.xml to 2.0.8-spark-3.2 --------- Co-authored-by: zeotuan <48720253+zeotuan@users.noreply.github.com> Co-authored-by: tylermcdaniel0 <144386264+tylermcdaniel0@users.noreply.github.com> Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> Co-authored-by: Joshua Zexter <67130377+joshuazexter@users.noreply.github.com> Co-authored-by: Joshua Zexter <jzexter@amazon.com> Co-authored-by: bojackli <478378663@qq.com> Co-authored-by: Josh <5685731+marcantony@users.noreply.github.com> Co-authored-by: Shriya Vanvari <vanvari.shriya@gmail.com> Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

* Configurable RetainCompletenessRule (#564) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Optional specification of instance name in CustomSQL analyzer metric. (#569) Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> * Adding Wilson Score Confidence Interval Strategy (#567) * Configurable RetainCompletenessRule * Add doc string * Add default completeness const * Add ConfidenceIntervalStrategy * Add Separate Wilson and Wald Interval Test * Add License information, Fix formatting * Add License information * formatting fix * Update documentation * Make WaldInterval the default strategy for now * Formatting import to per line * Separate group import to per line import * CustomAggregator (#572) * Add support for EntityTypes dqdl rule * Add support for Conditional Aggregation Analyzer --------- Co-authored-by: Joshua Zexter <jzexter@amazon.com> * fix typo (#574) * Fix performance of building row-level results (#577) * Generate row-level results with withColumns Iteratively using withColumn (singular) causes performance issues when iterating over a large sequence of columns. * Add back UNIQUENESS_ID * Replace 'withColumns' with 'select' (#582) 'withColumns' was introduced in Spark 3.3, so it won't work for Deequ's <3.3 builds. * Replace rdd with dataframe functions in Histogram analyzer (#586) Co-authored-by: Shriya Vanvari <svanvari@amazon.com> * pdated version in pom.xml to 2.0.8-spark-3.1 --------- Co-authored-by: zeotuan <48720253+zeotuan@users.noreply.github.com> Co-authored-by: tylermcdaniel0 <144386264+tylermcdaniel0@users.noreply.github.com> Co-authored-by: Tyler Mcdaniel <tymcd@amazon.com> Co-authored-by: Joshua Zexter <67130377+joshuazexter@users.noreply.github.com> Co-authored-by: Joshua Zexter <jzexter@amazon.com> Co-authored-by: bojackli <478378663@qq.com> Co-authored-by: Josh <5685731+marcantony@users.noreply.github.com> Co-authored-by: Shriya Vanvari <vanvari.shriya@gmail.com> Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

Replace rdd with dataframe functions in Histogram analyzer

aa3a13f

shriyavanvari marked this pull request as ready for review September 18, 2024 22:31

mentekid approved these changes Oct 1, 2024

View reviewed changes

mentekid merged commit 0f46385 into master Oct 1, 2024
1 check passed

shriyavanvari deleted the feature/replace-rdd branch October 1, 2024 15:47

eycho-am pushed a commit to eycho-am/deequ that referenced this pull request Oct 9, 2024

Replace rdd with dataframe functions in Histogram analyzer (awslabs#586)

c000084

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

eycho-am pushed a commit to eycho-am/deequ that referenced this pull request Oct 9, 2024

Replace rdd with dataframe functions in Histogram analyzer (awslabs#586)

1260d36

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

eycho-am pushed a commit to eycho-am/deequ that referenced this pull request Oct 9, 2024

Replace rdd with dataframe functions in Histogram analyzer (awslabs#586)

fa74581

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

eycho-am pushed a commit to eycho-am/deequ that referenced this pull request Oct 9, 2024

Replace rdd with dataframe functions in Histogram analyzer (awslabs#586)

02e5079

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

rdsharma26 pushed a commit that referenced this pull request Dec 18, 2024

Replace rdd with dataframe functions in Histogram analyzer (#586)

8c52852

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

eycho-am pushed a commit that referenced this pull request Jan 16, 2025

Replace rdd with dataframe functions in Histogram analyzer (#586)

0f1d16e

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

SamPom100 pushed a commit that referenced this pull request Jan 16, 2025

Replace rdd with dataframe functions in Histogram analyzer (#586)

654f852

Co-authored-by: Shriya Vanvari <svanvari@amazon.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feature/replace-rdd #586

feature/replace-rdd #586

shriyavanvari commented Sep 18, 2024 •

edited by mentekid

Loading

feature/replace-rdd #586

feature/replace-rdd #586

Conversation

shriyavanvari commented Sep 18, 2024 • edited by mentekid Loading

shriyavanvari commented Sep 18, 2024 •

edited by mentekid

Loading