Data Quality tool #17

jmquintana79 · 2023-10-15T19:06:07Z

Introduction

Una herramienta para verificar la utilidad del dato es esencial, tanto para el conocimiento del dato (Data Analysis) compara una ML pipeline (verificación de calidad de training / testing datasets y también posibles diferencias entre ambos).

La libreria great-expectation, libreria para verificar la calidad del dato a través de unos test (expectations) para lanzar warnings, me ha dado la idea de desarrollar un método para abordar este problema.

La idea es crear una herramienta / metodologia sencilla con las siguientes características:

Una vez se reciba un nuevo dataset, lo primero de todo, antes incluso o justo después de un EDA, crear un objeto (por ejemplo json) con los parámetros necesarios de cada columna a analizar gracias a un template (por ejemplo, con los rangos máximos y mínimos permitidos.
Este template vendrá informado con valores por defecto.

NOTA: La librería mencionada anteriormente podría realizar quizás todo lo dicho hasta ahora.

Se pretende tener también un sistema de avisos general (datos pasaron el test o no ).
También estaría bien tener un sistema de avisos mas particular, donde se diga el registro y variable y la naturaleza de un fallo en alguno de los test. Realmente podría ser un log o incluso una tabla consultable.
Ademas de avisar, actue. Lo que se me ocurre mas sencillo es crear una nueva columna boolean "is_log_quality" para favorecer el filtrado de aquellos registros que tengan alguna alerta en alguna de las columnas. Obviamente, en caso de todos los registros sean "low quality", habría que avisarlo.

Glossary of Expectations

Aggregate functions

Multi-column

expect_column_pair_values_A_to_be_greater_than_B
expect_column_pair_values_to_be_equal
expect_column_pair_values_to_be_in_set
expect_select_column_values_to_be_unique_within_record
expect_multicolumn_sum_to_equal
expect_column_pair_cramers_phi_value_to_be_less_than
expect_compound_columns_to_be_unique

Distributional functions

expect_column_kl_divergence_to_be_less_than
expect_column_bootstrapped_ks_test_p_value_to_be_greater_than
expect_column_chisquare_test_p_value_to_be_greater_than
expect_column_parameterized_distribution_ks_test_p_value_to_be_greater_than

FileDataAsset

File data assets reason at the file level, and the line level (for text data).

expect_file_line_regex_match_count_to_be_between
expect_file_line_regex_match_count_to_equal
expect_file_hash_to_equal
expect_file_size_to_be_between
expect_file_to_exist
expect_file_to_have_valid_table_header
expect_file_to_be_valid_json

References

jmquintana79 added enhancement New feature or request ANALYSIS Analysis tools labels Oct 15, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Data Quality tool #17

Data Quality tool #17

jmquintana79 commented Oct 15, 2023 •

edited

Loading

Data Quality tool #17

Data Quality tool #17

Comments

jmquintana79 commented Oct 15, 2023 • edited Loading

Introduction

Glossary of Expectations

Table shape

Missing values, unique values, and types

Sets and ranges

String matching

Datetime and JSON parsing

Aggregate functions

Multi-column

Distributional functions

FileDataAsset

References

jmquintana79 commented Oct 15, 2023 •

edited

Loading