From c7f0270dbe633eb6388e4ecf5589eeb6496fe91b Mon Sep 17 00:00:00 2001 From: "Higuera D. Lui" <102473099+complexluise@users.noreply.github.com> Date: Tue, 12 Nov 2024 10:35:08 -0500 Subject: [PATCH] Update explicacion_normalizacion.md --- explicacion_normalizacion.md | 22 +++++++++++++++++++++- 1 file changed, 21 insertions(+), 1 deletion(-) diff --git a/explicacion_normalizacion.md b/explicacion_normalizacion.md index 0216154..3bae6d2 100644 --- a/explicacion_normalizacion.md +++ b/explicacion_normalizacion.md @@ -73,6 +73,26 @@ --- +### 9. **Editorial** + - **Separación de múltiples editoriales**: + - Si el campo contiene múltiples editoriales separadas por coma (`,`) o punto y coma (`;`), se extraen las dos primeras. + - Se eliminan espacios en exceso, puntuaciones innecesarias y símbolos especiales. + - **Formato de nombre**: + - Las palabras en el nombre de la editorial se capitalizan para mantener consistencia. Por ejemplo, `"universidad de antioquia"` se convierte en `"Universidad De Antioquia"`. + - **Eliminación de información adicional**: + - Se eliminan datos entre paréntesis que indican localización o ediciones específicas. Por ejemplo, `"Alfaguara (Colombia)"` se convierte en `"Alfaguara"`. + - **Editorial no identificada**: + - Si el campo está vacío, contiene caracteres inválidos (`##`, `np.nan`), o no se puede identificar correctamente, se asigna `"Editorial no identificada"`. + +--- + +### **Archivos de Salida Actualizados** +1. **_procesado.csv**: Incluye registros con la columna de Editorial normalizada según los criterios mencionados. +2. **_descartados.csv**: Archiva los registros con editoriales no identificadas o datos incompletos. + +Esta sección sigue la misma estructura de las demás columnas, asegurando una normalización completa del catálogo bibliográfico. +--- + ### **Archivos de Salida** 1. **_procesado.csv**: Contiene los registros con datos normalizados y clasificados según los criterios mencionados. -2. **_descartados.csv**: Archiva los registros que no cumplen con los requisitos de normalización, especialmente aquellos sin biblioteca asignada o sin suficientes datos de referencia para otras columnas. \ No newline at end of file +2. **_descartados.csv**: Archiva los registros que no cumplen con los requisitos de normalización, especialmente aquellos sin biblioteca asignada o sin suficientes datos de referencia para otras columnas.