Implementación de Red de Correlaciones Basada en Similaridad de Coseno para Análisis de Tópicos #5
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
Pull Request: Implementación de Red de Correlaciones Basada en Similaridad de Coseno para Análisis de Tópicos
Issue relacionado: #4 Calcular red de correlaciones de tópicos
¿Qué hace este PR?
Este Pull Request introduce una nueva función para construir una red de correlaciones entre temas en base a la similitud de coseno, abordando la pérdida de información mencionada en el Issue #4 al calcular únicamente el tema general. La red de correlaciones permite una representación más detallada y conectada de la composición temática de una colección bibliográfica.
¿Cómo se implementa la solución?
Comando CLI para análisis de red:
analizar_red
que toma un archivo de entrada con temas ya procesados y genera un archivo GraphML que contiene la red de correlaciones entre temas.Función
construir_red
enmodelamiento_topicos.py
:Exportación en formato GraphML:
exportar_graphml
, que guarda el grafo en formato GraphML, permitiendo su posterior visualización y análisis en software de redes.¿Por qué es necesaria esta implementación?
La construcción de una red de correlaciones temáticas basada en la similitud de coseno mejora significativamente el análisis de datos bibliográficos. A diferencia de la asignación de un tema general, esta representación permite:
Esta implementación permite superar la limitación de la asignación de temas únicos, brindando una representación más rica y detallada de los datos.
Cambios realizados
bibloclean/cli.py
:analizar_red
agregado al CLI, con opciones de umbral de similitud, modelo de embeddings, y ruta de salida para el archivo generado.bibloclean/modelamiento_topicos.py
:construir_red
yexportar_graphml
para generar la red de temas y exportarla.Pruebas y validación
analizar_red
fue probado con varios umbrales de similitud y diferentes modelos de embeddings para validar la generación adecuada de la red de temas y verificar la precisión en la asignación de conexiones temáticas. La salida en formato GraphML fue validada en software de análisis de redes para confirmar que los nodos y conexiones representaban la estructura temática esperada.Ejecución de la funcionalidad: