Skip to content

Latest commit

 

History

History
38 lines (20 loc) · 1.88 KB

README.md

File metadata and controls

38 lines (20 loc) · 1.88 KB

🏅 Proyecto PLN

A partir del índice de categorías de noticias del periódico digital de El País (https://elpais.com/estaticos/mapa-web/) se descargan mediante técnicas de web scraping un conjunto de noticias de distinto tipo.

Una vez realizada una extracción de casi 3 mil artículos, se aplican diferentes preprocesados y clasificadores para la realización del proyecto. Finalmente, se muestran los resultados de cada método y se determina cuál de ellos tienen mejor rendimiento para este problema seleccionando así un pre-procesado, una extracción de características y un clasificador

*Otra opción para la extracción del conjunto de datos podría haber sido usar el servicio de feeds RSS (https://servicios.elpais.com/rss/).

🗂 Orden de los documentos

Cada uno de los documentos necesarios para la realización del proyecto se encuentran en la parte superior del repositorio. En estas encontraremos 5 archivos:

  • README.md con la información necesaria.

  • Una la base de datos, articulos.csv.

  • Webscraping_Miniproyecto_PLN.ipynb, archivo para la extración del conjunto de datos.

  • Miniproyecto_PLN_final.ipynb, donde podremos encontrar la segunda parte del proyecto, donde se aplican los preprocesados, clasificadores y resultados del proyecto.

  • Carpeta "html" que contiene las dos partes del proyecto en formato html.

👫👭 Equipazo:

Este proyecto ha sido realizado por:

  • Moisés Barrios Torres
  • Cecilia Diana Albelda
  • Irina Filimonova Sevcenco
  • Elena Marrero Castellano

📄 Licencia

Este repositorio está bajo la Licencia (GNU General Public License v3.0) - mira el archivo LICENSE.md para detalles.