El coronavirus tomó al mundo entero por sorpresa, cambiando la rutina diaria de todos y todas. Los habitantes de las ciudades ya no pasaban su tiempo libre fuera, yendo a cafés y centros comerciales; sino que más gente se quedaba en casa, leyendo libros. Eso atrajo la atención de las startups (empresas emergentes) que se apresuraron a desarrollar nuevas aplicaciones para los amantes de los libros. Tenemos una base de datos de uno de los servicios que compiten en este mercado. Contiene datos sobre libros, editoriales, autores y calificaciones de clientes y reseñas de libros. Esta información se utilizará para generar una propuesta de valor para un nuevo producto.
El objetivo del proyecto es utilizar la base de datos para generar información valiosa que pueda ayudar a la startup en el mercado de libros digitales a desarrollar un producto competitivo.
books
Contiene datos sobre libros:
book_id
: identificación del libroauthor_id
: identificación del autor o autoratitle
: títulonum_pages
: número de páginaspublication_date
: fecha de la publicaciónpublisher_id
: identificación de la editorial
authors
Contiene datos sobre autores:
author_id
: identificación del autor o autoraauthor
: el autor o la autora
publishers
Contiene datos sobre editoriales:
publisher_id
: identificación de la editorialpublisher
: la editorial
ratings
Contiene datos sobre las calificaciones de usuarios:
rating_id
: identificación de la calificaciónbook_id
: identificación del librousername
: el nombre del usuario que revisó el librorating
: calificación
reviews
Contiene datos sobre las reseñas de los y las clientes:
review_id
: identificación de la reseñabook_id
: identificación del librousername
: el nombre del usuario que revisó el librotext
: el texto de la reseña
- Python: pandas, sqlalchemy
- Jupyter Notebooks: para análisis interactivo.
Se realizan varias tareas mediante consultas con SQL, incluyendo la identificación del número de libros publicados después de cierto año, el cálculo de calificaciones promedio de libros, la identificación de la editorial más productiva y la búsqueda del autor con la calificación promedio más alta.
Nota: Este proyecto fue desarrollado como parte de mi formación en el bootcamp de Tripleten en el área de análisis de datos.