Al crear el dataset fue nesesario agregar pading para convertir los documentos a tamaños similares sin empbargo aplicamos una mascara para que el modelo no aprenda de este ruido
Cosas a corregir:
- Al tokenizar los archivos, asegurarnos de estar ommitiendo los comentarios