Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Erreur (sans message) si mauvais encodage fichier #34

Closed
AurelienC opened this issue Jul 3, 2023 · 9 comments · Fixed by #35
Closed

Erreur (sans message) si mauvais encodage fichier #34

AurelienC opened this issue Jul 3, 2023 · 9 comments · Fixed by #35
Labels
bug Something isn't working

Comments

@AurelienC
Copy link
Contributor

Lorsqu'un utilisateur charge un fichier CSV avec un mauvais encodage (dans le cas rencontré, encodage ISO-8859-1 au lieu de UTF-8), l'utilisateur ne voit aucun message d'erreur et ne peut pas passer à l'étape suivante. Il y a cependant un message dans la console du navigateur. (fichier export_covoit_eure.csv)
export_covoit_eure.csv
image

Si le fichier est converti en UTF-8, l'outil fonctionne correctement. (fichier : export_covoit_eure_utf8.csv)
export_covoit_eure_utf8.csv
image

Le validateur schema.data.gouv.fr arrive, quant à lui, à lire le fichier encodé en ISO-8859-1.
image

@AurelienC AurelienC added the bug Something isn't working label Jul 3, 2023
@AntoineAugusti AntoineAugusti transferred this issue from etalab/transport-base-nationale-covoiturage Jul 3, 2023
@AntoineAugusti
Copy link
Member

AntoineAugusti commented Jul 3, 2023

@AurelienC Normalement un ancien commit gérait ce cas eed4ca3 😢

@AntoineAugusti
Copy link
Member

On a besoin d'avoir aadsm/jschardet#75 et aadsm/jschardet#87 dans une dépendance

@AntoineAugusti
Copy link
Member

@AurelienC Penses-tu que l'on doive accepter des contributions où l'encodage n'est pas UTF-8 ? Ça pourrait poser des problèmes

@AurelienC
Copy link
Contributor Author

@AntoineAugusti Cela me semble correct de n'accepter que l'encodage UTF-8 et d'éviter d'avoir une BNLC une fois en UTF-8, une fois en ISO-8859-1, etc.

@AurelienC
Copy link
Contributor Author

Un autre fichier provoque la même erreur dans l'outil Contribuer. Il semble bien au format UTF-8, mais l'outil schema.data.gouv.fr affiche une erreur lors de la lecture en UTF-8.
image

Si le fichier est ouvert en UTF-8, non modifié et enregistré en UTF-8 avec LibreOffice Calc, cette fois-ci, plus d'erreurs. Je suis en attente du logiciel utilisé par le contributeur.

Serait-il possible d'ajouter une sorte de try/catch qui englobe l'ensemble pour afficher une erreur à l'utilisateur systématiquement @AntoineAugusti ?

Le fichier BNLC.csv
BNLC.csv

@AntoineAugusti
Copy link
Member

@AurelienC Ça te conviendrait ?
image

@AurelienC
Copy link
Contributor Author

Oui, très bien, merci @AntoineAugusti !

@thbar
Copy link

thbar commented Jul 10, 2023

Un autre fichier provoque la même erreur dans l'outil Contribuer. Il semble bien au format UTF-8, mais l'outil schema.data.gouv.fr affiche une erreur lors de la lecture en UTF-8.

Hello @AurelienC!

Je suis en train de tester la PR d'Antoine et je note ceci:

Concernant le fichier qui est linké dans #34 (comment), il y a bien des caractères "non UTF-8" dedans vers la fin (voir le E9 qui correspond à un e accent en ISO-8859-1 https://cs.stanford.edu/people/miles/iso8859.html).

❯ cat original.csv| grep "62160-C-001" | xxd
00000000: 3632 3136 302d 432d 3030 313b 3b41 6972  62160-C-001;;Air
00000010: 6520 6465 2063 6f76 6f69 7475 7261 6765  e de covoiturage
00000020: 2064 6520 6361 70e9 6375 7265 3b53 6974   de cap.cure;Sit
00000030: 6520 6465 2063 6170 e963 7572 653b 424f  e de cap.cure;BO
00000040: 554c 4f47 4e45 2d53 5552 2d4d 4552 3b36  ULOGNE-SUR-MER;6
00000050: 3231 3630 3b50 2b52 3b32 3032 332d 362d  2160;P+R;2023-6-
00000060: 3236 3b74 7275 653b 3234 3632 3030 3732  26;true;24620072
00000070: 393b 312e 3539 3637 3836 3b35 302e 3731  9;1.596786;50.71
00000080: 3831 3037 3b34 343b 303b 3b32 3448 3b43  8107;44;0;;24H;C
00000090: 6f6d 6d75 6e61 7574 e920 6427 6167 676c  ommunaut. d'aggl
000000a0: 6f6d e972 6174 696f 6e20 6475 2042 6f75  om.ration du Bou
000000b0: 6c6f 6e6e 6169 733b 7472 7565 3b0d 0a    lonnais;true;..

Même en le passant dans LibreOffice et en sauvant je crois que ça reste en place (en tout cas sur un test ici!) donc il faudra s'assurer que ça ne pollue pas la base!

On peut en reparler et vérifier que tout est d'équerre sur la dernière version de la donnée proposée.

@thbar thbar closed this as completed in #35 Jul 10, 2023
@thbar
Copy link

thbar commented Jul 10, 2023

@AurelienC @AntoineAugusti c'est en cours de déploiement !

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

Successfully merging a pull request may close this issue.

3 participants