Le corpus doit être envoyé sous forme d'achive zip. Les textes doivent être en UTF-8: ce script ne corrige pas les problèmes d'encodage de caractères.
Corpus à traiter
Archive:
(format zip)
Options
Remplacer les caractères
null
par des espaces.
Remplacer les caractères
tabulation
par des espaces.
Normaliser les retours chariot au format Linux (\n).
Normaliser les espaces (espaces insécables, espaces courtes, espaces invisibles transformés en espaces normales ASCII 32).
Normaliser les guillemets («, » et '' convertis en ").
Normaliser les apostrophes (’ et ‘ converties en ').
Normaliser les ligatures typographiques (ligatures fi, fl, ff, ffi transformées en caractères ASCII normaux).
Normaliser les espaces multiples.
Normaliser les balises fermantes (correction des balises fermantes qui contiennent des attributs).