Le corpus doit être envoyé sous forme d'achive zip. Les textes doivent être en UTF-8: ce script ne corrige pas les problèmes d'encodage de caractères.

Corpus à traiter Archive: (format zip)
Options Remplacer les caractères null par des espaces.
Remplacer les caractères tabulation par des espaces.
Normaliser les retours chariot au format Linux (\n).
Normaliser les espaces (espaces insécables, espaces courtes, espaces invisibles transformés en espaces normales ASCII 32).
Normaliser les guillemets («, » et '' convertis en ").
Normaliser les apostrophes (’ et ‘ converties en ').
Normaliser les ligatures typographiques (ligatures fi, fl, ff, ffi transformées en caractères ASCII normaux).
Normaliser les espaces multiples.
Normaliser les balises fermantes (correction des balises fermantes qui contiennent des attributs).