Atelier Approches numériques des langues non standardisées, Neuchâtel, 2023-09-12

Données

Outils

À télécharger

  1. DownThemAll
  2. Sublime Text
  3. LibreOffice
  4. TXM (optionnel) (IHRIM, ENS Lyon)

En ligne

  1. Échantillons des 3 corpus ci-dessous, pour les gens qui n'ont pas envie de télécharger 1Go
  2. Outil de formatage (LLF - CNRS - Univ Paris Cité)
  3. Parsing avec TreeTagger (AnaText, LIDILEM - Univ Grenoble)
  4. Parsing avec Spacy (LLF - CNRS - Univ Paris Cité)

Pense-bête

DownThemAll

Paramétrage

  1. Clic->Préférences
  2. Onglet General − When a file exists => Overwrite
  3. Onglet Network − Concurrent downloads => 1

Sublime Text

Regex pour l'extraction: