Adresse physique
Adresse postale

Achille Falaise
Docteur en informatique
Ingénieur d'Études CNRS


Logiciels
2023-2025 − Corpus Pipeline
Chaîne de traitement pour l'analyse en dépendances de corpus XML.
2024-2025 − Chacalope
Outil pour la recherche en corpus XML annoté en dépendances, permettant d'effectuer des recherches multicritères, pouvant porter en même temps sur:
- le XML,
- des séquences de tokens (avec le Corpus Workbench et le langage CQL)
- des arbres de dépendances (avec Grew Match)
2023 − Corpus Cleaner
Ce service normalise la typographie d'un corpus (espaces, guillemets, apostrophes, ligatures typographiques...), pour la faire correspondre à ce que la plupart des outils attendent en entrée.
2018-2022 − Projet Presto
Suite d'outils pour le traitement du français classique.
Ressources linguistiques
2024-2025 − Corpus COMERE parsés
Corpus issus de la base COMERE, analysés avec SpaCy/Stanza (projet Corpus Pipeline), prêts à l'emploi aux formats CONLL, CWB et TXM (un seul corpus pour l'instant).
2025 − Corpus Open Subtitles parsés
Corpus issus de la base OpenSubtitles, analysés avec SpaCy/Stanza (projet Corpus Pipeline), prêts à l'emploi aux formats CONLL et CWB. Les corpus ne sont pas coomplets, ils sont échantillonnés (tirage aléatoire des films).
2022 − Modèle Presto
Modèle de langage TreeTagger du projet Presto pour l'analyse du français classique et pré-classique.
2004/2014 − Corpus du français tchaté
Corpus de tchat IRC (23M de mots) que j'ai collecté en 2004, puis normalisé en TEI et intégré à la collection CoMeRe en 2014.