Adresse physique

Bureau 536 (5ème étage)
Bâtiment Olympe de Gouges
8 rue Albert Einstein
75013 Paris

Adresse postale

Case Postale 7031
5 rue Thomas Mann
F-75205 Paris Cedex 13

Email

achille.falaise@cnrs.fr

Achille Falaise

Docteur en informatique
Ingénieur d'Études CNRS
Laboratoire de Linguistique Formelle

 

Logiciels

2009-2025 − ScienQuest

Plateforme de consultation de corpus arborés.
Source et documentation Visiter

2023-2025 − Corpus Pipeline

Chaîne de traitement pour l'analyse en dépendances de corpus XML.
Source et documentation

2024-2025 − Chacalope

Outil pour la recherche en corpus XML annoté en dépendances, permettant d'effectuer des recherches multicritères, pouvant porter en même temps sur:
  • le XML,
  • des séquences de tokens (avec le Corpus Workbench et le langage CQL)
  • des arbres de dépendances (avec Grew Match)
Source et documentation

2023 − Corpus Cleaner

Ce service normalise la typographie d'un corpus (espaces, guillemets, apostrophes, ligatures typographiques...), pour la faire correspondre à ce que la plupart des outils attendent en entrée.
Visiter

2018-2022 − Projet Presto

Suite d'outils pour le traitement du français classique.
Source et documentation

Ressources linguistiques

2024-2025 − Corpus COMERE parsés

Corpus issus de la base COMERE, analysés avec SpaCy/Stanza (projet Corpus Pipeline), prêts à l'emploi aux formats CONLL, CWB et TXM (un seul corpus pour l'instant).
Plus d'infos sur les corpus cmr-intermittent

2025 − Corpus Open Subtitles parsés

Corpus issus de la base OpenSubtitles, analysés avec SpaCy/Stanza (projet Corpus Pipeline), prêts à l'emploi aux formats CONLL et CWB. Les corpus ne sont pas coomplets, ils sont échantillonnés (tirage aléatoire des films).
Plus d'infos sur les corpus Anglais (139338 films, 947M tokens) Chinois (5810 films, 42M tokens) Espagnol (16540 films, 112M tokens) Français (19804 films, 134M tokens) Roumain (13315 films, 88M tokens)

2022 − Modèle Presto

Modèle de langage TreeTagger du projet Presto pour l'analyse du français classique et pré-classique.
Télécharger

2016-2022 − Dicorpus

Dictionnaire sur corpus pour le FLE.
Démo

2004/2014 − Corpus du français tchaté

Corpus de tchat IRC (23M de mots) que j'ai collecté en 2004, puis normalisé en TEI et intégré à la collection CoMeRe en 2014.
Documentation et téléchargement

2006 − SurviTra

Livre de "phrases à trous" anglais/français/hindi.
Consulter Éditer Mode d'emploi