Adresse physique

Bureau 536 (5ème étage)
Bâtiment Olympe de Gouges
8 rue Albert Einstein
75013 Paris

Adresse postale

Case Postale 7031
5 rue Thomas Mann
F-75205 Paris Cedex 13

Email

achille.falaise@cnrs.fr

Achille Falaise

Docteur en informatique
Ingénieur d'Études CNRS
Laboratoire de Linguistique Formelle

 

SegDoc: Segmentation de documents XML

SegDoc est un logiciel de segmentation de documents XML, développé en Java. Les documents sont segmentés en blocs de texte en fonction d'une liste de balises dépendant du format (HTML et OpenDocument/ODT sont supportés), puis en phrases à l'aide de règles SRX dépendantes de la langue (le français et l'anglais sont supportés).

Architecture de SegDoc

Document ⇨ squelette + mémoire de traduction (TM)

À partir d'un document XML, il produit un squelette, c'est à dire une version du document dont les frontières de phrases sont, au choix, soit délimitées par des symboles configurables, soit remplacées par des identifiants, le texte des phrases étant alors sauvegardé dans une mémoire de traduction.

Exemple de page Web segmentée

Squelette + mémoire de traduction ⇨ document

SegDoc est aussi capable, si on lui donne un squelette dont les phrases ont été remplacées par des identifiants, ainsi que la mémoire de traduction correspondante, de replacer les phrases par leur équivalent dans la mémoire de traduction.






Version: 1.1
Auteurs: Achille Falaise, Ruslan Kalitvianski
Licence: LGPL 3