Adresse physique
Adresse postale
Achille Falaise
SegDoc: Segmentation de documents XML
SegDoc est un logiciel de segmentation de documents XML, développé en Java. Les documents sont segmentés en blocs de texte en fonction d'une liste de balises dépendant du format (HTML et OpenDocument/ODT sont supportés), puis en phrases à l'aide de règles SRX dépendantes de la langue (le français et l'anglais sont supportés).
Architecture de SegDoc
Document ⇨ squelette + mémoire de traduction (TM)
À partir d'un document XML, il produit un squelette, c'est à dire une version du document dont les frontières de phrases sont, au choix, soit délimitées par des symboles configurables, soit remplacées par des identifiants, le texte des phrases étant alors sauvegardé dans une mémoire de traduction.
Exemple de page Web segmentée
Squelette + mémoire de traduction ⇨ document
SegDoc est aussi capable, si on lui donne un squelette dont les phrases ont été remplacées par des identifiants, ainsi que la mémoire de traduction correspondante, de replacer les phrases par leur équivalent dans la mémoire de traduction.