Title
Automatic structuring of raw texts for clustering and categorization
Abstract
The main goal of the Stratego project consists in the development of tools to improve information retrieval through large scale textual databases.
More precisely, this project focus on:
- automatic structuring of raw documents (e.g. digitalized documents) into XML documents compliant with a DTD or a XML schema,
- automatic classification of documents in predefined categories, and
- semi-automatic thesauri generation using specialized corpus (e.g. law texts).
Several research teams are involved in this project:
- CENTAL (UCL) (Centre for Natural Language Processing),
- IRIDIA (ULB) (Artificial Intelligence research laboratory of the Université Libre de Bruxelles),
- ISYS (UCL) (Information Systems Unit) et
- SIC (ULB) (Information and Communication Sciences Department)
Publications
- Kevers Laurent, Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles., Phd in Linguistics (Langues et lettres), Université catholique de Louvain, 31-01-2011.
- Kevers Laurent and Medori Julia, Symbolic classification methods for patient discharge summaries encoding into ICD, In: Advances in Natural Language Processing, 7th International Conference on NLP, IceTAL 2010, Reykjavik, August 16-18, 2010, Lecture Notes in Artificial Intelligence, 2010, p. 197-208
- Kevers Laurent, Mantrach Amin, Fairon Cédrick, Bersini Hugues and Saerens Marco, Classification supervisée hybride par motifs lexicaux étendus et classificateurs SVM, 10èmes Journées internationales d'analyse des données textuelles (JADT), Rome, 9 - 11 juin 2010.
- Kevers Laurent, Indexation semi-automatique de textes : thésaurus et transducteurs, In: Actes de la Sixième Conférence Francophone en Recherche d'Information et Applications, Presqu'Île de Giens, 2009, p. 151-167
|
Wist 2
Duration
- 36 months.
- Start : octobre 2007.
Researchers
Advisor
Industrial partner
|