ATELIER TALN 2006
Atelier Les Ressources dans le traitement de la langue écrite :
L'apport de Technolangue et les enjeux industriels
Jeudi 13 avril, Louvain, Belgique
Cet atelier est consacré aux ressources de la langue écrite,
dans le cadre du Traitement automatique des langues.
Il s'agira tout d'abord de faire le point sur l'apport de l'appel à proposition Technolangue
consacré aux ressources écrites.
On abordera aussi la question du partage des ressources et de la propriété intellectuelle,
avec une information sur la création prochaine par le CNRS
d'un réseau de centres de ressources numériques dans les domaines des ressources linguistiques.
La journée sera divisée en trois temps :
1. Une présentation des résultats de Technolangue (ressources écrites) projet par projet.
2. Une information sur les centres de ressources numériques.
3. Une table ronde sur la question de la production des ressources dans un contexte industriel.
Le programme Technolangue
Le programme Technolangue est une action interministérielle (recherche, industrie et culture)
qui a pour but de doter la communauté du traitement de la langue d'outils de bases largement diffusables pour la recherche
et la création de produits dans le domaine des industries de la langue.
Cela concerne aussi bien le langage écrit que la parole. Ce programme comportait cinq volets
(voir le site Technolangue
pour plus d'informations).
Le premier volet du programme porte sur la création de ressources linguistiques
(dictionnaires mono et multilingues, bases terminologiques, corpus annotés, grammaires).
Le point important du programme est que ces ressources doivent être disponibles soit gratuitement
soit dans des conditions de coût compatibles, en particulier, avec un usage par des laboratoires de recherche.
L'appel d'offre a été publié le 15 avril 2002 avec une remise des offres pour le 10 juin. La sélection
finale a eu lieu le 5 septembre 2002. Les choix ont été faits par un Comité de pilotage présidé par
Christian Fluhr et comprenant 14 participants. 52 projets ont été présentés, 28 ont été sélectionnés,
11 concernaient les ressources. Les partenaires des projets se répartissent en 33 industriels,
39 laboratoires de recherche publique, 11 autres types (association EPIC, etc.)
et 11 organismes étrangers, ces derniers ont participé aux projets sur leur propre financement.
Présentation des résultats de Technolangue
La journée commencera par une présentation des résultats de l'appel à
proposition "Technolangue-Ressources".
Les projets impliqués par ce volet sont :
- AGILE, avec les sous-projets :
-
TILT :
Ce projet avait pour objectif de constituer un corpus du français technique
utilisé dans les normes et d'aligner ce corpus sur son équivalent anglais.
TILT visait ainsi à étendre les travaux effectués par l'ATILF sur le français littéraire et
à constituer ainsi une brique linguistique de base pour permettre à la fois le développement
futur d'applications à forte valeur ajoutée (services d'informations multilingues, nouveaux
modes d'accès à l'information normative adapté aux PME, aide à la traduction, etc.)
et des recherches en linguistique sur le français technique. Le projet a été réalisé sur la
base d'un ensemble de 1 000 normes fournies par l'AFNOR en français et en anglais
représentant environ 35 000 pages de texte utilisant un vocabulaire technique très précis
et couvrant l'ensemble des technologies et pratiques de l'industrie. Le corpus a été balisé
à 3 niveaux (structurel, morphosyntaxique et sémantique). La validation a été effectuée
indépendamment par des linguistes de l'ATILF et des spécialistes des normes de l'AFNOR.
-
OURAL :
Les résultats de ce projet dans le domaine des ressources sont des corpus
annotés (un corpus écrit de 200 articles du journal Le Monde et un corpus oral dentretiens
transcrits). Par ailleurs, un lexique de 130 000 entrées représentant lusage de la langue
française a également été produit, enrichissant ainsi les bases lexicales Brulex et Matlex
déjà disponibles.
-
WATSON :
Ce projet a abouti notamment à la réalisation de deux modules qui permettent
de constituer très rapidement des ressources écrites avec une pertinence très haute (
un extracteur de terminologie et un extracteur d'entités nommées).
- DICTIONNAIRE, avec les sous-projets :
- EURADIC : Il s'agissait d'une part de produire des dictionnaires bilingues de grande ouverture pour les couples : français-anglais, français-allemand, français-espagnol,
français-italien et français-arabe. Et, d'autre part, des dictionnaires monolingues de
formes permettant, à partir dune forme fléchie, dobtenir sans analyse morphologique la
partie du discours, des propriétés comme le genre, nombre, temps, personnes et
le lemme correspondant.
- ATONANT : L'objectif était de prototyper des outils d'aide à
l'enrichissement semi-automatique d'ontologies, qui pourraient être à terme, intégrer
au sein d'une plate-forme modulaire un ensemble de systèmes d'extraction et de fouille de
textes associé à des fonction d'exploration de ces données lexicales puis de modélisation
et de structuration conceptuelle.
-
NOMSPROPRES :
Ce projet a pour but ultime de réaliser une plate-forme technologique
pour le traitement automatique des noms propres. Et, tout d'abord, un dictionnaire
relationnel multilingue de noms propres, basé sur la définition d'une ontologie,
Prolexbase.
Cette ontologie est divisée en deux parties (commune aux langues traitées et
particulière à une langue donnée). La partie commune aux langues traitées sorganise
autour dun concept que nous appellerons nom propre conceptuel ou pivot, correspondant
à un certain point de vue sur le référent linguistique dun nom propre. La
partie particulière à une langue donnée reflète les différents mécanismes morphologiques,
dérivationnels et les variations sur les noms propres dans les différentes langues.
Actuellement, Prolexbase comprend plus de 119 000 instances pour le français.
- LEXITEC : Il s'agissait de produire de dictionnaires bilingues spécialisés avec
lobjectif de permettre doptimiser la qualité de traduction de textes spécialisés dans le
cadre de la traduction automatique et de répondre à un besoin daccès à des ressources de
référence validées par des experts des domaines suivants : aéronautique, automobile,
économie et affaires, énergie et environnement, mécanique et expressions idiomatiques de la
langue générale. Les couples de langue considérés sont : français-anglais et
anglais-français, français-allemand et allemand-français, français-espagnol et
espagnol-français.
-
CARMEL :
Ce projet a permis de créer des corpus textuels multilingues alignés, avec, en outre,
la réalisation d'outils dalignement et de manipulation du corpus. Le corpus compte 36 ouvrages originaux
sur le thème des récits de voyages, avec plus de 10 millions de mots numérisés (15 textes en quatre langues
-anglais, français, espagnol, italien- 6 textes en trois langues -avec des combinaisons différentes entre
ces langues- et 15 textes en deux langues -majoritairement français/anglais-).
Nous donnerons la parole à Stéphane Chaudiron, en tant que coordinateur de l'ensemble de l'appel d'offre,
et à une présentation par sous-projet.
Sans ressources linguistiques propres, la langue française devra nécessairement
passer par l'anglais pour maîtriser l'information véhiculée par d'autres langues.
L'effort doit donc être poursuivi.
Les centres de ressources numériques
En guise de transition entre les résultats déjà obtenus dans le cadre de technolangue
et la discussion de la table ronde, qui permettra d'étudier les modes possibles de pérennisation
des ressources produites, Laurent Romary ou Gérard Sabah présentera le dispositif de
centres de ressources numériques que met en place le CNRS, associé à
plusieurs établissements partenaires.
Ce dispositif vise à favoriser la création, la gestion et la diffusion de ressources numériques.
Table ronde industrielle
Cette table ronde sera animée par Claude de Loupy, Malek Boualem et Christian Fluhr.
Plusieurs questions seront évoquées, comme, par exemple :
- Pourquoi les industriels redéveloppent-ils aussi souvent leurs propres ressources et outils
alors qu'il en existe qui sont vendues, voire gratuites ?
- Que faut-il faire pour éviter cela ?
- Quelle est la place des industriels dans des appels comme Technolangue pour lesquels
ce qui est produit doit être mis à disposition des utilisateurs de manière gratuite ou peu chère ?
- Quel est le business plan qui doit être mis en place derrière ?
- Quel est le retour sur investissement ?
- Quelles sont les problèmes de propriété intellectuelle qui se posent ?
- Où en est-on en matière de normalisation dans le domaine des ressources?
- Quelles solutions apporterait la normalisation ?
- Que penser de la Toile comme source de ressources linguistiques ?
- L'utilisation du Web comme base d'exemples, pour différentes tâches liées
au traitement automatique du langage, est une idée exploitée depuis peu.
- Cette question fera sans doute référence aux interventions lors de la
journée de l'Atala
sur ce sujet.
Organisateurs de l'atelier
Denis Maurel
Stéphane Chaudiron
Claude de Loupy
Christian Fluhr
Malek Boualem
Comité scientifique
Malek Boualem, France Telecom
Sylvie Brunessaux, EADS Defence and Security Systems SA
Stéphane Chaudiron, Ministère chargé de la Recherche
Khalid Choukri ELRA/ELDA
Christian Fluhr, CEA
Claude de Loupy, Université Paris 10
Jacques Mathieu, Ministère chargé de l'Industrie
Denis Maurel, Université François-Rabelais de Tours, Laboratoire d'informatique
Laurent Romary, Directeur de l'information scientifique du CNRS
Gérard Sabah, Directeur de recherche, LIMSI-CNRS
Contacts
Pour la présentation :
Stéphane Chaudiron
et Denis Maurel
Pour la table ronde :
Claude de Loupy
|