.:: TALN - 2006

Traitement Automatique des Langues Naturelles : du 10 au 13 avril 2006 à Leuven (Belgique)

Informations

o LES ACTES SONT DISPONIBLES
o Photos de la conférence
o Appel d'urgence
o Programme
o Inscription
o Voyage & lieu de la conférence
o Logement
o Posters & présentations
o Leuven en photos

TALN & RECITAL

o Appel à com. (TALN)
o Appel à com. (Recital)
o Comité de programme
o Comité scientifique (TALN)
o Comité scientifique (Recital)
o Comité d'organisation local
o Soumettre un papier
o Feuilles de styles

Ateliers

o TAL & ALAO (appel à com.)
o Technolangue
o MulLexSem (annulé)

Tutoriel

o Analogie en traitement automatique des langues. Application a la traduction automatique (Yves Lepage)

Organisation

ATELIER TALN 2006

Atelier Les Ressources dans le traitement de la langue écrite : L'apport de Technolangue et les enjeux industriels

Jeudi 13 avril, Louvain, Belgique

Cet atelier est consacré aux ressources de la langue écrite, dans le cadre du Traitement automatique des langues.

Il s'agira tout d'abord de faire le point sur l'apport de l'appel à proposition Technolangue consacré aux ressources écrites.
On abordera aussi la question du partage des ressources et de la propriété intellectuelle, avec une information sur la création prochaine par le CNRS d'un réseau de centres de ressources numériques dans les domaines des ressources linguistiques.

La journée sera divisée en trois temps :
1. Une présentation des résultats de Technolangue (ressources écrites) projet par projet.
2. Une information sur les centres de ressources numériques.
3. Une table ronde sur la question de la production des ressources dans un contexte industriel.

Le programme Technolangue

Le programme Technolangue est une action interministérielle (recherche, industrie et culture) qui a pour but de doter la communauté du traitement de la langue d'outils de bases largement diffusables pour la recherche et la création de produits dans le domaine des industries de la langue. Cela concerne aussi bien le langage écrit que la parole. Ce programme comportait cinq volets (voir le site Technolangue pour plus d'informations).
Le premier volet du programme porte sur la création de ressources linguistiques (dictionnaires mono et multilingues, bases terminologiques, corpus annotés, grammaires). Le point important du programme est que ces ressources doivent être disponibles soit gratuitement soit dans des conditions de coût compatibles, en particulier, avec un usage par des laboratoires de recherche.

L'appel d'offre a été publié le 15 avril 2002 avec une remise des offres pour le 10 juin. La sélection finale a eu lieu le 5 septembre 2002. Les choix ont été faits par un Comité de pilotage présidé par Christian Fluhr et comprenant 14 participants. 52 projets ont été présentés, 28 ont été sélectionnés, 11 concernaient les ressources. Les partenaires des projets se répartissent en 33 industriels, 39 laboratoires de recherche publique, 11 autres types (association EPIC, etc.) et 11 organismes étrangers, ces derniers ont participé aux projets sur leur propre financement.

Présentation des résultats de Technolangue

La journée commencera par une présentation des résultats de l'appel à proposition "Technolangue-Ressources".
Les projets impliqués par ce volet sont :

AGILE, avec les sous-projets :
- TILT : Ce projet avait pour objectif de constituer un corpus du français technique utilisé dans les normes et d'aligner ce corpus sur son équivalent anglais. TILT visait ainsi à étendre les travaux effectués par l'ATILF sur le français littéraire et à constituer ainsi une brique linguistique de base pour permettre à la fois le développement futur d'applications à forte valeur ajoutée (services d'informations multilingues, nouveaux modes d'accès à l'information normative adapté aux PME, aide à la traduction, etc.) et des recherches en linguistique sur le français technique. Le projet a été réalisé sur la base d'un ensemble de 1 000 normes fournies par l'AFNOR en français et en anglais représentant environ 35 000 pages de texte utilisant un vocabulaire technique très précis et couvrant l'ensemble des technologies et pratiques de l'industrie. Le corpus a été balisé à 3 niveaux (structurel, morphosyntaxique et sémantique). La validation a été effectuée indépendamment par des linguistes de l'ATILF et des spécialistes des normes de l'AFNOR.
- OURAL : Les résultats de ce projet dans le domaine des ressources sont des corpus annotés (un corpus écrit de 200 articles du journal Le Monde et un corpus oral dentretiens transcrits). Par ailleurs, un lexique de 130 000 entrées représentant lusage de la langue française a également été produit, enrichissant ainsi les bases lexicales Brulex et Matlex déjà disponibles.
- WATSON : Ce projet a abouti notamment à la réalisation de deux modules qui permettent de constituer très rapidement des ressources écrites avec une pertinence très haute ( un extracteur de terminologie et un extracteur d'entités nommées).
DICTIONNAIRE, avec les sous-projets :
- EURADIC : Il s'agissait d'une part de produire des dictionnaires bilingues de grande ouverture pour les couples : français-anglais, français-allemand, français-espagnol, français-italien et français-arabe. Et, d'autre part, des dictionnaires monolingues de formes permettant, à partir dune forme fléchie, dobtenir sans analyse morphologique la partie du discours, des propriétés comme le genre, nombre, temps, personnes et le lemme correspondant.
- ATONANT : L'objectif était de prototyper des outils d'aide à l'enrichissement semi-automatique d'ontologies, qui pourraient être à terme, intégrer au sein d'une plate-forme modulaire un ensemble de systèmes d'extraction et de fouille de textes associé à des fonction d'exploration de ces données lexicales puis de modélisation et de structuration conceptuelle.
- NOMSPROPRES : Ce projet a pour but ultime de réaliser une plate-forme technologique pour le traitement automatique des noms propres. Et, tout d'abord, un dictionnaire relationnel multilingue de noms propres, basé sur la définition d'une ontologie, Prolexbase. Cette ontologie est divisée en deux parties (commune aux langues traitées et particulière à une langue donnée). La partie commune aux langues traitées sorganise autour dun concept que nous appellerons nom propre conceptuel ou pivot, correspondant à un certain point de vue sur le référent linguistique dun nom propre. La partie particulière à une langue donnée reflète les différents mécanismes morphologiques, dérivationnels et les variations sur les noms propres dans les différentes langues. Actuellement, Prolexbase comprend plus de 119 000 instances pour le français.
- LEXITEC : Il s'agissait de produire de dictionnaires bilingues spécialisés avec lobjectif de permettre doptimiser la qualité de traduction de textes spécialisés dans le cadre de la traduction automatique et de répondre à un besoin daccès à des ressources de référence validées par des experts des domaines suivants : aéronautique, automobile, économie et affaires, énergie et environnement, mécanique et expressions idiomatiques de la langue générale. Les couples de langue considérés sont : français-anglais et anglais-français, français-allemand et allemand-français, français-espagnol et espagnol-français.
CARMEL : Ce projet a permis de créer des corpus textuels multilingues alignés, avec, en outre, la réalisation d'outils dalignement et de manipulation du corpus. Le corpus compte 36 ouvrages originaux sur le thème des récits de voyages, avec plus de 10 millions de mots numérisés (15 textes en quatre langues -anglais, français, espagnol, italien- 6 textes en trois langues -avec des combinaisons différentes entre ces langues- et 15 textes en deux langues -majoritairement français/anglais-).

Nous donnerons la parole à Stéphane Chaudiron, en tant que coordinateur de l'ensemble de l'appel d'offre, et à une présentation par sous-projet.

Sans ressources linguistiques propres, la langue française devra nécessairement passer par l'anglais pour maîtriser l'information véhiculée par d'autres langues. L'effort doit donc être poursuivi.

Les centres de ressources numériques

En guise de transition entre les résultats déjà obtenus dans le cadre de technolangue et la discussion de la table ronde, qui permettra d'étudier les modes possibles de pérennisation des ressources produites, Laurent Romary ou Gérard Sabah présentera le dispositif de centres de ressources numériques que met en place le CNRS, associé à plusieurs établissements partenaires.
Ce dispositif vise à favoriser la création, la gestion et la diffusion de ressources numériques.

Table ronde industrielle

Cette table ronde sera animée par Claude de Loupy, Malek Boualem et Christian Fluhr.
Plusieurs questions seront évoquées, comme, par exemple :

Pourquoi les industriels redéveloppent-ils aussi souvent leurs propres ressources et outils alors qu'il en existe qui sont vendues, voire gratuites ?
- Que faut-il faire pour éviter cela ?
- Quelle est la place des industriels dans des appels comme Technolangue pour lesquels ce qui est produit doit être mis à disposition des utilisateurs de manière gratuite ou peu chère ?
- Quel est le business plan qui doit être mis en place derrière ?
- Quel est le retour sur investissement ?
Quelles sont les problèmes de propriété intellectuelle qui se posent ?
Où en est-on en matière de normalisation dans le domaine des ressources?
- Quelles solutions apporterait la normalisation ?
Que penser de la Toile comme source de ressources linguistiques ?
- L'utilisation du Web comme base d'exemples, pour différentes tâches liées au traitement automatique du langage, est une idée exploitée depuis peu.
- Cette question fera sans doute référence aux interventions lors de la journée de l'Atala sur ce sujet.

Organisateurs de l'atelier

Denis Maurel
Stéphane Chaudiron
Claude de Loupy
Christian Fluhr
Malek Boualem

Comité scientifique

Malek Boualem, France Telecom
Sylvie Brunessaux, EADS Defence and Security Systems SA
Stéphane Chaudiron, Ministère chargé de la Recherche
Khalid Choukri ELRA/ELDA
Christian Fluhr, CEA
Claude de Loupy, Université Paris 10
Jacques Mathieu, Ministère chargé de l'Industrie
Denis Maurel, Université François-Rabelais de Tours, Laboratoire d'informatique
Laurent Romary, Directeur de l'information scientifique du CNRS
Gérard Sabah, Directeur de recherche, LIMSI-CNRS

Contacts

Pour la présentation : Stéphane Chaudiron et Denis Maurel

Pour la table ronde : Claude de Loupy

Dernière mise à jour : Février 2006