WAC3 - 2007

Web as Corpus 2007, UCLouvain, Louvain-la-Neuve, September 15-16 2007 (Belgium)

 WAC3
 o Appel à communications
 o Soumettre un papier
 o Inscription
 o Programme
 o Comité scientifique
 o Voyage & lieu de la conférence
 o Organisation locale
 o Événements associés
 o SIGWAC
 o Ateliers précédents
 o Galerie photos

 Cleaneval
 o Informations
 o Comité scientifique

 Organisation



Appel à communications

3e Atelier " Web as Corpus " (WAC3)
incluant Cleaneval
Un événement ACL-SIGWAC


Du 15 au 16 septembre 2007
Université de Louvain, Louvain-la-Neuve, Belgique

De plus en plus de personnes emploient des données provenant du web dans le cadre de leurs recherches en linguistique ou en traitement automatique des langues (TAL). Dans cette perspective, ce 3e atelier offre l'occasion de voir comment utiliser le web de façon efficace t quels sont les apports de celui-ci.

Les communications proposées devront :

  • décrire des projets de collecte de corpus provenant du web ou traiter de modules faisant partie du processus de collecte (extraction, filtrage, identification de la langue, tokenisation, lemmatisation, étiquetage morphosyntaxique, indexation, etc) ;
  • étudier les caractéristiques des données provenant du web, dans une perspective linguistique et / ou de TAL (registres de langue, domaines, distribution fréquentielle, etc.) ;
  • employer des données issues du web à des fins de TAL (en insistant plus sur les données que sur leur usage).

Cleaneval

Quiconque utilise des données provenant du web a besoin de les nettoyer afin d'écarter des éléments tels que le marquage HTML, les barres de navigation ou encore les annonces publicitaires. Jusqu'à présent, il n'y a eu aucun partage de ressources ou d'expertise dans ce domaine et le " nettoyage " a souvent été réalisé de façon rudimentaire. Cleaneval se présente comme un exercice dont le but est de promouvoir ce partage et d'augmenter notre compréhension de ces questions. Il prend la forme maintenant bien connue d'une compétition ouverte autour d'une même tâche. Plus d'informations sur Cleaneval.

Précédents ateliers WAC

Pour plus d'informations, visitez WAC1 à CL 2005.
Pour plus d'informations, visitez WAC2 à EACL 2006.

Conférencier invité : Kevin Scannell

Kevin Scannell, de l'Université de Saint-Louis (Missouri, États-Unis) a travaillé avec des experts d'un panel de petites langues afin de développer des corpus provenant du web pour ces langues : son site web recense actuellement 135 corpus / langues.

Soumission

Pour les articles WaC : les articles (6-10 pages), démos (max. 2 pages) et posters (max. 2 pages) doivent être rédigés en anglais, au format ACL. Les modèles de documents (.doc et Latex) sont disponibles sur le site web.

Lieu

L'atelier a lieu à l'Université catholique de Louvain, dans le cadre de la nouvelle ville de Louvain-la-Neuve en Belgique. De grandes salles informatiques sont mises à disposition pour les sessions de démonstrations.

Contacts

Co-présidents de l'atelier

Cédrick Fairon, UCLouvain, Cental, fairon@tedm.ucl.ac.be
Gilles-Maurice de Schryver, Universiteit Gent, gillesmaurice.deschryver@ugent.be

Comité WAC3

Marco Baroni, U. de Trente, Italie
Massimiliano Ciaramita, Italian National Research Council, Laboratory for Applied Ontology, Italie
Guy Deville, FUNDP, Belgique
Thierry Dutoit, FPMs, TCTS Lab, Belgique
Stefan Evert, U. d'Osnabrück, Institute of Cognitive Science, Allemagne
Cédrick Fairon, UCLouvain, Cental, Belgique
Nuria Gala, U. de Provence, DELIC, France
Sylviane Granger, UCLouvain, Center for English Corpus Linguistics, Belgique
Gregory Grefenstette, Commissariat à l'Énergie Atomique, France
Benoît Habert, LIMSI, France
Tony Hartley, U. de Leeds, Royaume-Uni
Adam Kilgarriff, Lexical Computing Ltd, Royaume-Uni
Christophe Lejeune, ULg, CEMAD, Belgique
Sébastien Paumier, Université de Marne-la-Vallée, France
Kevin Scannell, Université de Saint-Louis, États-Unis
Gilles-Maurice de Schryver, Universiteit Gent, Belgique
Klaus Schulz, Université de Munich, Allemagne
Jean Senellart, Systran, France
Serge Sharoff, U. de Leeds, Royaume-Uni

Comité Cleaneval

Marco Baroni, U. de Trente ; Secrétaire, SIGWAC
Tony Hartley, U. de Leeds
Adam Kilgarriff, Lexical Computing Ltd ; Président, SIGWAC
Serge Sharoff, U. de Leeds

Equipe locale d'organisation

Bernadette Dehottay, UCLouvain, Cental, dehottay@tedm.ucl.ac.be
Julia Medori, CENTAL, UCLouvain
Laurent Kevers, CENTAL, UCLouvain
Hubert Naets, CENTAL, UCLouvain
Isabelle Lecroart, CENTAL, UCLouvain
Claude Devis, CENTAL, UCLouvain

Pour nous contacter :
Bernadette Dehottay
Université catholique de Louvain
CENtre pour le Traitement Automatique du Langage (CENTAL)
Place Blaise Pascal, 1
1348 Louvain-la-Neuve
Tel. +32 10 47 37 88
Fax. +32 10 47 26 06
dehottay@tedm.ucl.ac.be

Davantage d'informations

Les informations concernant l'inscription et les frais d'inscription seront bientôt disponibles.



Dernière mise à jour :  Août 2007