Thomas François

Post-doct Researcher at CENTAL (UCLouvain)

Natural Language Processing

  

Welcome to my homepage. I am Thomas, a post-doc researcher in Computational Linguistics. My work focuses on readability and text simplification, mostly for readers in a foreign language. I am currently working at CENTAL.

Previously, I spent a one-year research stay at IRCS (University of Pennsylvania) as a B.A.E.F. and Fulbright Fellow.

I have completed my Ph.D. Thesis at the Centre for Natural Language Processing (CENTAL, UCL), which focused on the readability of French as a foreign language (FFL). A brief description of my Ph.D. project can be found on this page.

Tools and resources

Here will be listed some external links to resources or tools developped during the different research project I carried on.

- a up-to-date bibliography about the readability studies, selected from my PhD. thesis bibliography.

- AMesure, an on-line readability formula for French administrative texts.

Specialities

  • Psycholinguistics: reading in a first and second language
  • Readability in L1 and L2
  • Data Mining: classification techniques (linear and logistic regression, KNN, decision trees, boosting, bagging, random forests, SVM...), clustering...
  • Computational Linguistics: language modeling, finite-state automata, tagging and syntactic parsing
  • Statistics: descriptive and inferential statistics
  • French as a foreign language (FFL): teaching and didactics
  • Programming languages: Python, R, Java, Perl, HTML, PHP, Javascript, SQL

Education

  • [2007 - 2011]

  • PhD, Computational Linguistics
    UCL, Louvain-la-Neuve, Belgium

  • [2005 - 2007]

  • M.A. (Master, 1st year), Computational Linguistics (Summa cum laude)
    UCL, Louvain-la-Neuve, Belgium

  • [2005 - 2006]

  • M.Res. (DES), French as a Second Language (Magna cum laude)
    UCL, Louvain-la-Neuve, Belgium

  • [2002 - 2005]

  • M.A. (Master), Romance Philology (Magna cum laude),
    UCL, Louvain-la-Neuve, Belgium

  • [2002 - 2004]

  • B.A. (DEC), English Philology (Cum laude)
    UCL, Louvain-la-Neuve, Belgium

  • [2000 - 2002]

  • B.A. (Bach), Romance Philology (Cum laude)
    UCL, Louvain-la-Neuve, Belgium

    Publications

    Journal papers

  • [2013]

  • François, T. et Fairon, C. Les apports du TAL à la lisibilité du français langue étrangère. In Traitement Automatique des Langues (TAL), vol. 54(1): 171-202.

  • [2011]

  • François T., La lisibilité computationnelle : un renouveau pour la lisibilité du français langue première et seconde ? In International Journal of Applied Linguistics (ITL), vol. 160, 75-99.

  • [2011]

  • Cougnon L.-A. et François T., Étudier l’écrit SMS. Un objectif du projet sms4science In Stähli, A. and Dürscheid, C. and Béguelin, M.-J. (eds.). La communication par SMS en Suisse. Usages et variétés linguistiques (Linguistik Online) .

  • [2006]

  • Thonet A., Romain F., Rivera, J.-D. et François T., Des possibilités de l'enseignement du FLE en Syrie, août 2005 : compte rendu didactique, In Français 2000, 201-202 : 177-181.

    Proceedings in International Conference Peer-reviewed

  • [2014]

  • Gala, N. et François, T. et Bernhard, D. et Fairon, C. Un modèle pour prédire la complexité lexicale et graduer les mots In Actes de la 21e Conférence sur le Traitement automatique des Langues Naturelles (TALN 2014), Marseille (à paraître).

  • [2014]

  • Brouwers, L. et Bernhard, D. et Ligozat, A.-L. et François, T. Syntactic Sentence Simplification for French In the 3rd International Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR 2014). Gothenburg, Sweden, 27 April.

  • [2014]

  • François, T., Gala, N., Watrin, P. et Fairon, C. FLELex: a graded lexical resource for French foreign learners In the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavik, Iceland, 26-31 May.

  • [2014]

  • Pho, V.-M., André, T., Ligozat, A.L., Grau, B., Illouz, G. et François, T. Multiple Choice Question Corpus Analysis for Distractor Characterization In the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavik, Iceland, 26-31 May.

  • [2013]

  • Gala, N., François, T. et Fairon, C. Towards a French lexicon with difficulty measures: NLP helping to bridge the gap between traditional dictionaries and specialized lexicons. In Proceedings of Electronic lexicography in the 21st century: thinking outside the paper (eLEX-2013). Tallinn, Estonia, octobre 2013.

  • [2013]

  • Todirascu, A. et François, T. et Gala, N. et Fairon, C. et Ligozat, A.-L. et Bernhard, D. Coherence and Cohesion for the Assessment of Text Readability In Proceedings of 10th International Workshop on Natural Language Processing and Cognitive Science (NLPCS 2013), 11-19.

  • [2013]

  • Boubel, N. et François, T. et Naets, H. Automatic extraction of contextual valence shifters In Proceedings of Recent Advances in Natural Language Processing (RANLP 2013).

  • [2012]

  • François, T. et Fairon, C. An “AI readability” formula for French as a foreign language In Proceedings of the 2012 Conference on Empirical Methods in Natural Language Processing (EMNLP 2012), Jeju, 466-477.

  • [2012]

  • François, T. et Miltsakaki, E. Do NLP and machine learning improve traditional readability formulas? In Proceedings of the First Workshop on Predicting and improving text readability for target reader populations (PITR2012), Montréal, June 7, 49-57.

  • [2012]

  • Brouwers, L. et Bernhard, D. et Ligozat, A.-L. et François, T. Simplification syntaxique de phrases pour le français In Actes de la conférence conjointe JEP-TALN-RECITAL 2012, volume 2: TALN, pages 211–224, Montpellier.

  • [2011]

  • François T. et Watrin, P. On the Contribution of MWE-based Features to a Readability Formula for French as a Foreign Language In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), Hissar, September 14-16, 441-447.

  • [2011]

  • Watrin, P. et François T. An N-gram frequency database reference to handle MWE extraction in NLP applications In Proceedings of the 2011 Workshop on MultiWord Expressions: from Parsing and Generation to the Real World (ACL Workshop), Portland, Oregon, June 23, 2011, 83-91.

  • [2011]

  • François T. et Watrin, P., Quel apport des unités polylexicales dans une formule de lisibilité pour le français langue étrangère ? In Actes de la 18e Conférence sur le Traitement automatique des Langues Naturelles (TALN 2011), Montpellier, vol. 2, 15-20.

  • [2010]

  • Goldman, J.-P. François T., Roekhaut, S. et Simon, A.C. Étude statistique de la durée pausale dans différents styles de parole In Actes des 28èmes journées d'étude sur la parole (JEP), Mons, Belgique, 25-28 mai 2010, 161-164.

  • [2010]

  • Cougnon L.-A. et François T., Quelques contributions des statistiques à l’analyse sociolinguistique d’un corpus de SMS In Proceedings of 10th International Conference JADT, 9-11 juin 2010, Sapienza University of Rome, volume 1, 619-630.

  • [2009]

  • François T., Modèles statistiques pour l’estimation automatique de la difficulté de textes de FLE, In Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2009), Senlis, 24-26/06/2009.

  • [2009]

  • François T., Combining a Statistical Language Model with Logistic Regression to Predict the Lexical and Syntactic Difficulty of Texts for FFL, In Proceedings of the EACL 2009 Student Research Workshop, Athens, 2 April 2009, 19-27 (corrected version).
    Original version.

    Oral communications (without paper)

  • [2014]

  • Louvain-la-Neuve, March 25, 2014, Aix Marseille University (Seminaire du LIF).
    Communication : "La lisibilité computationelle : limites et défis"

  • [2014]

  • Paris, January 14, 2014, Maison de la Recherche, Université Paris-Sorbonne (journée d'étude).
    Communication (in collaboration with Boubel, N.) : "Étude linguistique des phénomènes de modification de polarité dans le domaine de la fouille d’opinion."

  • [2013]

  • Louvain-la-Neuve, November 15, 2013, Université catholique de Louvain (Séminaire du CORE).
    Communication : "La lisibilité computationelle : les apports du TAL et de l'apprentissage automatisé à la lisibilité"

  • [2013]

  • Louvain-la-Neuve, October 4, 2013, Université catholique de Louvain (Séminaire du CENTAL).
    Communication : "Le TAL pour l’assistance à la lecture : lisibilité et simplification automatique de textes"

  • [2013]

  • Lille, June 28, 2013, Université Lille 3 (Savoirs, Textes, Langage).
    Communication : "Le TAL et l’assistance à la lecture : lisibilité et simplification automatique de textes"

  • [2013]

  • Leuven, May 3, 2013, Katholieke Universiteit Leuven (KUL).
    Communication : "Computational readability: limitations and challenges"

  • [2012]

  • New York, September 21, 2012, City University of New York (CUNY).
    Communication : "Computational readability: need for a domain-oriented approach?"

  • [2012]

  • Montréal, June 08, 2012, Université du Québec à Montréal (UQAM).
    Communication : "Les apports du TAL à la lisibilité du FLE”.

  • [2012]

  • Grenoble, June 04, 2012, Conférence pour le prix de thèse ATALA 2012, JEP-TALN-RECITAL 2012, Université Stendhal.
    Communication : "Les apports du traitement automatique du langage à la lisibilité du français langue étrangère”

  • [2012]

  • Philadelphia, February 09, 2012, "CLUNCH", University of Pennsylvania.
    Communication : "A readability formula for French as a foreign language”.

  • [2011]

  • Montpellier, September 29, 2011, "Séminaires sud4science, n°5", Maison des Sciences de l'Homme de Montpellier.
    Communication : "Une approche statistique des corpus de SMS : outils et défis”.

  • [2011]

  • Namur, May 21, 2011, "Journée des doctorants de l'école doctorale en langues et lettres", Facultés Universitaires Notre-Dame de la Paix.
    Communication : “Dmesure : une plateforme internet pour la lisibilité du français langue étrangère”.

  • [2011]

  • Louvain-la-Neuve, May 13, 2011, "Séminaires du CENTAL", Université catholique de Louvain.
    Communication : “Une formule de lisibilité computationnelle pour le français langue étrangère ou seconde”.

  • [2011]

  • Louvain-la-Neuve, February 28, 2011, "Séminaires de l'IL&C", Université catholique de Louvain.
    Communication : “Dmesure : une plateforme de lisibilité pour le français langue étrangère”.

  • [2011]

  • Gand, February 11, 2011, "Computational Linguistics in the Netherlands" (CLIN21), University College Ghent.
    Communication (in collaboration with Naets, H.) : “Dmesure: a readability platform for French as a foreign language”.

  • [2010]

  • Courtrai, November 20, 2010, "Séminaires de l'ITEC", Université KULeuven.
    Communication : "Dmesure: a readability formula for French as a foreign language".

  • [2009]

  • Grenoble, November 27, 2009, "Conférences Industries de la Langue", Université Stendhal.
    Communication : "Lisibilité du français langue étrangère et TAL : une manière de renouveau".

  • [2009]

  • Marne-la-Vallée, May 18, 2009, "Séminaire interne de linguistique de l'IGM", Université de Paris-Est Marne-la-Vallée.
    Communication : "Modèles statistiques pour l'estimation automatique de la difficulté lexicale et syntaxique en FLE".

  • [2008]

  • Bruxelles, May 17, 2008, "Journée des doctorants de l'école doctorale en langues et lettres", Université libre de Bruxelles (ULB).
    Communication : "Prédire automatiquement la difficulté d'exercices à trous pour des apprenants FLE: une approche TAL".

    Ph.D. Thesis

  • [2011]

  • François T., Les apports du traitement automatique du langage à la lisibilité du français langue étrangère , Ph.D. Thesis, Université Catholique de Louvain. Thesis Supervisors : Cédrick Fairon and Anne Catherine Simon.

    Master Thesis

  • [2006]

  • François T., L'apprentissage des pronoms appellatifs qui régissent la rencontre francophone (France ou Belgique) à des Espagnols dans le cadre du cours de FLE, Master's Thesis, Université Catholique de Louvain. Thesis Supervisors : Luc Collès and Geneviève Fabry.

  • [2005]

  • François T., La symbolique des couleurs dans "Madame Bovary" et "la Regenta", Master's Thesis, Université Catholique de Louvain. Thesis Supervisor : Jean-Claude Polet.

    Professional experience

  • [10/2013 - 09/2014]

  • Faculty of Philosophy, Arts and Letters, UCLouvain, Belgique
    Invited Associate Professor

  • [05/2013 - ]

  • CENTAL, UCLouvain, Belgique
    Computational linguist and computer scientist at CENTAL

  • [12/2012 - 09/2014]

  • CENTAL, UCLouvain, Belgique
    Post-doc at CENTAL

  • [11/2011 - 11/2012]

  • Institute for Research in Cognitive Science, Philadelphia, United States
    B.A.E.F. and Fulbright Postdoc Fellow at University of Pennsylvania

  • [10/2007 - 09/2011]

  • Aspirant F.N.R.S.,Louvain-la-Neuve, Belgium
    Ph.D. Student at UCLouvain

  • [09/2006 - 06/2007]

  • Fukuoka University, Fukuoka, Japan
    French as a second language assistant

  • [01/2007 - 06/2007]

  • Institut Franco-japonais du Kyushu, Fukuoka, Japan
    French and Spanish as second languages teacher

  • [10/2005 - 02/2006]

  • Académie des Langues, Marche-en-Famenne, Belgium
    Spanish as a second language teacher

  • [11/2005]

  • Institut Saint-Laurent (High School), Marche-en-Famenne, Belgium
    French as a first language teacher

  • [08/2005 and 07/2006]

  • Bishopric of Hassake, Syria
    French as a second language teacher

  • [07/2005]

  • ASBL Roeland, Virton
    French as a second language teacher

    Scientific activities

    • [2014] : Member of the Jury for the Prix de la thèse ATALA 2014

    • [2014] : Member of the Programme Committee of the ATS-MA Workshop 2014 (COLING)

    • [2014] : Member of the Programme Committee of RECITAL 2014

    • [2014] : Member of the Programme Committee of the BEA Workshop 2014 (ACL)

    • [2014] : Member of the Programme Committee of the SLPAT Workshop 2014 (ACL)

    • [2014] : Member of the Programme Committee of the ACL Student Workshop 2014

    • [2014] : Member of the Programme Committee of the AIST'2014 Conference

    • [2014] : Member of the Programme Committee of CEDIL 2014 (Colloque International des Etudiants Chercheurs)

    • [2014] : Member of the Programme Committee for PITR 2014 (Workshop EACL)

    • [2013] : Co-Director of the Prix de la thèse ATALA 2013

    • [2013] : Guest Editor of a special issue of the ITL journal on readability and text simplification

    • [2013] : Member of the Programme Committee for PITR 2013 (Workshop ACL)

    • [2012] : Member of the Programme Committee for one special issue of Linguisticae Investigationes

    Awards and Fellowships

    Teaching

    Teaching (UCL)

    • LFLTR 1530 : Introduction aux sciences du langage (2013-2014)

    • LCLIG 2250 : Méthodologie de l'analyse de corpus en linguistique (2013-2014)

    • LROM1221 : Linguistique française I: analyses du français contemporain (2013-2014)

    Involvement in the following lectures (UCL)

    • FLTR 2620 : Traitement automatique du langage naturel (2007-2011)

    • CLIG 2140 : Séminaire de linguistique computationnelle (2010)

    • CLIG 2240 : Statistiques linguistiques (2008 and 2009)

    Co-director of master thesis

    • Laetitia BROUWERS: "Simplification syntaxique de phrases pour le français langue étrangère."

    Contact information

    Thomas François
    Researcher at Cental

    Room C116
    Tel.: +32 (010) 47 37 89
    Fax.: +32 (010) 47 26 06
    thomas d0t francois At uclouvain d0t be

    Center for Natural Language Processing
    University of Louvain
    Place Blaise Pacal, 1, bte L3.03.12
    1348 Louvain-la-Neuve