Thèse
Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations
Fiche de la thèse sur le site Thèses en ligne.
Lien direct vers la version PDF
Résumé
Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc.), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données.
Cette thèse s’intéresse à l’acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l’un est choisi en fonction de l’autre pour exprimer un sens particulier (comme « pluie battante » où « pluie » exprime l’intensification).
Pour permettre l’acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus.
Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l’information d’une manière différente,et les opérations de manipulation de ces graphes.
Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les noeuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en oeuvre et utilisé pour plusieurs expérimentations (entre autres l’extraction de collocations), de voir un processus parfois complexe d’extraction de connaissances linguistiques comme une succession d’opérations simples de manipulation de graphes.
Mots-clés
extraction, acquisition de connaissances, modèle de graphe, manipulation de graphes, généricité, collocations
Université Joseph Fourier (Grenoble 1) - École doctorale MSTII
Direction
Gilles Sérasset & Christian Boitet (GETALP, Laboratoire d'Informatique de Grenoble)
Soutenance
Le 24 septembre 2009 à Grenoble (Maison Jean Kuntzmann)
Jury:
Catherine Berrut Présidente Université Joseph Fourier (Grenoble 1)
Yves Lepage Rapporteur Université de Caen Basse-Normandie
Denis Maurel Rapporteur Université François Rabelais (Tours)
Eric Wehrli Rapporteur Université de Genève
Bruno Gaume Examinateur ERSS - Université de Toulouse-Le Mirail
Christian Boitet Directeur Université Joseph Fourier (Grenoble 1)
Gilles Sérasset Co-directeur Université Joseph Fourier (Grenoble 1)