Proposition de sujet de PostDoc à Orange Labs (Lannion, France) Projection des données lexicales (françaises) sur des connaissances
Contexte : Un enjeu majeur du traitement automatique des langues naturelles consiste à générer une représentation conceptuelle des documents afin de factoriser des termes synonymes ou au contraire différencier des termes homonymes. Les différents concepts associés à terme peuvent être générés manuellement ou automatiquement mais constituent dans tous les cas un espace de concepts nécessaire à toute opération ultérieure (désambigüisation, arguments de relations sémantiques, thématisation, ...). Sujet : L'équipe CONTENT/FAST d'Orange Labs travaille sur l'extraction d'information des textes (en français) afin d'en obtenir une représentation RDF. Nous nous appuyons sur des bases de connaissances (internes ou issues des efforts communautaires comme LinkedOpenData par ex. DBpedia). Pour cela, nos données linguistiques (lexiques, thésaurus) doivent être alignées avec les instances et classes de la base de connaissances. Le sujet proposé vise tout d'abord à étendre notre espace sémantique par l'utilisation de ressources publiques du LOD ou LLOD telles qu'OpenCyc, WordNet, BabelNet, DBpédia YAGO2, Wiktionary. Cet accroissement doit être quantitatif par ajout d'entités nommées notamment mais aussi qualitatif en visant (par owl:sameAs) une hiérarchie de concepts (par ex. WordNet). Dans un deuxième temps, le candidat mettra en oeuvre un accès à cet espace en le couplant à nos outils de TALN (extraction des liens sémantiques d'un texte). Le traitement global sera appliqué à des corpus proposés par Orange de manière à étudier l'impact de chaque ressource sur le résultat d'une analyse dont le résultat est la projection de chaque terme sur ces concepts associés. Le résultat de l'étude doit nous permettre de décider de l'intérêt effectif de ces ressources et de la manière de les utiliser conjointement. Une autre étude plus fondamentale portera sur la granularité conceptuelle. Le nombre et la nature des différents concepts associés à un terme est un problème ouvert qui dépend probablement des données à traiter. Dans cette optique, l'émergence de concepts par des approches de type data-mining peut fournir une aide. Cette étude pourra donc s'orienter soit vers la mise au point d'un critère théorique soit vers un calcul d'optimalité lié à un corpus. Profil souhaité : · Un doctorat en informatique ou TAL (thèse soutenue depuis moins de 12 mois). · connaissances en alignement d'ontologies et Web Sémantique (technologies, formats, ontologies, thesarus, ...) · connaissances en traitement automatique des langues (TAL) · pratique de programmation (Java, C++), Linux Divers : CDD de 12 mois. Date de début du post-doctorat : dès que possible (4e trimestre 2013). Lieu : Orange Labs à Lannion (Côtes d'Armor, Bretagne). Pour plus d'information, contacter : Johannes Heinecke Tél : 02 96 05 21 77 Email : johannes.heinecke(at)orange.com [cid:[email protected]] Abdel-Malek Boualem R&D Project Manager France Telecom Orange Labs FT/OLNC/OLPS/OPENSERV/CONTENT/FAST Phone : +33 (0)2 96 05 29 83 Mobile : +33 (0)6 85 71 40 63 Email : [email protected]<mailto:[email protected]> [cid:[email protected]] _________________________________________________________________________________________________________________________ Ce message et ses pieces jointes peuvent contenir des informations confidentielles ou privilegiees et ne doivent donc pas etre diffuses, exploites ou copies sans autorisation. Si vous avez recu ce message par erreur, veuillez le signaler a l'expediteur et le detruire ainsi que les pieces jointes. Les messages electroniques etant susceptibles d'alteration, France Telecom - Orange decline toute responsabilite si ce message a ete altere, deforme ou falsifie. Merci. This message and its attachments may contain confidential or privileged information that may be protected by law; they should not be distributed, used or copied without authorisation. If you have received this email in error, please notify the sender and delete this message and its attachments. As emails may be altered, France Telecom - Orange is not liable for messages that have been modified, changed or falsified. Thank you.
<<inline: Picture (Device Independent Bitmap) 1.jpg>>
<<inline: Picture (Device Independent Bitmap) 2.jpg>>
_______________________________________________ Mt-list mailing list [email protected] http://mailhost.computing.dcu.ie/mailman/listinfo/mt-list
