Proposition de sujet de PostDoc à Orange Labs (Lannion, France)

Projection des données lexicales (françaises) sur des connaissances

Contexte :
Un enjeu majeur du traitement automatique des langues naturelles consiste à 
générer une représentation
conceptuelle des documents afin de factoriser des termes synonymes ou au 
contraire différencier des
termes homonymes. Les différents concepts associés à terme peuvent être générés 
manuellement ou
automatiquement mais constituent dans tous les cas un espace de concepts 
nécessaire à toute opération
ultérieure (désambigüisation, arguments de relations sémantiques, 
thématisation, ...).

Sujet :
L'équipe CONTENT/FAST d'Orange Labs travaille sur l'extraction d'information 
des textes (en français)
afin d'en obtenir une représentation RDF. Nous nous appuyons sur des bases de 
connaissances (internes
ou issues des efforts communautaires comme LinkedOpenData par ex. DBpedia). 
Pour cela, nos données
linguistiques (lexiques, thésaurus) doivent être alignées avec les instances et 
classes de la base de
connaissances.

Le sujet proposé vise tout d'abord à étendre notre espace sémantique par 
l'utilisation de ressources
publiques du LOD ou LLOD telles qu'OpenCyc, WordNet, BabelNet, DBpédia YAGO2, 
Wiktionary. Cet
accroissement doit être quantitatif par ajout d'entités nommées notamment mais 
aussi qualitatif en visant
(par owl:sameAs) une hiérarchie de concepts (par ex. WordNet).
Dans un deuxième temps, le candidat mettra en oeuvre un accès à cet espace en 
le couplant à nos outils
de TALN (extraction des liens sémantiques d'un texte). Le traitement global 
sera appliqué à des corpus
proposés par Orange de manière à étudier l'impact de chaque ressource sur le 
résultat d'une analyse
dont le résultat est la projection de chaque terme sur ces concepts associés. 
Le résultat de l'étude doit
nous permettre de décider de l'intérêt effectif de ces ressources et de la 
manière de les utiliser
conjointement.

Une autre étude plus fondamentale portera sur la granularité conceptuelle. Le 
nombre et la nature des
différents concepts associés à un terme est un problème ouvert qui dépend 
probablement des données à
traiter. Dans cette optique, l'émergence de concepts par des approches de type 
data-mining peut fournir
une aide. Cette étude pourra donc s'orienter soit vers la mise au point d'un 
critère théorique soit vers un
calcul d'optimalité lié à un corpus.

Profil souhaité :
· Un doctorat en informatique ou TAL (thèse soutenue depuis moins de 12 mois).
· connaissances en alignement d'ontologies et Web Sémantique (technologies, 
formats, ontologies,
thesarus, ...)
· connaissances en traitement automatique des langues (TAL)
· pratique de programmation (Java, C++), Linux

Divers :
CDD de 12 mois.
Date de début du post-doctorat : dès que possible (4e trimestre 2013).
Lieu : Orange Labs à Lannion (Côtes d'Armor, Bretagne).

Pour plus d'information, contacter :
Johannes Heinecke
Tél : 02 96 05 21 77
Email : johannes.heinecke(at)orange.com


 [cid:[email protected]]
Abdel-Malek Boualem
R&D Project Manager
France Telecom Orange Labs
FT/OLNC/OLPS/OPENSERV/CONTENT/FAST
Phone : +33 (0)2 96 05 29 83
Mobile : +33 (0)6 85 71 40 63
Email : [email protected]<mailto:[email protected]>
 [cid:[email protected]]


_________________________________________________________________________________________________________________________

Ce message et ses pieces jointes peuvent contenir des informations 
confidentielles ou privilegiees et ne doivent donc
pas etre diffuses, exploites ou copies sans autorisation. Si vous avez recu ce 
message par erreur, veuillez le signaler
a l'expediteur et le detruire ainsi que les pieces jointes. Les messages 
electroniques etant susceptibles d'alteration,
France Telecom - Orange decline toute responsabilite si ce message a ete 
altere, deforme ou falsifie. Merci.

This message and its attachments may contain confidential or privileged 
information that may be protected by law;
they should not be distributed, used or copied without authorisation.
If you have received this email in error, please notify the sender and delete 
this message and its attachments.
As emails may be altered, France Telecom - Orange is not liable for messages 
that have been modified, changed or falsified.
Thank you.

<<inline: Picture (Device Independent Bitmap) 1.jpg>>

<<inline: Picture (Device Independent Bitmap) 2.jpg>>

_______________________________________________
Mt-list mailing list
[email protected]
http://mailhost.computing.dcu.ie/mailman/listinfo/mt-list

Reply via email to