Postdoctoral position at France Telecom R&D :
- "Transfert sémantique par apprentissage sur un corpus pour la traduction 
automatique"
- "Corpus-based learning for semantic transfer in machine translation"

=========== FRENCH VERSION ===========
(English version is below)

L'unité de R&D "Langues Naturelles" de France Télécom recherche un candidat 
pour un post-doctorat à Lannion (Bretagne, France) sur le sujet suivant, à 
commencer dès que possible :

Transfert sémantique par apprentissage sur un corpus pour la traduction 
automatique
-----------------------------------------------------------------------------------

La traduction automatique basée sur un pivot sémantique a pour ambition 
d'exprimer correctement dans la langue cible ce qui a été dit dans la langue 
source. Il se produit cependant un certain nombre de phénomènes qui sortent de 
ce cadre :
dans les mêmes circonstances  on ne dit pas exactement la même chose d'une 
langue à l'autre :

- soit parce que les usages, les formules de politesse, les habitudes diffèrent 
(je voudrais de l'aspirine, il me faut de l'aspirine, auriez-vous de 
l'aspirine, puis-je avoir de l'aspirine). 
- soit parce que les structures linguistiques de base, notamment concernant la 
détermination, le temps et l'aspect, obéissent à des structures différentes (je 
voudrais de l'aspirine, je voudrais une boîte d'aspirine, j'aurais voulu de 
l'aspirine, je veux des aspirines).

Qu'elles soient dues à des habitudes pragmatiques ou à des différences 
profondes de structures linguistiques, ces divergences sont très difficiles à 
modéliser sémantiquement et à décrire sous forme de règles. En revanche, on 
doit pouvoir les observer sur un corpus aligné, et si les niveaux 
morphologiques, syntaxiques et sémantiques de la traduction sont pris en charge 
par des méthodes linguistiques dans une architecture à pivot, on peut espérer 
que l'apprentissage de cette dimension pragmatique nécessitera alors un volume 
de corpus moins considérable que pour les méthodes de traduction purement 
statistiques qui essaient d'apprendre en bloc l'ensemble des niveaux de 
représentation.

Le sujet du postdoctorat est donc l'étude des diverses méthodes d'apprentissage 
automatique s'appliquant en traduction à des représentations structurées de 
types arbres ou graphes, et la réalisation, à partir d'un corpus de phrases 
alignées que l'on transformera en corpus de graphes alignés, d'un système 
permettant de passer des graphes de la langue source aux graphes de la langue 
cible pour obtenir une traduction prenant en compte les idiomatismes propres au 
corpus.

Compétences nécessaires : 

* représentations sémantiques en TALN (sémantique lexicale et sémantique des 
textes)
* traduction automatique : approches linguistiques, statistiques, mixtes
* apprentissage, en particulier sur des représentations structurées (arbres, 
graphes)
* alignement de corpus
* C++, Unix
* maîtrise du français ou de l'anglais, si possible les deux
* connaissance de langues typologiquement différentes 

Diplôme nécessaire : 

* Doctorat (thèse déjà soutenue ou date de soutenance connue)

Merci d'adresser une lettre de motivation et un CV à : 
jerome(point)vinesse(à)francetelecom(point)com 


=========== ENGLISH VERSION ===========

The "Natural Languages" R&D unit in France Telecom offers a post-doctoral 
position in Lannion (Brittany, France) to be started as soon as possible on the 
following subject:

Corpus-based learning for semantic transfer in machine translation
------------------------------------------------------------------

Machine translation based on an Interlingua aims at expressing accurately in 
the target language what has been said in the source language. However, a 
number of phenomena occur out of this
framework: under the same circumstances, one wouldn't say exactly the same 
thing in different languages:

- either because usage, forms of address, or habits differ (I would like some 
aspirin, I need some aspirin, have you got some aspirin, may I have some 
aspirin, may I bother you with some aspirin). 
- or because basic linguistic structures, especially for determination, time 
and aspect, follow different schemes (I would like some aspirin, I would like a 
box of aspirin, I would have liked some aspirin, I want aspirins) 

Semantic modelling or rule-based description of such differences is hardly 
feasible. However these gaps may be observed on aligned corpora. And as 
morphologic, syntactic and semantic levels are already addressed by linguistic 
methods in an Interlingua architecture, machine learning at the pragmatic level 
may hopefully require less huge corpora than purely statistical translation 
methods where all the levels need to be globally learned.

The postdoctoral successful candidate will investigate machine learning methods 
which may be applied to structured representations (trees and graphs) for 
machine translation, transform a corpus of aligned sentences into a corpus of 
aligned semantic graphs, and implement a system to transform the graphs from 
the source language into graphs expected in the target language according to 
the corpus.

Required skills: 

* semantic representations in NLP (lexical semantics and textual semantics)
* machine translation: linguistic, statistical and combined methods
* machine learning, especially on structured representations (trees, graphs)
* corpus alignment
* C++, Unix
* languages: fluent French or English, both is preferred
* knowledge of typologically different languages 

Required diploma: 

* PhD (already defended or scheduled)

Please send application letter and resume to : 
jerome(dot)vinesse(at)francetelecom(dot)com

===================

------------------------------------------------------
Malek Boualem
France Telecom, Division R&D
2, avenue Pierre Marzin - 22307 Lannion - France
Tel: (33)(0)2.96.05.29.83
Fax: (33)(0)2.96.05.32.86
Email: [EMAIL PROTECTED]
------------------------------------------------------

_______________________________________________
Mt-list mailing list

Reply via email to