Merci pour l'aiguillage; les patchs ont apparemment corrigé notre problème. Par contre, nous n'avons pas installé lxml mais simplement récupéré le word_to_text.py, appliqué scrubHTML-v2.diff et PortalTransforms.diff qui ont modifié /transforms/__init__.py et libtransforms/utils.py Nous n'avons pas de /transforms/opendocument_to_html.py (nous sommes en CPS 3.2). Les documents qui posaient problème sont maintenant intégrés sans souci. -----Message d'origine----- De : [EMAIL PROTECTED] [mailto:[EMAIL PROTECTED] De la part de Yves Bastide Envoyé : vendredi 17 novembre 2006 15:02 À : [email protected] Objet : Re: [CPS-users-fr] Problème fichiers Word
CHAMBON Monique BCH (AREVA NC) a écrit : > > > Nous sommes sur LINUX. > > Quand on fait l'essai d'utiliser wvWare en dehors de CPS pour les > fichiers posant problème, cela fonctionne correctement. > > On voit quand même que le processus occupe plus de 90% de CPU, mais ça > ne dure pas longtemps, et la transformation en html se fait bien. > > Quand on passe par CPS et que le traitement dure des heures pour > certains fichiers, on voit que des fichiers « nom fichier.doc.new » sont > créés (des fichiers de travail je suppose). > > Je ne comprends pas bien comment s'imbriquent : > > la modification des documents dans CPS, > > WvWare > > l'indexation du texte (qui doit se faire aussi en même temps). > > Je ne sais plus trop où chercher. À priori c'est le nettoyage de l'html et sa transformation en texte. J'ai des patchs dans le ticket 1760 (http://svn.nuxeo.org/trac/pub/ticket/1760) qui seront p'têt dans CPS 3.4.3, qui sort sous peu. Ils exigent d'installer lxml yves _______________________________________________ cps-users-fr Adresse de la liste : [email protected] Gestion de l'abonnement : <http://lists.nuxeo.com/mailman/listinfo/cps-users-fr>
