volevo attivare l'indicizzazione dei file pdf su un sito plone che ho nella intranet.
ho seguito i passi qui riportati http://plone.org/documentation/kb/enable-full-text-indexing-of-word-documents-and-pdfs-in-plone-3-0-gnu-linux e su la macchina di test sembrava funzionare tutto (i nuovi file venivano indicizzati e quelli vecchi dopo la ricostruzione del portal_catalog erano indicizzati). allora ero pronto per la macchina di produzione (che ha un sacco di file pdf) (ovviamente ho lavorato su una copia, per fare prima un collaudo) ho fatto gli stessi passi (yum instal poppler-utils, perché purtroppo mi hanno fornito una macchina CentOS 5.?) e configurazione del portal transformation per il pdf_to_text sembrava tutto ok (con i nuovi file che venivano indicizzati) e allora ho lanciato in fg il client1 (l'unico attivo) ed ho ordinato il rebuild del portal_catalog (ci ha messo 2h 20') guardando l'output, però mi sono accorto che da un certo punto in poi ha smesso di indicizzare (e infatti non tutti i file pdf sono trovabili tramite il loro contenuto) riportando questi messaggi di errore: questo (1003 volte) > 2010-10-04 17:33:16 INFO Archetypes Error while trying to convert file > contents to 'text/plain' in <Field file(file:rw)>.getIndexable() of > <ATFile at /programmi-e-rendiconti-anni-precedenti/Rendiconto-Anno > 2007/documento1.pdf>: [Errno 24] Too many open files oppure (altre volte 250) > 2010-10-04 17:07:16 INFO Archetypes Error while trying to convert file > contents to 'text/plain' in <Field file(file:rw)>.getIndexable() of > <ATFile at /rapporti/RapportiVari/documento2.pdf>: [Errno 12] Cannot > allocate memory mi pare quasi che vada esaurendo pian piano le risorse (i file aperti) e ad un certo punto smetta di funzionare. trall'altro, alla fine delle operazioni la zmi funzionava ancora ma il sito plone per gli utenti no. Riavviato il sistema tutto sembrava ok, ma i file indicizzati sono solo una parte (titolo e descrizione di tutti 3500+). Ho anche notato che nell'esecuzione del processo, sono stati creati un migliaio di file temporanei in /tmp/ (che non sono stati rimossi). Dove dovrei ricercare il problema? in poppler-utils? nella reindicizzazione di Plone? esiste un modo per reindicizzare a pezzi? suggerimenti grazie!!!!!! Giacomo _______________________________________________ Plone-IT mailing list [email protected] http://lists.plone.org/mailman/listinfo/plone-it http://www.nabble.com/Plone---Italy-f21728.html
