volevo attivare l'indicizzazione dei file pdf su un sito plone che ho 
nella intranet.

ho seguito i passi qui riportati 
http://plone.org/documentation/kb/enable-full-text-indexing-of-word-documents-and-pdfs-in-plone-3-0-gnu-linux
e su la macchina di test sembrava funzionare tutto (i nuovi file 
venivano indicizzati e quelli vecchi dopo la ricostruzione del 
portal_catalog erano indicizzati).

allora ero pronto per la macchina di produzione (che ha un sacco di file 
pdf)
(ovviamente ho lavorato su una copia, per fare prima un collaudo)

ho fatto gli stessi passi (yum instal poppler-utils, perché purtroppo mi 
hanno fornito una macchina CentOS 5.?) e configurazione del portal 
transformation per il pdf_to_text

sembrava tutto ok (con i nuovi file che venivano indicizzati) e allora 
ho lanciato in fg il client1 (l'unico attivo) ed ho ordinato il rebuild 
del portal_catalog (ci ha messo 2h 20')

guardando l'output, però mi sono accorto che da un certo punto in poi ha 
smesso di indicizzare (e infatti non tutti i file pdf sono trovabili 
tramite il loro contenuto) riportando questi messaggi di errore:

questo (1003 volte)
> 2010-10-04 17:33:16 INFO Archetypes Error while trying to convert file 
> contents to 'text/plain' in <Field file(file:rw)>.getIndexable() of 
> <ATFile at /programmi-e-rendiconti-anni-precedenti/Rendiconto-Anno 
> 2007/documento1.pdf>: [Errno 24] Too many open files
oppure (altre volte 250)
> 2010-10-04 17:07:16 INFO Archetypes Error while trying to convert file 
> contents to 'text/plain' in <Field file(file:rw)>.getIndexable() of 
> <ATFile at /rapporti/RapportiVari/documento2.pdf>: [Errno 12] Cannot 
> allocate memory

mi pare quasi che vada esaurendo pian piano le risorse (i file aperti) e 
ad un certo punto smetta di funzionare.



trall'altro, alla fine delle operazioni la zmi funzionava ancora ma il 
sito plone per gli utenti no.
Riavviato il sistema tutto sembrava ok, ma i file indicizzati sono solo 
una parte (titolo e descrizione di tutti 3500+).


Ho anche notato che nell'esecuzione del processo, sono stati creati un 
migliaio di file temporanei in /tmp/ (che non sono stati rimossi).


Dove dovrei ricercare il problema? in poppler-utils? nella 
reindicizzazione di Plone? esiste un modo per reindicizzare a pezzi?


suggerimenti grazie!!!!!!

Giacomo

_______________________________________________
Plone-IT mailing list
[email protected]
http://lists.plone.org/mailman/listinfo/plone-it
http://www.nabble.com/Plone---Italy-f21728.html

Rispondere a