Re: (linux-br)OpenOffice.org x Localizador do explorer

2005-01-20 Por tôpico Manoel Pinho
Ainca complementando os meus emails anteriores, caso queira testar a 
versão alfa do Beagle para Windows aqui está o email do desenvolvedor 
explicando como baixar e instalar (dá muito trabalho ainda mas...):

http://mail.gnome.org/archives/dashboard-hackers/2005-January/msg00045.html
---
Esta lista é patrocinada pela Conectiva S.A. Visite http://www.conectiva.com.br

Arquivo: http://bazar2.conectiva.com.br/mailman/listinfo/linux-br
Regras de utilização da lista: http://linux-br.conectiva.com.br
FAQ: http://www.zago.eti.br/menu.html


Re: (linux-br)OpenOffice.org x Localizador do explorer

2005-01-20 Por tôpico Manoel Pinho
Complementando o meu email anterior, acabei de confirmar que o swish-e 
indexa sim arquivos do OpenOffice.org. Saiu um artigo na Linuxmagazine 
alemã:

http://www.linux-magazin.de/Artikel/ausgabe/2004/04/swish/swish.html
Não sei alemão mas usando o google translate dá para entender algo do que fala 
sobre como configurar o swish-e para indexar arquivos OpenOffice:
http://www.google.com/translate?u=http%3A%2F%2Fwww.linux-magazin.de%2FArtikel%2Fausgabe%2F2004%2F04%2Fswish%2Fswish.html&langpair=de%7Cen&hl=en&ie=UTF8
==
 Open Office documents scan
Open Office stores its files as Zip archives, in which actual contents 
are contained always in the XML file "content xml". In order to scan 
these documents, somewhat more expenditure is necessary. First the 
filter is to be effective to all kinds of open Office files, apply thus 
to different Suffixe.

The "IndexContents" directive in listing 5 (line 3) assigns texts, 
tables and presentations to the XML format. Somewhat tricky the 
"FileFilterMatch" instruction precipitates. It defines the file types 
over the regular expression "/\.(sxw|sxc|sxi)$/i "and the Unzip program 
assigns, including the call parameter" "- p to them \"%p \" content.xml 
"". Thus Unzip extracts the file "content.xml" and passes it on to the 
standard output.

Listing 5: Filter for open Office
01 # Open Office
02 FileFilterMatch "/usr/bin/unzip" "-p \"%p\" content.xml" /\.(sxw|sxc|sxi)$/i
03 IndexContents XML* .sxw .sxc .sxi
04 StoreDescription XML*

A characteristic is here the line "StoreDescription". Actually this 
directive is meant for taking up short description texts to the index 
which Swish e indicates with an extended search. Among other things day 
is to be indicated here, which contains the description. Even the range 
of the description can optional be limited. That does not have to do 
anything in the reason with the normal indexing of a XML document. 
Practice shows however that Swish e indicates open Office documents 
correctly only if this option is indicated. Otherwise the Parser breaks 
off frequently too early and leaves a large part of the text unconsidered.
==

A vantagem do swish-e é que você pode usá-lo para indexar tudo na sua 
rede: arquivos do MS Office antigos, PDFs, emails, arquivos html, 
imagens, etc (leia o artigo)
---
Esta lista é patrocinada pela Conectiva S.A. Visite http://www.conectiva.com.br

Arquivo: http://bazar2.conectiva.com.br/mailman/listinfo/linux-br
Regras de utilização da lista: http://linux-br.conectiva.com.br
FAQ: http://www.zago.eti.br/menu.html


Re: (linux-br)OpenOffice.org x Localizador do explorer

2005-01-20 Por tôpico Manoel Pinho
zairo escreveu:
No meu trabalho(MPF - SP), migramos a ferramenta MsOffice da Microsoft,
para OpenOffice.org.
Configuracao do ambiente de rede:
Servidor de arquivos Samba, estacoes de trabalho win98 ou win2000.
O pacote MsOffice foi desistalado das estaçoes.
Qual o problema?
A maioria dos usuarios utilizam com muita frequencia a ferramenta de
localização do explorer para buscar strings em arquivos no formato texto
salvos anteriormente.  Com a migracao os arquivos passaram a ser salvos
no formato nativo do OpenOffice.org (com extensao sxw).  Recentemente
detectamos que o localizador do explorer não consegue ler/abrir os
arquivos no formato sxw(pelo menos testamos varias strings e o
localizador do explorer nada retornou - sem sequer retornar mensagem de
erro, simplesmente nao localiza a string).
 

Novidade algum programa da Microsoft só trabalhar com os seus formatos 
de arquivos... Esqueça do Explorer e use outros localizadores de arquivos.

Olha, a sua pergunta é muito interessante de ordem prática e embora eu 
nunca tenha implementado isso, resolvi pesquisar no google e achei 
algumas coisas interessantes que podem lhe ajudar e a outras pessoas também:

1) Se você usasse estações linux, o programa Beagle
http://www.gnome.org/projects/beagle/
faz justamente a pesquisa em vários tipos de arquivos, incluindo o MS 
Office e OpenOffice.org. Li uma notícia esta semana que vão portar para 
windows também, mas pode demorar.

2) Para as estações windows eu encontrei o programa nativo 03find:
http://web.tiscali.it/fanelia/sw/o3find/
3) Você pode também querer usar um motor de busca que indexe todos os 
tipos de arquivos, como o

htdig
http://www.htdig.org/
ou
swish-e
http://swish-e.org/
Pelo que li, no htdig é possível indexar arquivos sxw através de um 
parser externo

http://www.htdig.org/files/contrib/parsers/README.sxwtoplain.txt
O swish-e consegue indexar arquivos xml zipados, portanto creio que deva 
conseguir indexar também documentos do OpenOffice.org. Tente ! Esse 
motor é muito bom.

---
Esta lista é patrocinada pela Conectiva S.A. Visite http://www.conectiva.com.br

Arquivo: http://bazar2.conectiva.com.br/mailman/listinfo/linux-br
Regras de utilização da lista: http://linux-br.conectiva.com.br
FAQ: http://www.zago.eti.br/menu.html