Michelle Konzack wrote:
> Am 2004-06-13 15:56:37, schrieb Markus Raab:
>
>>Es gibt sxw2txt damit du Openofficedokumente auch ohne Openoffice
>>lesen kannst.
>
> Und wo ist das ?
> Ich finde es weder unter WOODY noch SARGE oder SID.
D�rfte dort nicht dabei sein.
Es handelt sich nur um ein Skript welches den xml Markup entfernt, der
Text bleibt �brig:
Vielleicht heist es auch oo2txt, ich konnte es nicht mehr finden, darum
ist es im Anhang[0]
mfg Markus
[0]
#!/bin/bash
ver="0.4"
if [[ $1 = "" || $2 = "" ]]
then
echo -e "
OpenOffice.org Converter by Dicky 'Mas Saint' Wahyu Purnomo ver
$ver
====================================================================
Syntax :
oo2txt [filename.sxw/filename.sxc] [text/html]
Requirement :
GNU sed version 3.0x or above
Lynx
UnZip
Tips :
oo2txt filename.sxw text > filename.txt
Contact Me :
Dicky Wahyu Purnomo 'Mas Saint'
Email : [EMAIL PROTECTED]
Web : http://massaint.or.id
YahooID : dicky_wp
ICQ # : 5561766
"
else
file=$1
tmpfile=/tmp/OO2TXT`date +%d%m%Y%H%M`
unzip -qq -o -C "$1" content.xml -d /tmp/
mv /tmp/content.xml $tmpfile
echo "<html>
<head>
<style>
<!--
p {font-family:verdana,lucida;font-size:11px}
td {font-family:verdana,lucida}
.P1 {font-family:verdana,lucida;font-weight:bold;font-size:14px}
.P11 {font-family:verdana,lucida;font-weight:bold}
.P12 {font-family:verdana,lucida;font-weight:bold}
.P19 {font-family:verdana,lucida;font-weight:bold}
.P22 {font-family:verdana,lucida;font-weight:bold;font-size:12px}
.P23 {font-family:verdana,lucida;font-weight:bold;font-size:12px}
-->
</style>
</head>" > $tmpfile.html
cat $tmpfile | tr ">" "\n" | sed s/$/'>'/g | grep -v '<?xml
version="1.0" encoding="UTF-8"?>' | grep -v "^>$" | egrep -v
"text:table-of-content|text:index-title-template|text:index-entry-
style:font-decl|style:style|style:properties|style:tab
style:background|style:column|text:list-style
text:list-level-style-number|text:list-level-style-bullet
text:sequence-decl|number:number|office:script|office:font-decls
office:automatic-styles|table:table-column|table:table-header-rows" |
sed s/'text:style-name='/'class='/g | sed s/'text:p'/'p'/g | sed
s/'office:body'/'body'/g | sed s/'office:document-content'/'html'/g |
sed s/'table:table '/'table border=1 cellspacing=0 cellpadding=2
style=border-style:solid;color:black'/g | sed s/'table:table-row'/'tr'
g | sed s/'table:table-cell'/'td'/g | sed s/'table:table'/'table'/g |
sed s/'text:unordered-list'/'ul'/g | sed s/'text:ordered-list'/'ol'/g |
sed s/'text:list-item'/'li'/g | grep -v "^[1-9]</p>$" | grep -v "^[1-9
[0-9]</p>$" | sed s/"^<\/td>$"/"\ <\/td>"/g >> $tmpfile.html
if [[ $2 == "text" ]]
then
lynx -dump $tmpfile.html
fi
if [[ $2 == "html" ]]
then
cat $tmpfile.html
fi
rm -f $tmpfile
fi
--
Linux, the choice | Abh�ngigkeit ist heiser, wagt nicht, laut
of a GNU generation -o) | zu reden. -- Shakespeare, Rome und Julia
Kernel 2.6.6 /\ |
on a i686 _\_v |
--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/
Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)