<[EMAIL PROTECTED]> wrote on 28.04.04:

> Du meintest am 28.04.04 um 16:37 Uhr:

>> <[EMAIL PROTECTED]> wrote on 27.04.04:

>>>> Wenn jemand Lust und Zeit hat, fuer XP einen HTML-Parser zu
>>>> schreiben (oder einen fertigen, dessen Source man benutzen kann,
>>>> auftreibt), nur zu.  Ich hab' beides nicht, sorry.

>>> Ich habe mal etwas �ber das Problem nachgedacht und heute einen
>>> *einfachen* HTML-Stripper f�r 32-Bit-Windows programmiert.

>> Schon mal nicht schlecht (ohne da� ich das Teil kenne). DOS-f�hige
>> Tools w�ren aber nat�rlich praktischer bzw. universeller.

> Ja, klar, aber der Windows-Version von PowerBASIC, die ich benutzt
> habe, ist komfortabler als dessen DOS-Versionen.

Kann man das Ganze nicht am Schlu� (ggf. nach entsprechenden
Anpassungen) durch den DOS-Compiler jagen?

>>> [ Praktisch w�re es, wenn FreeXp so erweitert w�rde, da� mit
>>>   "-PROGRAMMNAME ..." ein Programm angegeben werden k�nnte,
>>>   das den zitierten Text �berarbeitet, bevor er vom
>>>   internen Editor geqoutet wird. ]

>> Stimmt.  Ich hab' mich noch nie um das Thema gek�mmert, aber IMO
>> sollte es ohnehin bereits solche Tools (htm2txt w�re z.B. ein
>> treffender Name, und prompt kriege ich unter diesem Namen auch
>> einige Google-Treffer) geben.  Die k�nnte man dann so einbinden.

> Ich habe vor ein paar Jahren so ein Tool - ich glaube von einem
> Amerikaner (Jack Ormans "HTM-CLR.EXE von 1995/1996") - in die Mailbox
> Chat Noir hochgeladen; es krankt, was die gew�nschte Anwendung mit
> Crosspoint betrifft, daran, da� nach dem Start die Namen von Eingabe-
> und Ausgabedatei in einem Dialog abgefragt werden,

Es gibt auch welche, an die man den Dateinamen �bergeben kann.  Ich hab'
mal aus Jux schnell einige getestet, aber auf Anhieb keines gefunden,
das wirklich brauchbare Ergebnisse produziert.

>> Ist nur die Frage, ob sie auch nach CP437 konvertieren k�nnen...

> Mein Prog wandelt jedenfalls kodierte Zeichen wei "&nbsp;" oder
> "&Uuml;" um, ich habe das �ber eine kleine Datendatei gel�st, in der
> die zu �bersetzenden Kodes paarweise mit dem gew�nschten Zeichen
> stehen. Die Liste ist rudiment�r, denn ihr Sinn ist gerade, da� der
> Anwender sie selber erg�nzen oder �dnern kann.

Die M�glichkeit, da auch selbst Sonderf�lle konfigurieren zu k�nnen, ist
sicher nicht schlecht, aber IMO sollte diese Datei schon ziemlich
vollst�ndig sein und au�erdem gibt es ja ziemlich viele M�glichkeiten,
Zeichen in HTML zu codieren.

Das sollte so ein Programm IMO nicht mit einer Datei l�sen, sondern z.B.
aus "&#x2552;" oder "&#64;" gleich das richtige Zeichen "errechnen" und
pr�fen, ob es im gew�nschten Zielzeichensatz (der �ber einen Parameter
anzugeben w�re) vorhanden ist und es selbst entsprechend konvertieren.   
Ansonsten w�rde das ja eine endlose Liste werden und man m��te sich f�r
mehrere Codepages auch mehrere solcher Tabellen erstellen (unterstellt,
das Programm soll �berhaupt mehrere Zielzeichens�tze unterst�tzen, aber
f�r XP mu� es eben CP437 sein).

Theoretisch kann ja *jedes* Zeichen in einer Datei codiert sein...

Insofern hatte ich mich auch schon gewundert, wie Du so schnell einen
HTML-Parser geschrieben hast, denn das ist nicht ohne, wenn man es
richtig machen will.  Es mu� ja auch den Zeichensatz der HTML-Mail im
Content-Tag auswerten k�nnen (statt "&uuml;" kann dort ja auch einfach
ein 8bit-Zeichen stehen), und UTF-7/8-f�hig sollte es nat�rlich auch
sein...

[...Anleitung gesnipped...]

> Das Beispiel habe ich mal als Anhang 1 an diese Mail geh�ngt, es ist
> zwar UCE, aber ich habe sowieso keien Ahnung was darin steht und nur
> Augen f�r die Kodierung und Formatierung der Mail.  Anhang 2 ist das,
> was ich mit meinem einfachen Tool und der oben beschriebenen
> h�ndischen Arbeitsweise binnen gut 30 Sekunden erstellt hatte.

Das sieht vom Ergebnis her schon mal nicht so schlecht aus, obwohl man
sowas hier ...

----------8<----------
<a href="http://www.yol3.us/cs/lz/";>Start now!</a><br>
----------8<----------

... IMO nicht einfach entfernen sollte.  Das ist zwar ein Tag, aber es
enth�lt Information.

Auch sowas auszuwerten und entsprechend aufbereitet darzustellen, ist
nicht trivial.


        Michael
------------------------------------------------------------------------
FreeXP Support-Mailingliste
[EMAIL PROTECTED]
http://www.freexp.de/cgi-bin/mailman/listinfo/support-list

Antwort per Email an