Re: Parsing HTML stránek

Dušan Rychnovský Fri, 18 Feb 2011 04:11:23 -0800

Co znamena "velmi rozhozeny"?

Podle vzniklého souboru lze poznat, že souvisí s původním souborem. Ale


1. Má rozhozené kódování.
2. Textový obsah i formátovací značky jsou porušené.

Nedaří se mi situaci pořádně popsat, proto přikládám ukázku původního a
vzniklého kódu.


S tím, že k nějakým změnám kódu dojde (opravám kvůli převodu nonwellformed
HTML do DOM) počítám. U mě však dochází ke znehodnocení celého kódu (viz
přiložené soubory).

Na odkázaný parser se určitě podívám, děkuju.

Dušan Rychnovský



2011/2/18 Ondrej Nekola <[email protected]>

> Co znamena "velmi rozhozeny"?
> S pozdravem
>         Ondřej Nekola
>
>
>
> 2011/2/18 Dušan Rychnovský <[email protected]>:
> > Dobrý den.
> >
> > Vytvářím program (JSE), který zpracovává HTML stránky. Stránku vždy
> stáhnu z
> > webu na disk, vybuduju nad ní DOM Tree a pomocí něj pak provádím různé
> > úpravy.
> >
> > Pro stavbu DOM používám knihovnu "HTML Parser"
> > (http://htmlparser.sourceforge.net/), a to z několika důvodů.
> >
> > 1. Potřebuju zpracovávat běžné webové stránky (tj. stránky s chybami
> oproti
> > XML standardům).
> >
> > 2. Potřebuju je zpracovávat rychle.
> >
> > 3. Změny v HTML kódu chci uchovávat i mezi spuštěními programu -
> potřebuju
> > DOM serializovat.
> >
> > Zjistil jsem, že "HTML Parser" při vytváření stromu nekopíruje textové
> > elementy do paměti, ale nějakým způsobem se zřejmě odkazuje na části
> > zparsovaného HTML souboru.
> >
> > Proto pokaždé, když provedu změnu v HTML kódu, uložím na disk
> (serializuju)
> > změněný DOM a přepíšu parsovaný HTML soubor pomocí metody toHtml() třídy
> > NodeList (aby si vždy DOM a parsovaná stránka odpovídaly).
> >
> > Tento postup funguje v pořádku až do té doby, než program vypnu a znovu
> > zapnu (tj. zřejmě dokud neproběhne deserializace DOMu). Potom dostávám
> při
> > prvním volání toHtml() dokument velmi rozhozený.
> >
> > Kontroloval jsem několikrát, jestli se někde v průběhu nedostane dvojice
> DOM
> > - parsovaný soubor do nekonzistentního stavu, ale chybu jsem nenašel.
> >
> > Takže přemýšlím, jestli vůbec "HTML Parser" takovéto zacházení podporuje
> > (dokumentace je dost chudá).
> >
> > Máte někdo podobné zkušenosti s tímto parserem? Nebo víte o vhodnějším
> > parseru pro moje účely (vygooglil jsem i různé jiné parsery, ale vždy se
> mi
> > z nějakého důvodu zdály nevhodné)?
> >
> > Díky za pomoc,
> > Dušan Rychnovský
> >
> >
>

<p>V případě potřeby mě <strong>kontaktujte</strong> na emailu

<a href="mailto:[email protected]";>[email protected]</a>.</p>

<">V pA?ApadÄ? potA?eby mÄ? <s<strong>ntaktujte</strong> na 
em</strong>h</p>"mai<ul:class.r"news">s<li>mail.com">[email protected]</a>.</p>

Re: Parsing HTML stránek

Odpovedet emailem