Re: Parsing HTML stránek

Dušan Rychnovský Sat, 19 Feb 2011 05:58:50 -0800

Zkoumal jsem i http://about.validator.nu/htmlparser/ a zdá se, že
serializaci rovněž nepodporuje.


2011/2/19 Dušan Rychnovský <[email protected]>

> Dobrý den,
>
> zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi jedna
> věc. Metoda pro parsování HTML stránky vrací objekt org.w3c.dom.Document,
> který neimplementuje rozhraní Serializable.
>
> Ve svém programu nad HTML stránkou vždy postavím DOM a následně si tvořím
> pomocný strom, jehož vrcholy obsahují reference na některé uzly stromu DOM a
> uchovávají o nich další informace. Celou tuto strukturu chci při ukončení
> programu serializovat tak, aby se zachovaly vazby na uzly stromu DOM
> (potažmo na příslušné tagy HTML stránky). Existuje nějaký způsob, jak
> donutit  org.w3c.dom.Document k takovéto serializaci?
>
> Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět vždy při
> spuštění programu znovu, protože program má uchovávat několik desítek
> stránek a jejich opětovné parsování při spuštění programu by bylo asi pomalé
> (počítám, že deserializace struktury z disku bude o mnoho rychlejší).
>
> Děkuju
> Dušan Rychnovský
>
> Dne 19. února 2011 11:15 Michal Bernhard <[email protected]> napsal(a):
>
> Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat
>> konkretni usecase?
>> Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to neda
>> resit elegantneji treba kombinaci
>> firefox/chrome + greasemonkey + treba jquery.
>>
>> Dekuji :)
>>
>> Michal
>> http://twitter.com/#!/michalb_cz
>>
>> 2011/2/18 Lukas "lzap" Zapletal <[email protected]>
>>
>>
>>> Presne tohle jsem resil zhruba pred 5 lety. A vyresil.
>>>
>>> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje
>>> tam, kde si ostatni parsery lamou doslova zuby.
>>>
>>> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take
>>> nevim. Ale na mem projektu fungovala skvele (HTML 4).
>>>
>>> Napiste jak jste pochodil.
>>>
>>> LZ
>>>
>>> -----
>>> Later,
>>>  Lukas
>>> --
>>> View this message in context:
>>> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
>>> Sent from the konference java.cz mailing list archive at Nabble.com.
>>>
>>>
>>
>

Re: Parsing HTML stránek

Odpovedet emailem