Re: Parsing HTML stránek

Robert Novotny Mon, 21 Feb 2011 07:02:05 -0800

Pravda, ide primarne o deserializaciu. Plus, povodny dopyt bol nadesktopovu aplikaciu(ak som to spravne pochopil), kde pouzivatel vydrzi to parsekundove,,Loading...".


On 20. 2. 2011 23:30, Oto Buchta wrote:

2011/2/20 Robert Novotny<[email protected]>:

Preco si myslite, ze Java serializacia bude rychlejsia nez serializacia do
textaku? (Ved prirodzenou
formou serializacie XML je text)

Tady podle mne nejde ani tak o serializaci, jako spis deserializaci.

Podla mna si urobte kratky test na velkej stranke (povedzme 10MB) a zistite,
ci je to pomale
alebo nie, lebo mam pocit, ze zatial riesite predcasnu optimalizaciu
sposobom, ktory
moze zredukovat pouzitelne technologie na prazdnu mnozinu :-)

Naprosty souhlas. Pokud nebude kazdou vterinu stovka pozadavku,
ale spis jeden za nekolik vterin, vubec bych to neresil.

On 19. 2. 2011 14:58, Dušan Rychnovský wrote:

Zkoumal jsem i http://about.validator.nu/htmlparser/ a zdá se, že
serializaci rovněž nepodporuje.

2011/2/19 Dušan Rychnovský<[email protected]>

Dobrý den,

zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi jedna
věc. Metoda pro parsování HTML stránky vrací objekt org.w3c.dom.Document,
který neimplementuje rozhraní Serializable.
Ve svém programu nad HTML stránkou vždy postavím DOM a následně si tvořím
pomocný strom, jehož vrcholy obsahují reference na některé uzly stromu DOM a
uchovávají o nich další informace. Celou tuto strukturu chci při ukončení
programu serializovat tak, aby se zachovaly vazby na uzly stromu DOM
(potažmo na příslušné tagy HTML stránky). Existuje nějaký způsob, jak
donutit  org.w3c.dom.Document k takovéto serializaci?
Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět vždy
při spuštění programu znovu, protože program má uchovávat několik desítek
stránek a jejich opětovné parsování při spuštění programu by bylo asi pomalé
(počítám, že deserializace struktury z disku bude o mnoho rychlejší).
Děkuju
Dušan Rychnovský
Dne 19. února 2011 11:15 Michal Bernhard<[email protected]>  napsal(a):

Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat
konkretni usecase?
Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to
neda resit elegantneji treba kombinaci
firefox/chrome + greasemonkey + treba jquery.
Dekuji :)
Michal
http://twitter.com/#!/michalb_cz

2011/2/18 Lukas "lzap" Zapletal<[email protected]>

Presne tohle jsem resil zhruba pred 5 lety. A vyresil.

Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje
tam, kde si ostatni parsery lamou doslova zuby.

Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take
nevim. Ale na mem projektu fungovala skvele (HTML 4).

Napiste jak jste pochodil.

LZ

-----
Later,
  Lukas
--
View this message in context:
http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
Sent from the konference java.cz mailing list archive at Nabble.com.

Re: Parsing HTML stránek

Odpovedet emailem