Preco si myslite, ze Java serializacia bude rychlejsia nez serializacia
do textaku? (Ved prirodzenou
formou serializacie XML je text)
Interfejs org.w3c.dom.Document nie je serializable, pretoze to by
znamenalo, ze vsetky implementacia
DOMu by museli vracat Serializable objekty... a to by bola dost silna a
zbytocna poziadavka.
To zalezi od toho, ci implementatori vyhlasili svoje objekty za
Serializable, ale to by
chcelo pozriet do zdrojakov.
Podla mna si urobte kratky test na velkej stranke (povedzme 10MB) a
zistite, ci je to pomale
alebo nie, lebo mam pocit, ze zatial riesite predcasnu optimalizaciu
sposobom, ktory
moze zredukovat pouzitelne technologie na prazdnu mnozinu :-)
On 19. 2. 2011 14:58, Dušan Rychnovský wrote:
Zkoumal jsem i http://about.validator.nu/htmlparser/ a zdá se, že
serializaci rovněž nepodporuje.
2011/2/19 Dušan Rychnovský <[email protected]
<mailto:[email protected]>>
Dobrý den,
zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi
jedna věc. Metoda pro parsování HTML stránky vrací objekt
org.w3c.dom.Document, který neimplementuje rozhraní Serializable.
Ve svém programu nad HTML stránkou vždy postavím DOM a následně si
tvořím pomocný strom, jehož vrcholy obsahují reference na některé
uzly stromu DOM a uchovávají o nich další informace. Celou tuto
strukturu chci při ukončení programu serializovat tak, aby se
zachovaly vazby na uzly stromu DOM (potažmo na příslušné tagy HTML
stránky). Existuje nějaký způsob, jak donutit
org.w3c.dom.Document k takovéto serializaci?
Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět
vždy při spuštění programu znovu, protože program má uchovávat
několik desítek stránek a jejich opětovné parsování při spuštění
programu by bylo asi pomalé (počítám, že deserializace struktury z
disku bude o mnoho rychlejší).
Děkuju
Dušan Rychnovský
Dne 19. února 2011 11:15 Michal Bernhard <[email protected]
<mailto:[email protected]>> napsal(a):
Muzete prosim vsichni, co jste tu psali, ze jste to taky
resili, napsat konkretni usecase?
Zajimalo by me proc vznikne takovy pozadavek a zaroven a
jestli se to neda resit elegantneji treba kombinaci
firefox/chrome + greasemonkey + treba jquery.
Dekuji :)
Michal
http://twitter.com/#!/michalb_cz
<http://twitter.com/#%21/michalb_cz>
2011/2/18 Lukas "lzap" Zapletal <[email protected]
<mailto:[email protected]>>
Presne tohle jsem resil zhruba pred 5 lety. A vyresil.
Knihovna JTidy - umi zpracovat skoro vsechno. Je to
"vsezravec". Funguje
tam, kde si ostatni parsery lamou doslova zuby.
Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML
nebo HTML5 take
nevim. Ale na mem projektu fungovala skvele (HTML 4).
Napiste jak jste pochodil.
LZ
-----
Later,
Lukas
--
View this message in context:
http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
Sent from the konference java.cz <http://java.cz> mailing
list archive at Nabble.com.