Zkoumal jsem i http://about.validator.nu/htmlparser/ a zdá se, že serializaci rovněž nepodporuje.
2011/2/19 Dušan Rychnovský <[email protected]> > Dobrý den, > > zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi jedna > věc. Metoda pro parsování HTML stránky vrací objekt org.w3c.dom.Document, > který neimplementuje rozhraní Serializable. > > Ve svém programu nad HTML stránkou vždy postavím DOM a následně si tvořím > pomocný strom, jehož vrcholy obsahují reference na některé uzly stromu DOM a > uchovávají o nich další informace. Celou tuto strukturu chci při ukončení > programu serializovat tak, aby se zachovaly vazby na uzly stromu DOM > (potažmo na příslušné tagy HTML stránky). Existuje nějaký způsob, jak > donutit org.w3c.dom.Document k takovéto serializaci? > > Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět vždy při > spuštění programu znovu, protože program má uchovávat několik desítek > stránek a jejich opětovné parsování při spuštění programu by bylo asi pomalé > (počítám, že deserializace struktury z disku bude o mnoho rychlejší). > > Děkuju > Dušan Rychnovský > > Dne 19. února 2011 11:15 Michal Bernhard <[email protected]> napsal(a): > > Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat >> konkretni usecase? >> Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to neda >> resit elegantneji treba kombinaci >> firefox/chrome + greasemonkey + treba jquery. >> >> Dekuji :) >> >> Michal >> http://twitter.com/#!/michalb_cz >> >> 2011/2/18 Lukas "lzap" Zapletal <[email protected]> >> >> >>> Presne tohle jsem resil zhruba pred 5 lety. A vyresil. >>> >>> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje >>> tam, kde si ostatni parsery lamou doslova zuby. >>> >>> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take >>> nevim. Ale na mem projektu fungovala skvele (HTML 4). >>> >>> Napiste jak jste pochodil. >>> >>> LZ >>> >>> ----- >>> Later, >>> Lukas >>> -- >>> View this message in context: >>> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html >>> Sent from the konference java.cz mailing list archive at Nabble.com. >>> >>> >> >
