Re: Parsing HTML stránek

Robert Novotny Sun, 20 Feb 2011 11:28:32 -0800

Preco si myslite, ze Java serializacia bude rychlejsia nez serializaciado textaku? (Ved prirodzenou

formou serializacie XML je text)

Interfejs org.w3c.dom.Document nie je serializable, pretoze to byznamenalo, ze vsetky implementaciaDOMu by museli vracat Serializable objekty... a to by bola dost silna azbytocna poziadavka.To zalezi od toho, ci implementatori vyhlasili svoje objekty zaSerializable, ale to by

chcelo pozriet do zdrojakov.

Podla mna si urobte kratky test na velkej stranke (povedzme 10MB) azistite, ci je to pomalealebo nie, lebo mam pocit, ze zatial riesite predcasnu optimalizaciusposobom, ktory

moze zredukovat pouzitelne technologie na prazdnu mnozinu :-)

On 19. 2. 2011 14:58, Dušan Rychnovský wrote:

Zkoumal jsem i http://about.validator.nu/htmlparser/ a zdá se, žeserializaci rovněž nepodporuje.

2011/2/19 Dušan Rychnovský <[email protected]<mailto:[email protected]>>


    Dobrý den,

    zkoumal jsem trochu parser JTidy a zdá se být dobrý, ale chybí mi
    jedna věc. Metoda pro parsování HTML stránky vrací objekt
    org.w3c.dom.Document, který neimplementuje rozhraní Serializable.

    Ve svém programu nad HTML stránkou vždy postavím DOM a následně si
    tvořím pomocný strom, jehož vrcholy obsahují reference na některé
    uzly stromu DOM a uchovávají o nich další informace. Celou tuto
    strukturu chci při ukončení programu serializovat tak, aby se
    zachovaly vazby na uzly stromu DOM (potažmo na příslušné tagy HTML
    stránky). Existuje nějaký způsob, jak donutit
     org.w3c.dom.Document k takovéto serializaci?

    Tyto pomocné informace nemůžu ukládat do HTML stránky a DOM stavět
    vždy při spuštění programu znovu, protože program má uchovávat
    několik desítek stránek a jejich opětovné parsování při spuštění
    programu by bylo asi pomalé (počítám, že deserializace struktury z
    disku bude o mnoho rychlejší).

    Děkuju
    Dušan Rychnovský

    Dne 19. února 2011 11:15 Michal Bernhard <[email protected]
    <mailto:[email protected]>> napsal(a):

        Muzete prosim vsichni, co jste tu psali, ze jste to taky
        resili, napsat konkretni usecase?
        Zajimalo by me proc vznikne takovy pozadavek a zaroven a
        jestli se to neda resit elegantneji treba kombinaci
        firefox/chrome + greasemonkey + treba jquery.

        Dekuji :)

        Michal
        http://twitter.com/#!/michalb_cz
        <http://twitter.com/#%21/michalb_cz>

        2011/2/18 Lukas "lzap" Zapletal <[email protected]
        <mailto:[email protected]>>


            Presne tohle jsem resil zhruba pred 5 lety. A vyresil.

            Knihovna JTidy - umi zpracovat skoro vsechno. Je to
            "vsezravec". Funguje
            tam, kde si ostatni parsery lamou doslova zuby.

            Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML
            nebo HTML5 take
            nevim. Ale na mem projektu fungovala skvele (HTML 4).

            Napiste jak jste pochodil.

            LZ

            -----
            Later,
             Lukas
            --
            View this message in context:
            
http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
            Sent from the konference java.cz <http://java.cz> mailing
            list archive at Nabble.com.

Re: Parsing HTML stránek

Odpovedet emailem