1) Parsovat HTML stranky ministerskych webov s pripomienkovymi konaniami a generovat RSS feed. To som riesil tak 5-6 rokov dozadu, pouzil som XOM + TagSoup + XSLT transformacie. Toto muselo bezat na serveri.
2) Parsovat odpovede emailovych klientov. Kedze spravu, na ktoru sa odpoveda, generuje nas system, vieme tam pichnut idcka elementov, podla ktorych potom v odpovedi vieme, co sme vygenerovali mi a co je samotna odpoved. (Emailove klienty vacsinou nase IDcka zachovaju) HTML je v tomto sikovne, lebo tomu mailu da aspon nejaku strukturu. Samozrejme, ked niekto posle plain-text odpoved, musime sa uskromnit aj s tou. Chcel som opat pouzit TagSoup, avsak ten ma problemy pri specifickom formate odpovede [1]. Nasiel som vsak projekt HTMLCleaner [2] s ktorym to zatial funguje velmi pekne. [1] http://groups.google.com/group/tagsoup-friends/browse_thread/thread/58a0d90d8466ff6f [2] http://htmlcleaner.sourceforge.net/ S pozdravom, -peter stibrany 2011/2/19 Michal Bernhard <[email protected]>: > Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat > konkretni usecase? > Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to neda > resit elegantneji treba kombinaci > firefox/chrome + greasemonkey + treba jquery. > Dekuji :) > Michal > http://twitter.com/#!/michalb_cz > > 2011/2/18 Lukas "lzap" Zapletal <[email protected]> >> >> Presne tohle jsem resil zhruba pred 5 lety. A vyresil. >> >> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje >> tam, kde si ostatni parsery lamou doslova zuby. >> >> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take >> nevim. Ale na mem projektu fungovala skvele (HTML 4). >> >> Napiste jak jste pochodil. >> >> LZ >> >> ----- >> Later, >> Lukas >> -- >> View this message in context: >> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html >> Sent from the konference java.cz mailing list archive at Nabble.com. >> > >
