Re: Parsing HTML stránek

Peter Štibraný Sat, 19 Feb 2011 23:56:03 -0800

1) Parsovat HTML stranky ministerskych webov s pripomienkovymi
konaniami a generovat RSS feed. To som riesil tak 5-6 rokov dozadu,
pouzil som XOM + TagSoup + XSLT transformacie. Toto muselo bezat na
serveri.


2) Parsovat odpovede emailovych klientov. Kedze spravu, na ktoru sa
odpoveda, generuje nas system, vieme tam pichnut idcka elementov,
podla ktorych potom v odpovedi vieme, co sme vygenerovali mi a co je
samotna odpoved. (Emailove klienty vacsinou nase IDcka zachovaju) HTML
je v tomto sikovne, lebo tomu mailu da aspon nejaku strukturu.
Samozrejme, ked niekto posle plain-text odpoved, musime sa uskromnit
aj s tou. Chcel som opat pouzit TagSoup, avsak ten ma problemy pri
specifickom formate odpovede [1]. Nasiel som vsak projekt HTMLCleaner
[2] s ktorym to zatial funguje velmi pekne.

[1] 
http://groups.google.com/group/tagsoup-friends/browse_thread/thread/58a0d90d8466ff6f
[2] http://htmlcleaner.sourceforge.net/

S pozdravom,
-peter stibrany

2011/2/19 Michal Bernhard <[email protected]>:
> Muzete prosim vsichni, co jste tu psali, ze jste to taky resili, napsat
> konkretni usecase?
> Zajimalo by me proc vznikne takovy pozadavek a zaroven a jestli se to neda
> resit elegantneji treba kombinaci
> firefox/chrome + greasemonkey + treba jquery.
> Dekuji :)
> Michal
> http://twitter.com/#!/michalb_cz
>
> 2011/2/18 Lukas "lzap" Zapletal <[email protected]>
>>
>> Presne tohle jsem resil zhruba pred 5 lety. A vyresil.
>>
>> Knihovna JTidy - umi zpracovat skoro vsechno. Je to "vsezravec". Funguje
>> tam, kde si ostatni parsery lamou doslova zuby.
>>
>> Jestli je rychla nevim. Jestli zvladne nejnovejsi XHTML nebo HTML5 take
>> nevim. Ale na mem projektu fungovala skvele (HTML 4).
>>
>> Napiste jak jste pochodil.
>>
>> LZ
>>
>> -----
>> Later,
>>  Lukas
>> --
>> View this message in context:
>> http://konference-java-cz.958153.n3.nabble.com/Parsing-HTML-stranek-tp2526109p2526552.html
>> Sent from the konference java.cz mailing list archive at Nabble.com.
>>
>
>

Re: Parsing HTML stránek

Odpovedet emailem