Prave jsem chtel napsat, co napsal Honza. Ale presto neco pridam: 3) ja bych pouzil re.findall na prohledavani <url> 4) budes mit potom problemy s HTML escape znaky 5) jsou tam i adresare 6) samotne zdrojaky jsou ke stazeni pod stejnym url jen bez pripony ".html" :-)
Leo Jan Jakubuv wrote: > dobry den, > > nevim jestli je to Vas zamer, ale v > reg = re.compile(r"href=(?P<url>[.a-z]+)\.html") > chybi uvozovky kolem argumentu. s uvozovkami by vyraz vypadal takto: > reg = re.compile(r'href="(?P<url>[.a-z]+)\.html"'). > > Podle toho, co Vam program hlasi ale bude chyba asi jinde.. > > 1) v cmdReg = re.compile(r"<pre>(?P<prikaz> .*)</pre>") mate navic mezeru > za <prikaz>, cili napiste "<prikaz>.*" namisto "<prikaz> .*" > > 2) pokud ma text mezi tagy "pre" vice radek, tak je je potreba zapnout > priznak DOTALL pri kompilaci vyrazu. Jinak totiz "." neobsahuje konec > radku, cili znak "\n" (ci obdobne dle systemu). Pokud uvedete priznak > DOTALL tak potom teprve "." znamena jakykoliv znak. > > celkove bych napsal: > cmdReg = re.compile(r"<pre>(?P<prikaz>.*)</pre>", re.DOTALL) > > Nakonec mala rada. Pokud pisete program co obsahuje regularni vyrazy, > vyzkousejte si je nejpreve nekde nanecisto, na Vami pripravenem > vstupu, napr.: > _______________________________________________ Python mailing list [email protected] http://www.py.cz/mailman/listinfo/python
