Kráťa:
--------------------------------------------------------------------------------
Tak je ještě někde chybka. Přišel mi XML a v něm bylo 233 článků, z
toho byly z Helpnetu asi 3.
Když jsem na soubor aplikoval script, zbylo ze všech článků jen asi 6,
místo 230.
Navíc jsem přišel na to, že konvertor mi odstraňuje i tabulátor na
začátku odstavce.
A vylepšení, co mě napadlo, pro zkrácené pročítání souboru (což
zabírá nejvíc času ze všeho), že by tím scriptem šlo asi i udělat, aby
se smazaly články, kde není <URL> na článek, ale třeba jen na hlavní
stranu nějakého média (vyjde to v papírovém, na webu to nemají). Takové
totiž nesmím vkládat. Ale zároveň, aby zůstaly články z rozhlasů a
televizí, kde také není URL, ale ty vkládám.
--------------------------------------------------------------------------------
Zdravim,
to je bohuzel riziko tohoto typu zpracovani XML jako textoveho souboru...
snad to pujde nejak doladit.
Je soubor XML uplny a "validni", tj. napr. pri otevreni ve webovem prohlizeci se
nehlasi chyby?
Jendoduche vysvetleni by bylo, kdyby napr. nekde chybel zaviraci tag
</Document>, ale to asi neni moc pravdepodobne.
Mozne by bylo, ze na nekterych mistech je trochu jiny format, muze jit o rozdil,
ktery v ramci XML nehraje roli - napr. mezery, tabulatary, typy uvozovek,
zalomeni radky v ramci definice tagu ..., ale pro nahrazovaci skript uz to jsou
rozdily, se kterymi nepocita a potom zahrne vetsi casti textu az k dalsimu
presne ocekavanemu ukoncovacimu tagu.
Pokud by bylo mozne zdrojovy soubor nejak zpristupnit, muzu se zkusit podivat na
problematicke nahrazeni, pripadne by to slo mailem; v adrese je jmeno jako tady
ve foru; na email.cz.
Pokud jde textove rozeznat URL nemirici na jednotlivy clanek (napr. adresa konci
domenou .cz ?), a zaroven ponechat zahrnute jine zdroje podle pozadavku, melo by
jit takovou upravu zahrnout jako dalsi krok do skriptu.
Dulezite je, jako obecne u regularnich vyrazu, nemit jednotlive kroky nahrazeni
moc "hladove"/"zrave".
Trochu slozitejsi alternativou je nepouzivat nahrazovani, resp. mazani
nevyhovujicich casti naopak vypis nalezenych vyhovujicich, evenutalne kombinaci
obojiho. To muze ale vyzadovat jeste individualejsi obsluhu, nastavovani a
overovani vystupu/hlidani chyb...
Zdraivm,
vbr
--
<https://forum.pspad.com/read.php?1,74959,75017>
PSPad freeware editor https://www.pspad.com