trevor12:
--------------------------------------------------------------------------------
dobry den, mam tady *.txt soubor (1,3 MB), ktery vznikl automatickym
rozpoznanim OCR a zustalo v nem hodne nesmyslnych (tj. castecne nerozpoznanych)
slov. Nemam ambici aby mi pspad automaticky provedl nahrazeni zkomolenin
spravnym cesky tvarem, jen bych potreboval ty zkomoleniny a patvary z toho *.txt
vyhazet. Pomoci regularnich vyrazu mne to nenapada jak. Tak mne napadlo jestli
by neslo udelat uzivatelsky konvertor ktery by porovnaval slovo po slove z meho
souboru s tim Czech.dic a kdyz by ho nenasel, tak by ho vyhodil, pricemz za
"slovo" by se povazoval shluk znaku 1 az X, oddelenych mezerou,
nealfanumerrickym znakem, tabem atd..

slo by to nejak udelat ?
--------------------------------------------------------------------------------


Zdravim,
nevim, jestli by to podstatne ulehcilo praci, ale pripadne by slo udelat
konvertor ne z dat celeho slovniku, ale ze seznamu slov konkretniho textu, ktery
se edituje 
volbou
Soubor: Informace o souboru [Podrobna statistika] 
se vypise seznam slov aktivniho souboru v editoru,
Ctrl+C se cela tabulka zkopiruje a jde ji vlozit do samostatneho textu a
hromadnym nahrazenim odstranit udaje o frekvenci za kazdym slovem (regex \t.*
nahradit za prazdny retezec).
Pokud by se ukazalo, ze tento vypis ignoruje prave chybna slova - napr. s
nepismennymi znaky, bylo by treba udelat seznam slov vychoziho textu jinak-
nahrazenim mezer konci radku, abecedni serazeni s odstranenim duplicit, pripadne
odstraneni nektere interpunkce pred nebo za slovy.

Snad by pak slo takovyto seznam slov srovnat se seznamem .dic kontroly pravopisu
a nechat ve vysledcich porovnani vypsat chybejici (tj. nepritomne v slovnikovem
souboru).

Z takovehoto seznamu potencialne chybnych tvaru by pak mohl jit udelat konvertor
- s nahrazenim budto za spravnou podobu zadanou rucne, nebo za prazdny retezec.

Sam jsem takovy postup nezkousel, nevim tedy, jaka by byla efektivita a v jakych
detailech by se pripadne narazilo na problemy.

Zdravim,
   vbr

-- 
<http://forum.pspad.com/read.php?1,67126,67130>
PSPad freeware editor http://www.pspad.com

Odpovedet emailem