trevor12: -------------------------------------------------------------------------------- dobry den, mam tady *.txt soubor (1,3 MB), ktery vznikl automatickym rozpoznanim OCR a zustalo v nem hodne nesmyslnych (tj. castecne nerozpoznanych) slov. Nemam ambici aby mi pspad automaticky provedl nahrazeni zkomolenin spravnym cesky tvarem, jen bych potreboval ty zkomoleniny a patvary z toho *.txt vyhazet. Pomoci regularnich vyrazu mne to nenapada jak. Tak mne napadlo jestli by neslo udelat uzivatelsky konvertor ktery by porovnaval slovo po slove z meho souboru s tim Czech.dic a kdyz by ho nenasel, tak by ho vyhodil, pricemz za "slovo" by se povazoval shluk znaku 1 az X, oddelenych mezerou, nealfanumerrickym znakem, tabem atd..
slo by to nejak udelat ? -------------------------------------------------------------------------------- Zdravim, nevim, jestli by to podstatne ulehcilo praci, ale pripadne by slo udelat konvertor ne z dat celeho slovniku, ale ze seznamu slov konkretniho textu, ktery se edituje volbou Soubor: Informace o souboru [Podrobna statistika] se vypise seznam slov aktivniho souboru v editoru, Ctrl+C se cela tabulka zkopiruje a jde ji vlozit do samostatneho textu a hromadnym nahrazenim odstranit udaje o frekvenci za kazdym slovem (regex \t.* nahradit za prazdny retezec). Pokud by se ukazalo, ze tento vypis ignoruje prave chybna slova - napr. s nepismennymi znaky, bylo by treba udelat seznam slov vychoziho textu jinak- nahrazenim mezer konci radku, abecedni serazeni s odstranenim duplicit, pripadne odstraneni nektere interpunkce pred nebo za slovy. Snad by pak slo takovyto seznam slov srovnat se seznamem .dic kontroly pravopisu a nechat ve vysledcich porovnani vypsat chybejici (tj. nepritomne v slovnikovem souboru). Z takovehoto seznamu potencialne chybnych tvaru by pak mohl jit udelat konvertor - s nahrazenim budto za spravnou podobu zadanou rucne, nebo za prazdny retezec. Sam jsem takovy postup nezkousel, nevim tedy, jaka by byla efektivita a v jakych detailech by se pripadne narazilo na problemy. Zdravim, vbr -- <http://forum.pspad.com/read.php?1,67126,67130> PSPad freeware editor http://www.pspad.com
