Já si myslím, že je naprosto bláhové hledat nějakou detekci charsetu, která by pracovala s nějakou větší úspěšností. To je zkrátka nemožné a jakákoli detekce je jenom vážený odhad, a nikdy nemůže dát spolehlivé výsledky. Jak to ta knihovna na detekci má poznat? Zvlášť pokud je knihovna mezinárodní, pak je úspěšnost u podobných charsetů jen dost neurčitá. Nikdy nenajdete knihovnu na detekci charsetu, na jejíž výsledek se dá spolehnout. Nejde to, je to algoritmicky neřešitelná úloha. Pokud na tom závisí Váš program, doporučuji ho navrhnout jinak.
Miloslav Ponkrác Martin Blazik napsal(a): > Ahoj, > hledam knihovnu, ktera by dokazala rozpoznat kodovani retezce. Podarilo > se mi najit akorat > http://chardet.feedparser.org/ > ale to na muj vkus nevykazuje dostatecne vysledky: > > # psano v konozli v ISO-8859-2 > >>> s = 'příšerně žluťoučký kůň úpěl ďábelské ódy PŘÍŠERĚ ŽLUŤOUČKÝ KŮŇ > ÚPĚL ĎÁBELSKÉ ÓDY' > >>> chardet.detect(s) > {'confidence': 0.40226801246065391, 'encoding': 'ISO-8859-8'} > > > Nemate nekdo nejaky tip? > > lachtan > > _______________________________________________ > Python mailing list > Python@py.cz > http://www.py.cz/mailman/listinfo/python > > _______________________________________________ Python mailing list Python@py.cz http://www.py.cz/mailman/listinfo/python