- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Dmitry
Subject: Re: Узнавание кодировки
Так я собственно это и делаю. Ограничил кол-во кодировок до минимума - 4 штуки
ru* (866, 1251, koi8r и utf8 - всё, больше нету). А он (guesser) мне файл в
win1251 сначала упорно определял то в iso-8859-1, а потом, когда я iso убрал,
стало определять как KOI8-R.
Кстати, сейчас у меня такое ощущуение, что guesser просто издевается. Я убрал
всё, что можно (подчёркиваю это), оставил только 4 указанные выше кодировки -
больше убирать просто нечего, тем более, что неизвестно, какие по дороге
кодировки встретятся, т.к. файлов десятки тысяч. Так вот. Маленький файл (в
koi8r), который сначала определялся как iso-8859-1, потом MacCyr... Сейчас,
когда ничего "лишнего" нет, знаете, как определился? Правильно. cp866! Ну да
бог с ним. Но, ведь по-прежнему и для виндового 400Кб файла так и пишет, что он
в KOI8. Вот, пожалуйста, я же ничего не �!
�ыдумаываю:
[8455]{01} Response.URL_ID: -1682421893
[8455]{01} Status: 200 OK
[8455]{01} Store by default
[8455]{01} Guesser: Lang: ru, Charset: KOI8-R
[8455]{01} Index by default
..это для того большого (400кб) файла (могу, кстати, его выслать - куда? - для
проверки).
Короче, подытоживая, смысл такой. Есть куча файлов в разных кодировках.
Некоторые из них guesser в упор отказывается распознавать. Пишет всё, что
угодно, кроме родной кодировки файла. При этом (не знаю уж как) хранит слова в
базе. Если, к примеру, ввести непотребное "ЦКНАЮКЭМНИ УПНМНКНЦХХ ДПЕБМЕЦН" - он
это ищет.
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1136861335