[DataparkSearch Forum] Re: Узнавание кодировки

DataparkSearchForum Tue, 10 Jan 2006 11:22:47 -0800

- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Dmitry
Subject: Re: Узнавание кодировки


Так я собственно это и делаю. Ограничил кол-во кодировок до минимума - 4 штуки 
ru* (866, 1251, koi8r и utf8 - всё, больше нету). А он (guesser) мне файл в 
win1251 сначала упорно определял то в iso-8859-1, а потом, когда я iso убрал, 
стало определять как KOI8-R.

Кстати, сейчас у меня такое ощущуение, что guesser просто издевается. Я убрал 
всё, что можно (подчёркиваю это), оставил только 4 указанные выше кодировки - 
больше убирать просто нечего, тем более, что неизвестно, какие по дороге 
кодировки встретятся, т.к. файлов десятки тысяч. Так вот. Маленький файл (в 
koi8r), который сначала определялся как iso-8859-1, потом MacCyr... Сейчас, 
когда ничего "лишнего" нет, знаете, как определился? Правильно. cp866!  Ну да 
бог с ним. Но, ведь по-прежнему и для виндового 400Кб файла так и пишет, что он 
в KOI8. Вот, пожалуйста, я же ничего не �!
 �ыдумаываю:

[8455]{01} Response.URL_ID: -1682421893
[8455]{01} Status: 200 OK
[8455]{01} Store by default
[8455]{01} Guesser: Lang: ru, Charset: KOI8-R
[8455]{01} Index by default


..это для того большого (400кб) файла (могу, кстати, его выслать - куда? - для 
проверки).

Короче, подытоживая, смысл такой. Есть куча файлов в разных кодировках. 
Некоторые из них guesser в упор отказывается распознавать. Пишет всё, что 
угодно, кроме родной кодировки файла. При этом (не знаю уж как) хранит слова в 
базе. Если, к примеру, ввести непотребное "ЦКНАЮКЭМНИ УПНМНКНЦХХ ДПЕБМЕЦН" - он 
это ищет.
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1136861335

[DataparkSearch Forum] Re: Узнавание кодировки

Reply via email to