И вопрос - а что понимается под "каноническим видом"? У нас в дереве
адресов штук десять вариаций на тему "город Москва". Есть даже бред
"город Москва" в "городе Москва". Ибо до сих пор не могут определиться
- а как его корректно представить. А мне лично на эти "корректные"
представления - насрать.

есть формат адресов КЛАДРа - стандарт для обмена с гос уч-ниями.
все передаваемые адреса долнжы соответствовать ему.

если в БД есть вариации - хранишь исходные данные + нормализованный адрес, приведенный к формату КЛАДР.поиск ведешь только по каноническому адресу. Экономишь на преобразовании (кол-во записей)*(кол-во запросов)*(кол-во пользователей)

я это уже проходил. ручная правка откровенно идиотских адресов на 200 тыс человек делается 10 специально обученными юзерами за месяц.

PS автоматизируя хаос, получишь автоматизированный хаос. проблема откладывается только на время разработки, а дальше снова встает в полный рост.

--
Булычев Алексей
http://www.stella-npf.ru



Ответить