> > Dmitry Voroshin wrote: > Идея с хэшем, который считается при записи блоба, а потом используется > для сравнения в DISTINCT имеет продолжение, о котором часто забывают, - > когда хэши совпадают, то надо еще эти блобы полностью с диска скачать и > сравнить - побайтово или посимвольно. Так что будет в любом случае > медленнее чем сейчас. Но зато корректно.
Учитыва особенности хэш-функций и природы данных в блобах (особенно тесктовых) можно сказать что такое сравнение даст отличие на первых байтах, если вообще не на первом. Так же сочетание "хэш и размер_блоба" должно свести такие проверки к минимуму. Пример "плохого" случая: много несжатых картинок одного размера. Но пересечение получить надо умудриться. Как ни крути, а хеш и вариации это самый реальный вариант из возможных по скорости и корректности.

