On 10/11/2013 05:14 PM, Nuri AKMAN wrote:
Arkadaşlar,
Elimde MYSQL veritabanında kayıtlı 180.000 adet firma adı var. Ancak,
bu isimler kullanıcılar tarafından el ile girilmiş kayıtlar. Bunların
bir çoğunun farklı yazılmış olmasından dolayı mükerrer olduğunu
düşünüyoruz.
Birkaç örnek vermek gerekirse:
XYZ TOPRAK GIDA HAY. TUR. MAK.SAN. VE TİC. A.Ş
XYZ TOPRAK GIDA HAYV. TUR. MAK. SAN. VE TİC. A.Ş.
XYZ TOPRAK GIDA HAYVANCILIK TUR.MAK.SAN. VE TİCARET A.Ş.
XYZ GIDA SAN. VE TİC. A.Ş.
XYZ GIDA SAN.VE <http://SAN.VE> TİC.AŞ.
XYZ ÇİFTLİK ÜRÜNLERİ ÜRETİM SAN. VE TİC. LTD. ŞTİ.
XYZ ÇİFTLİK ÜRÜNLERİ ÜRETİM SAN.VE <http://SAN.VE> TİC.LTD.ŞTİ.
XYZ KİREMİT TUĞLA FAB.
XYZ KİREMİT VE TUĞLA FABRİKASI
Bu kayıtları birbirine en yaklaşık olanlara göre elden geçirerek
sadeleştirmem gerekiyor.
Bu işin teknik adının ne olduğunu bilmediğim için google'da araştıramadım.
Bunun nasıl yapılabileceğine ilişkin düşüncelerinize başvurmak istiyorum.
Selamlar,
Nuri Akman
"similar text search mysql" anahtar kelimeleri ile arayin. MySQL icin
boyle bisey varmi bilemiyorum ama php ile yapabilirsiniz.
similar_text fonksiyonu iki stringin benzerligini % olarak geri doner.
180 bin firmanin olasilik hesabina gore karsilastirmasini yapmak biraz
uzun gibi gorunse de bilgisayar icin pek zaman almaz. Belirli bir
degerin uzerinde benzerlik degeri cikanlari elersiniz ve ikinci bir
kontrole tabi tutarsiniz.
http://php.net/manual/en/function.similar-text.php
--
M.Atıf CEYLAN
Yurdum Yazılım
_______________________________________________
Linux-programlama mailing list
[email protected]
https://liste.linux.org.tr/mailman/listinfo/linux-programlama
Liste kurallari: http://liste.linux.org.tr/kurallar.php