yüzdeli benzerlik hata yaptırtabilir. Adı farklı ama gerisi "gıda san. ve tic. ltd. şti." şeklinde biten firmalar hep %80-%90 birbirine benzeşecektir. Bu firma isimlerinin var ise vergi numaralarından kontrol yapmanızı tavsiye ederim. Vergi yada tc kimlik numaraları yoksa php ile çok zor olmayan bir şekilde ilk kelime ve son 2-3 kelimenin birleşiminden oluşan bir dizi oluşturarak benzeşen kayıtlar tespit edilebilir. Her halukarda gözle kontrol şart, bilgisayar bu noktada en fazla yardımcı olabilir.
12 Ekim 2013 23:58 tarihinde "M.Atıf CEYLAN" <[email protected]> yazdı: > On 10/11/2013 05:14 PM, Nuri AKMAN wrote: > > Arkadaşlar, > > Elimde MYSQL veritabanında kayıtlı 180.000 adet firma adı var. Ancak, bu > isimler kullanıcılar tarafından el ile girilmiş kayıtlar. Bunların bir > çoğunun farklı yazılmış olmasından dolayı mükerrer olduğunu düşünüyoruz. > > Birkaç örnek vermek gerekirse: > XYZ TOPRAK GIDA HAY. TUR. MAK.SAN. VE TİC. A.Ş > XYZ TOPRAK GIDA HAYV. TUR. MAK. SAN. VE TİC. A.Ş. > XYZ TOPRAK GIDA HAYVANCILIK TUR.MAK.SAN. VE TİCARET A.Ş. > XYZ GIDA SAN. VE TİC. A.Ş. > XYZ GIDA SAN.VE TİC.AŞ. > XYZ ÇİFTLİK ÜRÜNLERİ ÜRETİM SAN. VE TİC. LTD. ŞTİ. > XYZ ÇİFTLİK ÜRÜNLERİ ÜRETİM SAN.VE TİC.LTD.ŞTİ. > XYZ KİREMİT TUĞLA FAB. > XYZ KİREMİT VE TUĞLA FABRİKASI > > Bu kayıtları birbirine en yaklaşık olanlara göre elden geçirerek > sadeleştirmem gerekiyor. > > Bu işin teknik adının ne olduğunu bilmediğim için google'da araştıramadım. > > Bunun nasıl yapılabileceğine ilişkin düşüncelerinize başvurmak istiyorum. > > Selamlar, > Nuri Akman > > "similar text search mysql" anahtar kelimeleri ile arayin. MySQL icin boyle > bisey varmi bilemiyorum ama php ile yapabilirsiniz. > > similar_text fonksiyonu iki stringin benzerligini % olarak geri doner. 180 > bin firmanin olasilik hesabina gore karsilastirmasini yapmak biraz uzun gibi > gorunse de bilgisayar icin pek zaman almaz. Belirli bir degerin uzerinde > benzerlik degeri cikanlari elersiniz ve ikinci bir kontrole tabi tutarsiniz. > > http://php.net/manual/en/function.similar-text.php > > -- > M.Atıf CEYLAN > Yurdum Yazılım > > _______________________________________________ > Linux-programlama mailing list > [email protected] > https://liste.linux.org.tr/mailman/listinfo/linux-programlama > Liste kurallari: http://liste.linux.org.tr/kurallar.php > _______________________________________________ Linux-programlama mailing list [email protected] https://liste.linux.org.tr/mailman/listinfo/linux-programlama Liste kurallari: http://liste.linux.org.tr/kurallar.php
