Sehr geehrter Herr Schnoor, Mehrfachzeichen in ziffern sind nicht lediglich "einige chinesische Zeichen" und auch nicht bloß "doppelt", sondern insgesamt 66 Zeichen aus folgenden Schriftsystemen:
DEVANAGARI : 6 BENGALI : 4 ORIYA : 3 TIBETAN : 7 KHMER : 11 OL CHIKI : 4 GEORGIAN : 20 CJK : 11 Dies kann man mit dem Python-Modul unicodedata herausfinden: import unicodedata # Python-Doku: https://docs.python.org/3/library/unicodedata.html # extrahiere aus ziffern : Mehrfachzeichen, Zeilenumbrüche, Leerzeichen mehrfach = sorted(list(set([ x for x in ziffern if ziffern.count(x) > 1 or x in "\n\t " ]))) Names = dict() for i, ch in enumerate(mehrfach): try: chName = unicodedata.name(ch) except: chName = unicodedata.category(ch) language = chName.split()[0] if 'OL' in language: language = ' '.join(chName.split()[:2]) Names[language] = Names.get(language, 0) + 1 # print("[%2d] >%s<\t%5d\t%s" % (i+1, ch, ord(ch), chName)) for k, v in Names.items(): print("%s \t: %2d" % (k, v)) W. Buechel _______________________________________________ python-de Mailingliste -- python-de@python.org Zur Abmeldung von dieser Mailingliste senden Sie eine Nachricht an python-de-le...@python.org https://mail.python.org/mailman3/lists/python-de.python.org/ Mitgliedsadresse: arch...@mail-archive.com