Karl schrieb am 16.04.2011 um 18:17 Uhr:
> Arne Babenhauserheide writes:
>>
>> - Die Kosten der Einzeltasten nochmal prüfen, auch mit der 
>> Truly Ergonomic im Kopf (das Hauptziel ist allerdings die 
>> Standardtastatur!)
> 
> Auf GeekHack wird gemunkelt, dass es sich bei Truly Ergonomic um eine
> Scheinfirma handeln könnte. Bislang habe ich noch von keinem Fall erfahren, 
> der
> eine seriengefertigte Truly Ergonomic geliefert bekommen hat.

Auf ne Scheinfirma würde ich jetzt nicht tippen, ich denke eher, dass
sie Probleme mit den Stückzahlen haben. Für die Tasten und das Gehäuse
brauchen sie eigene Formen und so ein Formenbau lohnt sich je nach
Fertigungsverfahren erst ab ein paar Hundert Stück. Solange wird man
auch keinen seriennahen Prototyp zu sehen bekommen.

> In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und genauer 
> angesehen.
> Den so sauber geputzt zu bekommen, wie ich es für notwendig erachte, halte ich
> jetzt für noch schwieriger, als wonach es auf den ersten Blick ausschaut.
> (@Florian: Kannst Du mal die Skripte vorstellen - egal auf welchem Stand -, 
> mit
> denen Du das Putzen angegangen bist. Das könnte enorm weiter helfen
> (Brett_vorm_Kopf_hab).)
> Manche Markups kommen verschachtelt vor, manche sogar fehlerhaft, was für
> Reguläre Ausdrücke grundsätzlich schwierig ist.

Ja, es gibt einige die kaputt, oder sehr verschachtelt sind. Teilweise
wird auch noch HTML verwendet (was ich bisher nur teilweise erfassen kann).

Meine zum Putzen verwendeten Ausdrücke sind habe ich am Ende angehängt.
Es gibt noch einiges zu verbessern, aber im Bezug auf die relative
Häufigkeit der Buchstaben-N-Gramme ist es eher zu vernachlässigen. Bei
N-Grammen mit Sonderzeichen dürfte es allerdings noch etwas auffallen.


>> Fällt euch noch was ein, das fehlt?

Eine Diskussion der Ebenen 3-6 einige Platzierungen finde ich nicht
ideal. Andere Zeichen dürften nur von wenigen wirklich benutzt werden.

Gruß Florian

¹
      $reader.ReadToFollowing("title") > null
      $check=$reader.ReadString()
      if(!$check.Startswith("Kategorie:") -and !$check.Startswith("Liste
von ") -and !$check.Startswith("Liste der ") -and
!$check.EndsWith("Begriffsklärung)") -and !$check.Equals("Kategorien")){
        $reader.ReadToFollowing("text") > null
        $text = $reader.ReadString()
        if ($text.ToUpper().StartsWith("__NOTOC")){$text=""}
        if ($text.ToUpper().StartsWith("#REDIRECT")){$text=""}
        if ($text.ToUpper().StartsWith("#WEITERLEITUNG")){$text=""}
        if ($text.ToUpper().StartsWith("EINE LISTE VON ")){$text=""}
        $text = $text -replace " "," " #hier kein NBSP wg. TB-Bug
        $text = $text -replace "`'`'`'",""
        $text = $text -replace "`'`'",""
        $text = $text -replace "(?m)^== Weblink.*",""
        $text = $text -replace "(?m)^== Einzelnachweise.*",""
        $text = $text -replace "(?m)^== Literatur.*",""
        $text = $text -replace "(?m)^== Referenzen.*",""
        $text = $text -replace "(?m)^→ Hauptartikel:.*",""
        $text = $text -replace "(?m)^→ Kategorie:.*",""
        $text = $text -replace "(?m)^Hauptartikel: .*",""
        $text = $text -replace "(?m)^Datei:.*",""
        $text = $text -replace "==+",""
        $text = $text -replace "=\s(\S*)\s="," $1"
        $text = $text -replace "<sub>|<sup>|</sub>|</sup>",""
        $text = $text -replace "\s\[{{.*}}\]",""
        $text = $text -replace "{{[^}]*}}; ",""
        $text = $text -replace "{{[^}]*}}",""
        $text = $text -replace "(?m)^{{.*",""
        $text = $text -replace "(?m)^\|.*",""
        $text = $text -replace "(?m)^{\|.*",""
        $text = $text -replace "(?m)^`!.*",""
        $text = $text -replace "(?m)^\|.*",""
        $text = $text -replace "(?m)^:<.*>",""
        $text = $text -replace "(?m)^:+(.*)",'$1'
        $text = $text -replace "(?m)^;(.*)",'$1'
        $text = $text -replace "(?m)^__.*",""
        $text = $text -replace "(?m)^Siehe auch.*",""
        $text = $text -replace "(?m)^\[\[[^\s\]]*:.*",""
        $text = $text -replace "(?m)^\* \[\[[^\s\]]*:.*",""
        $text = $text -replace "<!--.*-->",""
        $text = $text -replace "(?m)^<!--.*",""
        $text = $text -replace "(?m).*-->$",""
        $text = $text -replace "(?m)^}}\n",""
        $text = $text -replace "<[^>]*>([^<]*)</[^>]*>",'$1'
        $text = $text -creplace "<[^/]*/>",""
        $text = $text -replace "(?m)^\*\**\s?","• "
        $text = $text -replace "(?m)^#\s",""
        $text = $text -replace "<[^>]*>([^<]*)</[^>]*>",'$1'
        $text = $text -replace "\[(http:[^\]]*)\]",'$1'
        $text = $text -replace "\[\[([^|\]]*)\]\]",'$1'
        $text = $text -replace "\[\[([^|\]]*).([^|\]]*)\]\]",'$2'
        $text = $text -replace "\[\[[^\]]*\]\]",""
        $text = $text -replace "\\and","∧"
        $text = $text -replace "\\vee","∨"
        $text = $text -replace "\\or","∨"
        $text = $text -replace "\\neg","¬"
        $text = $text -replace "\\leftrightarrow","↔"
        $text = $text -replace "\\rightarrow","→"
        $text = $text -replace "\\leftarrow","←"
        $text = $text -replace "•? ?https?://[^ ]* "," "
        $text = $text -replace "(?m)^\n$",""
        $text = $text -replace "(?m)^ ",""
        $text = $text -replace "(?m)^• $",""


Attachment: signature.asc
Description: OpenPGP digital signature

Antwort per Email an