Hi Andreas,
Here is what my simple tokenizing regex pattern
("[\p{L}\w\d/]+|[\-\,\.\?\!\(\)]") gives me on your sample text:
("Börsen" "-" "Ticker" "RSS" "News" "AKTIEN" "SCHWEIZ/Verlauf" "Leicht"
"fester" "-" "Gesuchte" "Finanz" "-" "und" "Pharmawerte" "18" "." "10"
"." "2010" "13" "00" "Zürich" "(" "awp" ")" "-" "Die" "Schweizer"
"Börse" "zeigt" "sich" "nach" "einem" "Start" "im" "Minus" "zur"
"Mittagszeit" "leicht" "fester" "." "Aufruhr" "bei" "Bayern" "-"
"Gegner" "AS" "Rom" "-" "Kritik" "an" "Coach" "Unter" "Druck" "(" "Foto"
"dpa" ")" "Rom" "(" "dpa" ")" "-" "Bayern" "Münchens" "Champions" "-"
"League" "-" "Gegner" "AS" "Rom" "ist" "in" "Aufruhr" "." "Weitere"
"Nachrichten" "Piper" "Jaffray" "Co" "." "stuft" "Baidu" "Sp" "ADR" "-"
"A" "auf" "overweight" "Minneapolis" "(" "aktiencheck" "." "de" "AG" ")"
"-" "Gene" "Munster" "," "Analyst" "von" "Piper" "Jaffray" "," "stuft"
"die" "Aktie" "von" "BAIDU" "." "COM" "(" "ISIN" "US0567521085" "/"
"WKN" "A0F5DE" ")" "von" "neutral" "auf" "overweight" "hoch" "."
"Wohnort" "erfurt" "Verfasst" "am" "25" "." "09" "." "2010" "," "02"
"59" "Titel" "Datum" "des" "PageRank" "Nutzungsrechtest" "von" "Google"
"Wer" "weiss" "," "wann" "genau" "das" "nutzungsrecht" "nächstes" "jahr"
"ausläuft" "für" "die" "kostenfreie" "nutzung" "für" "google" "?" "Die"
"deutsche" "Automobilindustrie" "fährt" "schneller" "aus" "der" "Krise"
"als" "erwartet" "," "sagte" "VDA" "-" "Präsident" "Matthias" "Wissmann"
"in" "Berlin" "." "Senden" "Pfleiderer" "verkaufen" "Düsseldorf" "("
"aktiencheck" "." "de" "AG" ")" "-" "Der" "Analyst" "vom" "Bankhaus"
"Lampe" "," "Marc" "Gabriel" "," "stuft" "die" "Pfleiderer" "-" "Aktie"
"(" "ISIN" "DE0006764749" "/" "WKN" "676474" ")" "von" "halten" "auf"
"verkaufen" "herab" "." "Der" "vollständige" "Zwischenbericht" "wird"
"am" "8" "." "November" "2010" "um" "12" "." "00" "Uhr" "veröffentlicht"
"." "Besonders" "in" "ländlichen" "Gegenden" "sind" "Telegrafenmaste"
"auch" "heute" "noch" "weit" "verbreitet" "-" "größtenteils" "für" "die"
"Festnetztelefonie" "." "Newsticker" "RSS" "-" "Feed" "Morgenweb"
"Sarah" "Palin" "als" "Reality" "-" "Star" "im" "US" "-" "Fernsehen"
"auf" "Sendung" "15" "." "11" "." "10" "4" "58" "Washington" "(" "dpa"
")" "-" "Sarah" "Palin" "hat" "jetzt" "eine" "eigene" "Show" "." "Fotos"
"Terrorwarnung" "-" "Was" "man" "jetzt" "beachten" "sollte" "Die"
"Sicherheitslage" "spitzt" "sich" "zu" "." "Newsticker" "RSS" "-" "Feed"
"Morgenweb" "Tausende" "Siedler" "protestieren" "gegen" "neuen"
"Baustopp" "21" "." "11" "." "10" "11" "51" "Jerusalem" "(" "dpa" ")"
"-" "Die" "israelischen" "Siedler" "haben" "ihre" "Proteste" "gegen"
"einen" "erwarteten" "neuen" "Baustopp" "im" "Westjordanland"
"verschärft" "." "Jetzt" "einloggen" "SchwarzKater" "(" "vor" "4"
"Stunden" ")" "WTF" "?" "Das" "Bankhaus" "hat" "das" "Kursziel" "für"
"die" "Salzgitter" "-" "Aktien" "von" "69" "," "00" "auf" "58" "," "00"
"Euro" "gesenkt" "," "aber" "die" "Einstufung" "auf" "Overweight"
"belassen" "." "Bundeskanzlerin" "Angela" "Merkel" "(" "CDU" ")" "ist"
"am" "Dienstag" "zum" "Gipfel" "der" "Organisation" "für" "Sicherheit"
"und" "Zusammenarbeit" "in" "Europa" "(" "OSZE" ")" "in" "Kasachstan"
"eingetroffen" "." "Mann" "totgeprügelt" "Haftstrafen" "im" "20" "-"
"Cent" "-" "Prozess" "Die" "beiden" "Schläger" "jugendlichen" "Schläger"
"sind" "wegen" "Körperverletzung" "mit" "Todesfolge" "zu" "Haftstrafen"
"verurteilt" "worden" ".")
mind you, before deploying the regular expression, I had to escape all
double-quote occurrences within your text as in java you can't have
nested double-quotes (the expression simply won't compile).
HTH,
Jim
ps: I don't speak German, but the output seems reasonable to
me...depending on your use case, this could be enough (or not!)...
On 14/03/13 11:20, Andreas Niekler wrote:
Yes all the tokens are separated by a whitespace.
Example:
Börsen-Ticker RSS › News AKTIEN SCHWEIZ/Verlauf : Leicht fester -
Gesuchte Finanz- und Pharmawerte 18.10.2010 13:00 Zürich ( awp ) - Die
Schweizer Börse zeigt sich nach einem Start im Minus zur Mittagszeit
leicht fester .
Aufruhr bei Bayern-Gegner AS Rom - Kritik an Coach Unter Druck(Foto :
dpa ) Rom ( dpa ) - Bayern Münchens Champions-League-Gegner AS Rom ist
in Aufruhr .
Weitere Nachrichten Piper Jaffray & Co . stuft Baidu Sp ADR-A auf
overweight Minneapolis ( aktiencheck.de AG ) - Gene Munster , Analyst
von Piper Jaffray , stuft die Aktie von BAIDU.COM ( ISIN US0567521085 /
WKN A0F5DE ) von " neutral " auf " overweight " hoch .
Wohnort : erfurt Verfasst am : 25.09.2010 , 02:59 Titel : Datum des
PageRank Nutzungsrechtest von Google Wer weiss , wann genau das
nutzungsrecht nächstes jahr ausläuft für die kostenfreie nutzung für
google ?
" Die deutsche Automobilindustrie fährt schneller aus der Krise als
erwartet " , sagte VDA-Präsident Matthias Wissmann in Berlin .
Senden Pfleiderer verkaufen Düsseldorf ( aktiencheck.de AG ) - Der
Analyst vom Bankhaus Lampe , Marc Gabriel , stuft die Pfleiderer-Aktie (
ISIN DE0006764749 / WKN 676474 ) von " halten " auf " verkaufen " herab .
Der vollständige Zwischenbericht wird am 8 . November 2010 um 12.00 Uhr
veröffentlicht .
Besonders in ländlichen Gegenden sind Telegrafenmaste auch heute noch
weit verbreitet - größtenteils für die Festnetztelefonie .
Newsticker RSS-Feed Morgenweb Sarah Palin als Reality-Star im
US-Fernsehen auf Sendung 15.11.10 4:58 : Washington ( dpa ) - Sarah
Palin hat jetzt eine eigene Show .
Fotos Terrorwarnung - Was man jetzt beachten sollte Die Sicherheitslage
spitzt sich zu .
Newsticker RSS-Feed Morgenweb Tausende Siedler protestieren gegen neuen
Baustopp 21.11.10 11:51 : Jerusalem ( dpa ) - Die israelischen Siedler
haben ihre Proteste gegen einen erwarteten neuen Baustopp im
Westjordanland verschärft .
Jetzt einloggen SchwarzKater ( vor 4 Stunden ) WTF ?
Das Bankhaus hat das Kursziel für die Salzgitter-Aktien von 69,00 auf
58,00 Euro gesenkt , aber die Einstufung auf ´ Overweight ´ belassen .
Bundeskanzlerin Angela Merkel ( CDU ) ist am Dienstag zum Gipfel der
Organisation für Sicherheit und Zusammenarbeit in Europa ( OSZE ) in
Kasachstan eingetroffen .
Mann totgeprügelt : Haftstrafen im « 20-Cent-Prozess » Die beiden
Schläger jugendlichen Schläger sind wegen Körperverletzung mit
Todesfolge zu Haftstrafen verurteilt worden .