tokenizers

dnaber Sun, 17 Jun 2012 07:30:02 -0700

Revision: 7383
          
http://languagetool.svn.sourceforge.net/languagetool/?rev=7383&view=rev
Author:   dnaber
Date:     2012-06-17 14:29:51 +0000 (Sun, 17 Jun 2012)
Log Message:
-----------
more test code cleanup; removing duplicate tests


Modified Paths:
--------------
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ManualTaggerAdapter.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/SentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/WordTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/cs/CzechSentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/da/DanishSRXSentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/de/GermanSRXSentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/eo/EsperantoWordTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchSRXSentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchWordTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/pl/PolishSentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ru/RussianSRXSentenceTokenizerTest.java

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ManualTaggerAdapter.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ManualTaggerAdapter.java
   2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ManualTaggerAdapter.java
   2012-06-17 14:29:51 UTC (rev 7383)
@@ -16,7 +16,7 @@
  */
 public class ManualTaggerAdapter implements Tagger {
 
-       private ManualTagger manualTagger;
+       private final ManualTagger manualTagger;
 
        public ManualTaggerAdapter(ManualTagger manualTagger) {
                this.manualTagger = manualTagger;

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/SentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/SentenceTokenizerTest.java
 2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/SentenceTokenizerTest.java
 2012-06-17 14:29:51 UTC (rev 7383)
@@ -27,9 +27,9 @@
 public class SentenceTokenizerTest extends TestCase {
 
   // accept \n as paragraph:
-  private SentenceTokenizer stokenizer = new SentenceTokenizer();
+  private final SentenceTokenizer stokenizer = new SentenceTokenizer();
   // accept only \n\n as paragraph:
-  private SentenceTokenizer stokenizer2 = new SentenceTokenizer();
+  private final SentenceTokenizer stokenizer2 = new SentenceTokenizer();
   
   public void setUp() {
     stokenizer.setSingleLineBreaksMarksParagraph(true);  

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/WordTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/WordTokenizerTest.java 
    2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/WordTokenizerTest.java 
    2012-06-17 14:29:51 UTC (rev 7383)
@@ -26,11 +26,11 @@
 public class WordTokenizerTest extends TestCase {
 
   public void testTokenize() {
-    WordTokenizer w = new WordTokenizer();
-    List <String> testList = w.tokenize("This is\u00A0a test");
+    WordTokenizer wordTokenizer = new WordTokenizer();
+    List <String> testList = wordTokenizer.tokenize("This is\u00A0a test");
     assertEquals(testList.size(), 7);
     assertEquals("[This,  , is, \u00A0, a,  , test]", testList.toString());
-    testList = w.tokenize("This\rbreaks");
+    testList = wordTokenizer.tokenize("This\rbreaks");
     assertEquals(3, testList.size());
     assertEquals("[This, \r, breaks]", testList.toString());
   }

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/cs/CzechSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/cs/CzechSentenceTokenizerTest.java
 2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/cs/CzechSentenceTokenizerTest.java
 2012-06-17 14:29:51 UTC (rev 7383)
@@ -25,84 +25,11 @@
 
 public class CzechSentenceTokenizerTest extends TestCase {
 
-  // accept \n as paragraph:
   private final SentenceTokenizer stokenizer = new CzechSentenceTokenizer();
 
-  // accept only \n\n as paragraph:
-  private final SentenceTokenizer stokenizer2 = new CzechSentenceTokenizer();
-
-  public final void setUp() {
-    stokenizer.setSingleLineBreaksMarksParagraph(true);
-    stokenizer2.setSingleLineBreaksMarksParagraph(false);
-  }
-
   public final void testTokenize() {
     // NOTE: sentences here need to end with a space character so they
     // have correct whitespace when appended:
-    testSplit("Dies ist ein Satz.");
-    testSplit("Tři sta třicet tři stříbrných křepelek přeletělo přes stři sta 
třicet tři stříbrných střech.");
-    testSplit("Dies ist ein Satz. ", "Noch einer.");
-    testSplit("Ein Satz! ", "Noch einer.");
-    testSplit("Ein Satz... ", "Noch einer.");
-    testSplit("Unter http://www.test.de gibt es eine Website.");
-    testSplit("Das Schreiben ist auf den 3.10. datiert.");
-    testSplit("Das Schreiben ist auf den 31.1. datiert.");
-    testSplit("Das Schreiben ist auf den 3.10.2000 datiert.");
-
-    testSplit("Heute ist der 13.12.2004.");
-    testSplit("Dnes je 16.3.2007.");
-    testSplit("Tohle je 1. verze testu českého tokenizeru.");
-    testSplit("Es geht am 24.09. los.");
-    testSplit("Das in Punkt 3.9.1 genannte Verhalten.");
-
-    testSplit("Das ist,, also ob es bla.");
-    testSplit("Das ist es.. ", "So geht es weiter.");
-
-    testSplit("Das hier ist ein(!) Satz.");
-    testSplit("Das hier ist ein(!!) Satz.");
-    testSplit("Das hier ist ein(?) Satz.");
-    testSplit("Das hier ist ein(???) Satz.");
-    testSplit("Das hier ist ein(???) Satz.");
-
-    testSplit("„Česká sazba se oproti okolnímu světu v některých aspektech 
mírně liší”. ", "Bylo řečeno.");
-    testSplit("„Jeď nejrychleji jak můžeš”, řekla mu tiše.");
-
-    // TODO: derzeit unterscheiden wir nicht, ob nach dem Doppelpunkt ein
-    // ganzer Satz kommt oder nicht:
-    testSplit("Das war es: gar nichts.");
-    testSplit("Das war es: Dies ist ein neuer Satz.");
-
-    // incomplete sentences, need to work for on-thy-fly checking of texts:
-    testSplit("Here's a");
-    testSplit("Here's a sentence. ", "And here's one that's not comp");
-
-    // Tests taken from LanguageTool's SentenceSplitterTest.py:
-    testSplit("This is a sentence. ");
-    testSplit("This is a sentence. ", "And this is another one.");
-    testSplit("This is a sentence.", "Isn't it?", "Yes, it is.");
-
-    testSplit("Don't split strings like U. S. A. either.");
-    testSplit("Don't split... ", "Well you know. ", "Here comes more text.");
-    testSplit("Don't split... well you know. ", "Here comes more text.");
-    testSplit("The \".\" should not be a delimiter in quotes.");
-    testSplit("\"Here he comes!\" she said.");
-    testSplit("\"Here he comes!\", she said.");
-    testSplit("\"Here he comes.\" ", "But this is another sentence.");
-    testSplit("\"Here he comes!\". ", "That's what he said.");
-    testSplit("The sentence ends here. ", "(Another sentence.)");
-    // known to fail:
-    // testSplit(new String[]{"He won't. ", "Really."});
-    testSplit("He won't go. ", "Really.");
-    testSplit("He won't say no.", "Not really.");
-    testSplit("He won't say No.", "Not really.");
-    testSplit("This is it: a test.");
-    // one/two returns = paragraph = new sentence:
-    TestTools.testSplit(new String[] { "He won't\n\n", "Really." }, 
stokenizer2);
-    TestTools.testSplit(new String[] { "He won't\n", "Really." }, stokenizer);
-    TestTools.testSplit(new String[] { "He won't\n\n", "Really." }, 
stokenizer2);
-    TestTools.testSplit(new String[] { "He won't\nReally." }, stokenizer2);
-    // Missing space after sentence end:
-    testSplit("James is from the Ireland!", "He lives in Spain now.");
     // From the abbreviation list:
     testSplit("V češtině jsou zkr. i pro jazyky, např. angl., maď. a jiné.");
     testSplit("Titul jako doc. RNDr. Adam Řezník, Ph.D. se může vyskytnout.");

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/da/DanishSRXSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/da/DanishSRXSentenceTokenizerTest.java
     2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/da/DanishSRXSentenceTokenizerTest.java
     2012-06-17 14:29:51 UTC (rev 7383)
@@ -28,13 +28,8 @@
  */
 public class DanishSRXSentenceTokenizerTest extends TestCase {
 
-  // accept \n as paragraph:
   private final SRXSentenceTokenizer stokenizer = new 
SRXSentenceTokenizer(Language.DANISH);
 
-  public void setUp() {
-    stokenizer.setSingleLineBreaksMarksParagraph(true);
-  }
-
   public void testTokenize() {
     // NOTE: sentences here need to end with a space character so they
     // have correct whitespace when appended:

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/de/GermanSRXSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/de/GermanSRXSentenceTokenizerTest.java
     2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/de/GermanSRXSentenceTokenizerTest.java
     2012-06-17 14:29:51 UTC (rev 7383)
@@ -28,15 +28,7 @@
  */
 public class GermanSRXSentenceTokenizerTest extends TestCase {
 
-  // accept \n as paragraph:
   private final SRXSentenceTokenizer stokenizer = new 
SRXSentenceTokenizer(Language.GERMAN);
-  // accept only \n\n as paragraph:
-  private final SRXSentenceTokenizer stokenizer2 = new 
SRXSentenceTokenizer(Language.GERMAN);
-  
-  public void setUp() {
-    stokenizer.setSingleLineBreaksMarksParagraph(true);  
-    stokenizer2.setSingleLineBreaksMarksParagraph(false);  
-  }
 
   public void testTokenize() {
     // NOTE: sentences here need to end with a space character so they

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/eo/EsperantoWordTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/eo/EsperantoWordTokenizerTest.java
 2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/eo/EsperantoWordTokenizerTest.java
 2012-06-17 14:29:51 UTC (rev 7383)
@@ -26,11 +26,11 @@
 public class EsperantoWordTokenizerTest extends TestCase {
 
   public void testTokenize() {
-    EsperantoWordTokenizer w = new EsperantoWordTokenizer();
-    List<String> testList = w.tokenize("Tio estas\u00A0testo");
+    EsperantoWordTokenizer wordTokenizer = new EsperantoWordTokenizer();
+    List<String> testList = wordTokenizer.tokenize("Tio estas\u00A0testo");
     assertEquals(testList.size(), 5);
     assertEquals("[Tio,  , estas, \u00A0, testo]", testList.toString());
-    testList = w.tokenize("dank' al 'tio'");
+    testList = wordTokenizer.tokenize("dank' al 'tio'");
     assertEquals(testList.size(), 7);
     assertEquals("[dank',  , al,  , ', tio, ']", testList.toString());
   }

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchSRXSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchSRXSentenceTokenizerTest.java
      2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchSRXSentenceTokenizerTest.java
      2012-06-17 14:29:51 UTC (rev 7383)
@@ -31,10 +31,6 @@
 
   private final SRXSentenceTokenizer stokenizer = new 
SRXSentenceTokenizer(Language.DUTCH);
 
-  public void setUp() {
-    stokenizer.setSingleLineBreaksMarksParagraph(true);  
-  }
-
   public void testTokenize() {
     // NOTE: sentences here need to end with a space character so they
     // have correct whitespace when appended:

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchWordTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchWordTokenizerTest.java
     2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/nl/DutchWordTokenizerTest.java
     2012-06-17 14:29:51 UTC (rev 7383)
@@ -26,11 +26,11 @@
 public class DutchWordTokenizerTest extends TestCase {
 
   public void testTokenize() {
-    DutchWordTokenizer w = new DutchWordTokenizer();
-    List<String> testList = w.tokenize("This is\u00A0a test");
+    DutchWordTokenizer wordTokenizer = new DutchWordTokenizer();
+    List<String> testList = wordTokenizer.tokenize("This is\u00A0a test");
     assertEquals(testList.size(), 7);
     assertEquals("[This,  , is, \u00A0, a,  , test]", testList.toString());
-    testList = w.tokenize("Bla bla oma's bla bla 'test");
+    testList = wordTokenizer.tokenize("Bla bla oma's bla bla 'test");
     assertEquals(testList.size(), 12);
     assertEquals("[Bla,  , bla,  , oma's,  , bla,  , bla,  , ', test]",
         testList.toString());

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/pl/PolishSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/pl/PolishSentenceTokenizerTest.java
        2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/pl/PolishSentenceTokenizerTest.java
        2012-06-17 14:29:51 UTC (rev 7383)
@@ -27,27 +27,10 @@
 
 public class PolishSentenceTokenizerTest extends TestCase {
 
-  // accept \n as paragraph:
   private final SentenceTokenizer stokenizer = new 
SRXSentenceTokenizer(Language.POLISH);
-  // accept only \n\n as paragraph:
-  private final SentenceTokenizer stokenizer2 = new 
SRXSentenceTokenizer(Language.POLISH);
 
-  public final void setUp() {
-    stokenizer.setSingleLineBreaksMarksParagraph(true);
-    stokenizer2.setSingleLineBreaksMarksParagraph(false);
-  }
-
   public final void testTokenize() {
     
-    testSplit(new String[] { "This is a sentence. " });
-    
-    // NOTE: sentences here need to end with a space character so they
-    // have correct whitespace when appended:
-    testSplit(new String[] { "Dies ist ein Satz." });
-    testSplit(new String[] { "Dies ist ein Satz. ", "Noch einer." });
-    testSplit(new String[] { "Ein Satz! ", "Noch einer." });
-    testSplit(new String[] { "Ein Satz... ", "Noch einer." });
-    testSplit(new String[] { "Unter http://www.test.de gibt es eine Website." 
});
     testSplit(new String[] { "To się wydarzyło 3.10.2000 i mam na to dowody." 
});
 
     testSplit(new String[] { "To było 13.12 - nikt nie zapomni tego 
przemówienia." });    
@@ -61,62 +44,9 @@
     testSplit(new String[] { "To jest tzw. premier." });
     testSplit(new String[] { "Jarek kupił sobie kurteczkę, tj. strój Marka." 
});
 
-    testSplit(new String[] { "Das ist,, also ob es bla." });
-    testSplit(new String[] { "Das ist es.. ", "So geht es weiter." });
-
-    testSplit(new String[] { "Das hier ist ein(!) Satz." });
-    testSplit(new String[] { "Das hier ist ein(!!) Satz." });
-    testSplit(new String[] { "Das hier ist ein(?) Satz." });
-    testSplit(new String[] { "Das hier ist ein(???) Satz." });
-    testSplit(new String[] { "Das hier ist ein(???) Satz." });
-
     testSplit(new String[] { "„Prezydent jest niemądry”. ", "Tak wyszło." });
     testSplit(new String[] { "„Prezydent jest niemądry”, powiedział premier" 
});
 
-    // TODO: derzeit unterscheiden wir nicht, ob nach dem Doppelpunkt ein
-    // ganzer Satz kommt oder nicht:
-    testSplit(new String[] { "Das war es: gar nichts." });
-    testSplit(new String[] { "Das war es: Dies ist ein neuer Satz." });
-
-    // incomplete sentences, need to work for on-thy-fly checking of texts:
-    testSplit(new String[] { "Here's a" });
-    testSplit(new String[] { "Here's a sentence. ",
-        "And here's one that's not comp" });
-
-    // Tests taken from LanguageTool's SentenceSplitterTest.py:
-    testSplit(new String[] { "This is a sentence. " });
-    testSplit(new String[] { "This is a sentence. ", "And this is another 
one." });
-    testSplit(new String[] { "This is a sentence.", "Isn't it?", "Yes, it is." 
});
-
-    testSplit(new String[] { "Don't split strings like U. S. A. either." });
-    testSplit(new String[] { "Don't split strings like U.S.A. either." });
-    testSplit(new String[] { "Don't split... ", "Well you know. ",
-        "Here comes more text." });
-    testSplit(new String[] { "Don't split... well you know. ",
-        "Here comes more text." });
-    testSplit(new String[] { "The \".\" should not be a delimiter in quotes." 
});
-    testSplit(new String[] { "\"Here he comes!\" she said." });
-    testSplit(new String[] { "\"Here he comes!\", she said." });
-    testSplit(new String[] { "\"Here he comes.\" ",
-        "But this is another sentence." });
-    testSplit(new String[] { "\"Here he comes!\". ", "That's what he said." });
-    testSplit(new String[] { "The sentence ends here. ", "(Another sentence.)" 
});
-    // known to fail:
-    // testSplit(new String[]{"He won't. ", "Really."});
-    testSplit(new String[] { "He won't go. ", "Really." });
-    testSplit(new String[] { "He won't say no.", "Not really." });
-    testSplit(new String[] { "This is it: a test." });
-    // one/two returns = paragraph = new sentence:
-    TestTools
-        .testSplit(new String[] { "He won't\n\n", "Really." }, stokenizer2);
-    TestTools.testSplit(new String[] { "He won't\n", "Really." }, stokenizer);
-    TestTools
-        .testSplit(new String[] { "He won't\n\n", "Really." }, stokenizer2);
-    TestTools.testSplit(new String[] { "He won't\nReally." }, stokenizer2);
-    // Missing space after sentence end:
-    testSplit(new String[] { "James is from the Ireland!",
-        "He lives in Spain now." });
-
     // from user bug reports:
     testSplit(new String[] { "Temperatura wody w systemie wynosi 30°C.",
         "W skład obiegu otwartego wchodzi zbiornik i armatura." });
@@ -147,7 +77,7 @@
   }
 
   private void testSplit(final String[] sentences) {
-    TestTools.testSplit(sentences, stokenizer2);
+    TestTools.testSplit(sentences, stokenizer);
   }
 
 }

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
      2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
      2012-06-17 14:29:51 UTC (rev 7383)
@@ -166,7 +166,7 @@
            testSplit(new String[] { "Aici este o frază [...] mult 
prescurtată." });
          }
 
-         private final void testSplit(final String[] sentences) {
+         private void testSplit(final String[] sentences) {
            TestTools.testSplit(sentences, stokenizer2);
          }
   

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ru/RussianSRXSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ru/RussianSRXSentenceTokenizerTest.java
    2012-06-17 14:20:01 UTC (rev 7382)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ru/RussianSRXSentenceTokenizerTest.java
    2012-06-17 14:29:51 UTC (rev 7383)
@@ -31,78 +31,11 @@
  */
 public class RussianSRXSentenceTokenizerTest extends TestCase {
 
-  // accept \n as paragraph:
   private final SentenceTokenizer stokenizer = new 
SRXSentenceTokenizer(Language.RUSSIAN);
-  // accept only \n\n as paragraph:
-  private final SentenceTokenizer stokenizer2 = new 
SRXSentenceTokenizer(Language.RUSSIAN);
-  
-  
-  public final void setUp() {
-    stokenizer.setSingleLineBreaksMarksParagraph(true);  
-    stokenizer2.setSingleLineBreaksMarksParagraph(false);  
-  }
 
   public final void testTokenize() {
     // NOTE: sentences here need to end with a space character so they
     // have correct whitespace when appended:
-    testSplit("Dies ist ein Satz.");
-    testSplit("Dies ist ein Satz. ", "Noch einer.");
-    testSplit("Ein Satz! ", "Noch einer.");
-    testSplit("Ein Satz... ", "Noch einer.");
-    testSplit("Unter http://www.test.de gibt es eine Website.");
-    testSplit("Das Schreiben ist auf den 3.10. datiert.");
-    testSplit("Das Schreiben ist auf den 31.1. datiert.");
-    testSplit("Das Schreiben ist auf den 3.10.2000 datiert.");
-
-    testSplit("Heute ist der 13.12.2004.");
-    testSplit("Es geht am 24.09. los.");
-    testSplit("Das in Punkt 3.9.1 genannte Verhalten.");
-
-    testSplit("Das ist,, also ob es bla.");
-    testSplit("Das ist es.. ", "So geht es weiter.");
-
-    testSplit("Das hier ist ein(!) Satz.");
-    testSplit("Das hier ist ein(!!) Satz.");
-    testSplit("Das hier ist ein(?) Satz.");
-    testSplit("Das hier ist ein(???) Satz.");
-    testSplit("Das hier ist ein(???) Satz.");
-
-    // TODO: derzeit unterscheiden wir nicht, ob nach dem Doppelpunkt ein
-    // ganzer Satz kommt oder nicht:
-    testSplit("Das war es: gar nichts.");
-    testSplit("Das war es: Dies ist ein neuer Satz.");
-
-    // incomplete sentences, need to work for on-thy-fly checking of texts:
-    testSplit("Here's a");
-    testSplit("Here's a sentence. ", "And here's one that's not comp");
-
-    // Tests taken from LanguageTool's SentenceSplitterTest.py:
-    testSplit("This is a sentence. ");
-    testSplit("This is a sentence. ", "And this is another one.");
-    testSplit("This is a sentence.", "Isn't it?", "Yes, it is.");
-    testSplit("Don't split strings like U.S.A. either.");
-    testSplit("Don't split strings like U. S. A. either.");
-    testSplit("Don't split... ", "Well you know. ", "Here comes more text.");
-    testSplit("Don't split... well you know. ", "Here comes more text.");
-    testSplit("The \".\" should not be a delimiter in quotes.");
-    testSplit("\"Here he comes!\" she said.");
-    testSplit("\"Here he comes!\", she said.");
-    testSplit("\"Here he comes.\" ", "But this is another sentence.");
-    testSplit("\"Here he comes!\". ", "That's what he said.");
-    testSplit("The sentence ends here. ", "(Another sentence.)");
-    // known to fail:
-    // testSplit(new String[]{"He won't. ", "Really."});
-    testSplit("He won't go. ", "Really.");
-    testSplit("He won't say no.", "Not really.");
-    testSplit("He won't say No.", "Not really.");
-    testSplit("This is it: a test.");
-    // one/two returns = paragraph = new sentence:
-    TestTools.testSplit(new String[] { "He won't\n\n", "Really." }, 
stokenizer2);
-    TestTools.testSplit(new String[] { "He won't\n", "Really." }, stokenizer);
-    TestTools.testSplit(new String[] { "He won't\n\n", "Really." }, 
stokenizer2);
-    TestTools.testSplit(new String[] { "He won't\nReally." }, stokenizer2);
-    // Missing space after sentence end:
-    testSplit("James is from the Ireland!", "He lives in Spain now.");
     // From the Russian abbreviation list:
     testSplit("Отток капитала из России составил 7 млрд. долларов, сообщил 
министр финансов Алексей Кудрин.");
     testSplit("Журнал издаётся с 1967 г., пользуется большой популярностью в 
мире.");

This was sent by the SourceForge.net collaborative development platform, the 
world's largest Open Source development site.


------------------------------------------------------------------------------
Live Security Virtual Conference
Exclusive live event will cover all the ways today's security and 
threat landscape has changed and how IT managers can respond. Discussions 
will include endpoint security, mobile security and the latest in malware 
threats. http://www.accelacomm.com/jaw/sfrnl04242012/114/50122263/
_______________________________________________
Languagetool-cvs mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/languagetool-cvs

[LanguageTool] SF.net SVN: languagetool:[7383] trunk/JLanguageTool/src/test/org/ languagetool/tokenizers

Reply via email to