Revision: 6259
          
http://languagetool.svn.sourceforge.net/languagetool/?rev=6259&view=rev
Author:   archeus
Date:     2012-01-16 12:05:22 +0000 (Mon, 16 Jan 2012)
Log Message:
-----------
[ro] more sentence tokenizer rules

Modified Paths:
--------------
    trunk/JLanguageTool/src/resource/segment.srx
    
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java

Modified: trunk/JLanguageTool/src/resource/segment.srx
===================================================================
--- trunk/JLanguageTool/src/resource/segment.srx        2012-01-15 22:36:21 UTC 
(rev 6258)
+++ trunk/JLanguageTool/src/resource/segment.srx        2012-01-16 12:05:22 UTC 
(rev 6259)
@@ -1227,6 +1227,14 @@
 <afterbreak>[A-Z]</afterbreak>
 </rule>
 <rule break="no">
+<beforebreak>\b(pag|leg|art)\.\s</beforebreak>
+<afterbreak></afterbreak>
+</rule>
+<rule break="no">
+<beforebreak>\b(ian|feb|febr|mar|mart|apr|iun|iul|aug|sep|sept|oct|nov|dec)\.\s</beforebreak>
+<afterbreak>[^\p{Lu}]</afterbreak>
+</rule>
+<rule break="no">
 <beforebreak>\bdpdv\.\s</beforebreak>
 <afterbreak></afterbreak>
 </rule>

Modified: 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
===================================================================
--- 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
      2012-01-15 22:36:21 UTC (rev 6258)
+++ 
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
      2012-01-16 12:05:22 UTC (rev 6259)
@@ -136,6 +136,21 @@
            testSplit(new String[] { "Are mere, pere, etc. ", "Nu are alune." 
});
            // ş.a. - şi altele
            testSplit(new String[] { "Are mere, pere, ș.a. dar nu are alune." 
});
+
+        // pag, leg, art
+           testSplit(new String[] { "Lecția începe la pag. următoare și are 
trei pagini." });
+           testSplit(new String[] { "Lecția începe la pag. 20 și are trei 
pagini." });
+           testSplit(new String[] { "A acționat în conformitate cu lg. 144, 
art. 33." });
+           testSplit(new String[] { "A acționat în conformitate cu leg. 144, 
art. 33." });
+           testSplit(new String[] { "A acționat în conformitate cu legea nr. 
11." });
+           testSplit(new String[] { "Lupta a avut loc în anul 2000 î.H. și a 
durat trei ani." });
+           
+           // lunile anului, abreviate
+           testSplit(new String[] { "Discuția a avut loc pe data de douăzeci 
aug. și a durat două ore." });
+           testSplit(new String[] { "Discuția a avut loc pe data de douăzeci 
ian. și a durat două ore." });
+           testSplit(new String[] { "Discuția a avut loc pe data de douăzeci 
feb. și a durat două ore." });
+           testSplit(new String[] { "Discuția a avut loc pe data de douăzeci 
ian.", "A durat două ore." });
+           
            // M.Ap.N. - Ministerul Apărării Nationale
            // there are 2 rules for this in segment.srx. Can this be done with 
only one rule?
            testSplit(new String[] { "A fost și la M.Ap.N. dar nu l-au primit. 
" });

This was sent by the SourceForge.net collaborative development platform, the 
world's largest Open Source development site.


------------------------------------------------------------------------------
RSA(R) Conference 2012
Mar 27 - Feb 2
Save $400 by Jan. 27
Register now!
http://p.sf.net/sfu/rsa-sfdev2dev2
_______________________________________________
Languagetool-cvs mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/languagetool-cvs

Reply via email to