Revision: 6259
http://languagetool.svn.sourceforge.net/languagetool/?rev=6259&view=rev
Author: archeus
Date: 2012-01-16 12:05:22 +0000 (Mon, 16 Jan 2012)
Log Message:
-----------
[ro] more sentence tokenizer rules
Modified Paths:
--------------
trunk/JLanguageTool/src/resource/segment.srx
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
Modified: trunk/JLanguageTool/src/resource/segment.srx
===================================================================
--- trunk/JLanguageTool/src/resource/segment.srx 2012-01-15 22:36:21 UTC
(rev 6258)
+++ trunk/JLanguageTool/src/resource/segment.srx 2012-01-16 12:05:22 UTC
(rev 6259)
@@ -1227,6 +1227,14 @@
<afterbreak>[A-Z]</afterbreak>
</rule>
<rule break="no">
+<beforebreak>\b(pag|leg|art)\.\s</beforebreak>
+<afterbreak></afterbreak>
+</rule>
+<rule break="no">
+<beforebreak>\b(ian|feb|febr|mar|mart|apr|iun|iul|aug|sep|sept|oct|nov|dec)\.\s</beforebreak>
+<afterbreak>[^\p{Lu}]</afterbreak>
+</rule>
+<rule break="no">
<beforebreak>\bdpdv\.\s</beforebreak>
<afterbreak></afterbreak>
</rule>
Modified:
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
===================================================================
---
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
2012-01-15 22:36:21 UTC (rev 6258)
+++
trunk/JLanguageTool/src/test/org/languagetool/tokenizers/ro/RomanianSentenceTokenizerTest.java
2012-01-16 12:05:22 UTC (rev 6259)
@@ -136,6 +136,21 @@
testSplit(new String[] { "Are mere, pere, etc. ", "Nu are alune."
});
// ş.a. - şi altele
testSplit(new String[] { "Are mere, pere, ș.a. dar nu are alune."
});
+
+ // pag, leg, art
+ testSplit(new String[] { "Lecția începe la pag. următoare și are
trei pagini." });
+ testSplit(new String[] { "Lecția începe la pag. 20 și are trei
pagini." });
+ testSplit(new String[] { "A acționat în conformitate cu lg. 144,
art. 33." });
+ testSplit(new String[] { "A acționat în conformitate cu leg. 144,
art. 33." });
+ testSplit(new String[] { "A acționat în conformitate cu legea nr.
11." });
+ testSplit(new String[] { "Lupta a avut loc în anul 2000 î.H. și a
durat trei ani." });
+
+ // lunile anului, abreviate
+ testSplit(new String[] { "Discuția a avut loc pe data de douăzeci
aug. și a durat două ore." });
+ testSplit(new String[] { "Discuția a avut loc pe data de douăzeci
ian. și a durat două ore." });
+ testSplit(new String[] { "Discuția a avut loc pe data de douăzeci
feb. și a durat două ore." });
+ testSplit(new String[] { "Discuția a avut loc pe data de douăzeci
ian.", "A durat două ore." });
+
// M.Ap.N. - Ministerul Apărării Nationale
// there are 2 rules for this in segment.srx. Can this be done with
only one rule?
testSplit(new String[] { "A fost și la M.Ap.N. dar nu l-au primit.
" });
This was sent by the SourceForge.net collaborative development platform, the
world's largest Open Source development site.
------------------------------------------------------------------------------
RSA(R) Conference 2012
Mar 27 - Feb 2
Save $400 by Jan. 27
Register now!
http://p.sf.net/sfu/rsa-sfdev2dev2
_______________________________________________
Languagetool-cvs mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/languagetool-cvs