Hi,
I've created another set of rules for Tamil that is to be based on the POS
tagging. -e.
<rulegroup id="இறுதி_அ2" name="முதல் சொல்லின் இறுதி எழுத்து அ (2)">
<rule>
<pattern>
<token postag='VAN'><exception
regexp='yes'>(([ஃ-ஹ][ா-்]?)+)[ா-்]</exception></token>
<token regexp='yes'>க[ா-ௌ]?(([க-ஹ][ா-்]?)+)?</token>
</pattern>
<message>'போக', 'வர', 'படிக்க' போன்ற (செ(ய்)ய' என்னும்)
வினையெச்சங்களின் பின் ஒற்று மிகும்.<suggestion>\1க் \2</suggestion> என்பதே
சரி.</message>
<url>
http://www.tamilvu.org/slet/lA100/lA100pd3.jsp?bookid=169&pno=77#head
</url>
<short>அ-வில் முடியும் சொல்பின்</short>
<example type='incorrect'>அவர் ஒரு புதினத்தை என்னிடம்
<marker>படிக்க கொடுத்தார்</marker>.</example>
<example type='correct'>அவர் ஒரு புதினத்தை என்னிடம்
<marker>படிக்கக் கொடுத்தார்</marker>.</example>
</rule>
<rule>
<pattern>
<token postag='VAN'><exception
regexp='yes'>(([ஃ-ஹ][ா-்]?)+)[ா-்]</exception></token>
<token regexp='yes'>ச[ா-ௌ]?(([க-ஹ][ா-்]?)+)?</token>
</pattern>
<message>'போக', 'வர', 'படிக்க' போன்ற (செ(ய்)ய' என்னும்)
வினையெச்சங்களின் பின் ஒற்று மிகும்.<suggestion>\1க் \2</suggestion> என்பதே
சரி.</message>
<url>
http://www.tamilvu.org/slet/lA100/lA100pd3.jsp?bookid=169&pno=77#head
</url>
<short>அ-வில் முடியும் சொல்பின்</short>
<example type='incorrect'>அவர் அக்காரியத்தை உடனே <marker>செய்ய
சொன்னார்</marker>.</example>
<example type='correct'>அவர் அக்காரியத்தை உடனே <marker>செய்யச்
சொன்னார்</marker>.</example>
</rule>
<rule>
<pattern>
<token postag='VAN'><exception
regexp='yes'>(([ஃ-ஹ][ா-்]?)+)[ா-்]</exception></token>
<token regexp='yes'>த[ா-ௌ]?(([க-ஹ][ா-்]?)+)?</token>
</pattern>
<message>'போக', 'வர', 'படிக்க' போன்ற (செ(ய்)ய' என்னும்)
வினையெச்சங்களின் பின் ஒற்று மிகும்.<suggestion>\1க் \2</suggestion> என்பதே
சரி.</message>
<url>
http://www.tamilvu.org/slet/lA100/lA100pd3.jsp?bookid=169&pno=77#head
</url>
<short>அ-வில் முடியும் சொல்பின்</short>
<example type='incorrect'>அச்செய்தியைக் கேட்ட அவள் உடனே <marker>அழ
தொடங்கினாள்</marker>.</example>
<example type='correct'>அச்செய்தியைக் கேட்ட அவள் உடனே <marker>அழத்
தொடங்கினாள்</marker>.</example>
</rule>
<rule>
<pattern>
<token postag='VAN'><exception
regexp='yes'>(([ஃ-ஹ][ா-்]?)+)[ா-்]</exception></token>
<token regexp='yes'>ப[ா-ௌ]?(([க-ஹ][ா-்]?)+)?</token>
</pattern>
<message>'போக', 'வர', 'படிக்க' போன்ற (செ(ய்)ய' என்னும்)
வினையெச்சங்களின் பின் ஒற்று மிகும்.<suggestion>\1க் \2</suggestion> என்பதே
சரி.</message>
<url>
http://www.tamilvu.org/slet/lA100/lA100pd3.jsp?bookid=169&pno=77#head
</url>
<short>அ-வில் முடியும் சொல்பின்</short>
<example type='incorrect'>அவனை அவர் எப்படியாவது <marker>பழிவாங்க
பார்த்தார்</marker>.</example>
<example type='correct'>அவனை அவர் எப்படியாவது <marker>பழிவாங்கப்
பார்த்தார்</marker>.</example>
</rule>
</rulegroup>
On 21 July 2014 20:12, Elanjelian Venugopal <tamil...@gmail.com> wrote:
> Hi Daniel,
>
> No I didn't build a binary. I followed the example here:
> http://wiki.languagetool.org/developing-a-tagger-dictionary#toc2 and
> created them manually.
>
> I am trying to get hold of a POS tagger for Tamil that is open sourced;
> will keep you posted if it comes through. -e.
>
>
> On 21 July 2014 20:01, Daniel Naber <daniel.na...@languagetool.org> wrote:
>
>> On 2014-07-21 13:30, Elanjelian Venugopal wrote:
>>
>> Hi Elanjelian,
>>
>> > I've created a first draft of the binary file for a particular type of
>> > inflection for Tamil. Hopefully it is correct. Tamil is highly
>> > inflected; so there would be thousands of word forms that need to be
>> > added with different pos tags. If you could load this up, I could put
>> > together a few new rules for Tamil.
>>
>> did you actually also build a binary? I'm just wondering because you
>> attached a .txt. If you built a binary, please send that, otherwise I
>> will add a binary built from the .txt you sent.
>>
>> BTW, we don't have to use this approach of putting all forms into a
>> file. We use it for highly inflected languages like Polish, where it
>> works fine, but if an algorithm can find out the part of speech, we
>> might use one. Maybe there are already libraries that do this, or we
>> could write one.
>>
>> Regards
>> Daniel
>>
>>
>>
>> ------------------------------------------------------------------------------
>> Want fast and easy access to all the code in your enterprise? Index and
>> search up to 200,000 lines of code with a free copy of Black Duck
>> Code Sight - the same software that powers the world's largest code
>> search on Ohloh, the Black Duck Open Hub! Try it now.
>> http://p.sf.net/sfu/bds
>> _______________________________________________
>> Languagetool-devel mailing list
>> Languagetool-devel@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/languagetool-devel
>>
>
>
------------------------------------------------------------------------------
Want fast and easy access to all the code in your enterprise? Index and
search up to 200,000 lines of code with a free copy of Black Duck
Code Sight - the same software that powers the world's largest code
search on Ohloh, the Black Duck Open Hub! Try it now.
http://p.sf.net/sfu/bds
_______________________________________________
Languagetool-devel mailing list
Languagetool-devel@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/languagetool-devel