Use sort -u

On Fri, Jul 25, 2014 at 4:02 PM, Shrinivasan T <[email protected]>
wrote:

> I have a text file with tamil words.
> one word per line.
>
>
> cat test.txt
> நன்றி
> நண்பரே.
> நன்றி
>
>
> Let us sort this.
>
> cat test.txt | sort
> நண்பரே.
> நன்றி
> நன்றி
>
>
> Let us use uniq for this.
>
> cat test.txt | sort | uniq
> நண்பரே.
> நன்றி
> நன்றி
>
>
> uniq is not working for the unicode text.
>
> We are collecting tamil words to build a tamil spellchecker using hunspell.
> We need to remove duplicate words from the collection.
>
> The uniq is not working.
>
> Is there any other way to find duplicate words from unicode file?
>
> Thanks.
>
>
> --
> Regards,
> T.Shrinivasan
>
>
> My Life with GNU/Linux : http://goinggnu.wordpress.com
> Free E-Magazine on Free Open Source Software in Tamil : http://kaniyam.com
>
> Get CollabNet Subversion Edge :     http://www.collab.net/svnedge
> _______________________________________________
> ILUGC Mailing List:
> http://www.ae.iitm.ac.in/mailman/listinfo/ilugc
> ILUGC Mailing List Guidelines:
> http://ilugc.in/mailinglist-guidelines




-- 
With thanks & regards
*Rahimanuddin Shaik*
నాని


[image: File:Wikimedia India logo.svg] <http://wiki.wikimedia.in/>
 reachout

ఒక విశ్వాన్ని ఊహించండి, ఎక్కడయితే ప్రతి మనిషి ఒక సంపూర్ణ విజ్ఞానభాండారాన్ని
అందరితో పంచుకోగలడో, ఆ విశ్వాన్ని ఊహించండి. *అటువంటి విశ్వాన్ని నెలకొల్పడమే
మా సంకల్పం.*
తెలుగు వికీపీడియా : http://te.wikipedia.org
A new address for ebooks : http://kinige.com
*తెలుగువారికి సాంకేతిక సహాయం - http://techsetu.com <http://techsetu.com/>*
_______________________________________________
ILUGC Mailing List:
http://www.ae.iitm.ac.in/mailman/listinfo/ilugc
ILUGC Mailing List Guidelines:
http://ilugc.in/mailinglist-guidelines

Reply via email to