ഇതുഒരുസ്ടലംമാണ്
itu oru stalam anu
Это строка Юникода, означающая, что это место
import nltk
nltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))
не работает для меня.
nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))
также не работает другие примеры
"കണ്ടില്ല " = കണ്ടു +ഇല്ല,
"വലിയൊരു" = വലിയ + ഒരു
Right Split:
ഇത് ഒരു സ്ഥാലം ആണ്
выход:
[u'\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d4d\u0d25\u0d32\u0d02\u0d06\u0d23\u0d4d']
Мне просто нужно разбить слова, как показано в другом примере. Другой примерный раздел предназначен для тестирования. Проблема не в Unicode. Это с морфологией языка. для этого вам нужно использовать морфологический анализатор
Взгляните на эту статью.
http://link.springer.com/chapter/10.1007%2F978-3-642-27872-3_38