Lucene очень плохо поддерживает русский язык.
RussianAnalyzer (часть lucene-contrib) имеет очень низкое качество.
Модуль RussianStemmer для Snowball еще хуже. Он не распознает русский текст в строках Unicode, по-видимому, предполагая, что вместо этого нужно использовать несколько странных сочетаний Unicode и KOI8-R.
Знаете ли вы лучшие решения?