Я пытаюсь инициализировать строки в ngrams. Странно в документации для NGramTokenizer Я не вижу метода, который будет возвращать отдельные ngrams, которые были маркированы. На самом деле, я вижу только два метода в классе NGramTokenizer, которые возвращают String Objects.
Вот код, который у меня есть:
Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
- Где обозначены ngrams?
- Как я могу получить результат в строках/словах?
Я хочу, чтобы мой вывод выглядел следующим образом: This, is, a, test, string, This is, a, test, test string. Это тест, тестовая строка.