У меня есть набор объектов Books, классы Книга определяется следующим образом:
Class Book{
String title;
ArrayList<tags> taglist;
}
Где title - название книги, например: Javascript для макетов.
и taglist - это список тегов для нашего примера: Javascript, jquery, "web dev",..
Как я уже сказал, есть множество книг, рассказывающих о разных вещах: ИТ, БИОЛОГИЯ, ИСТОРИЯ,... Каждая книга имеет название и набор тегов, описывающих ее.
Мне приходится классифицировать автоматически эти книги в отдельные наборы по темам, например:
ЭТО КНИГИ:
- Java для чайников
- Javascript для макетов
- Узнать flash за 30 дней
- Программирование на С++
ИСТОРИЧЕСКИЕ КНИГИ:
- Мировые войны
- Америка в 1960 году
- Жизнь короля Мартина Лютера
БИОЛОГИЧЕСКИЕ КНИГИ:
- ....
Вы, ребята, знаете алгоритм/метод классификации для применения к таким проблемам?
Решение состоит в том, чтобы использовать внешний API для определения категории текста, но проблема в том, что книги находятся на разных языках: французский, испанский, английский.