Я пытаюсь вычислить общее количество раз, когда определенный термин встречается во всем индексе (частота сбора семплий). Я попытался сделать это с помощью векторов термина, однако это ограничивается одним документом. Даже в случае терминов, которые существуют в пределах указанного документа, ответ кажется максимальным на определенном doc_count (в поле_статистике), что заставляет меня сомневаться в его точности.
Запрос:
http://myip:9200/clinicaltrials/trial/AVmk-ky6XMskTDwIwpih/_termvectors?term_statistics=true
Идентификатор документа, используемый здесь, - "AVmk-ky6XMskTDwIwpih", хотя термин статистика не должен быть специфичным для документа.
Ответ:
Это то, что я получаю за термин "рак" для одного из полей:
"cancer" : {
"doc_freq" : 5297,
"ttf" : 10587,
"term_freq" : 1,
"tokens" : [
{
"position" : 15,
"start_offset" : 115,
"end_offset" : 121
}
]
},
Если я суммирую ttf для всех полей, я получаю 18915. Однако фактическая общая частота термина "рак" на самом деле равна 542829. Это заставляет меня полагать, что это ограничивает статистику term_vector подмножеством документов внутри индекс.
Любые советы здесь будут очень признательны.