Моя цель - вычислить расстояние KL между следующими текстовыми документами:
1)The boy is having a lad relationship
2)The boy is having a boy relationship
3)It is a lovely day in NY
В первую очередь я вектурировал документы, чтобы легко применить numpy
1)[1,1,1,1,1,1,1]
2)[1,2,1,1,1,2,1]
3)[1,1,1,1,1,1,1]
Затем я применил следующий код для вычисления расстояния KL между текстами:
import numpy as np
import math
from math import log
v=[[1,1,1,1,1,1,1],[1,2,1,1,1,2,1],[1,1,1,1,1,1,1]]
c=v[0]
def kl(p, q):
p = np.asarray(p, dtype=np.float)
q = np.asarray(q, dtype=np.float)
return np.sum(np.where(p != 0,(p-q) * np.log10(p / q), 0))
for x in v:
KL=kl(x,c)
print KL
Вот результат приведенного выше кода: [0.0, 0.602059991328, 0.0]
.
Тексты 1 и 3 совершенно разные, но расстояние между ними равно 0, а тексты 1 и 2, которые сильно связаны, имеют расстояние 0.602059991328
. Это неверно.
Есть ли у кого-то представление о том, что я не делаю правильно в отношении KL? Большое спасибо за ваши предложения.