Не уверен, что это относится к статистике, но я пытаюсь использовать Python для достижения этого. Я просто имею список целых чисел:
data = [300,244,543,1011,300,125,300 ... ]
И я хотел бы знать вероятность появления значения с учетом этих данных. Я графовал гистограммы данных с помощью matplotlib и получил их:
В первом графике цифры представляют количество символов в последовательности. На втором графике это измеренное количество времени в миллисекундах. Минимум больше нуля, но не обязательно максимум. Графики были созданы с использованием миллионов примеров, но я не уверен, что могу сделать какие-либо другие предположения о распределении. Я хочу знать вероятность нового значения, учитывая, что у меня есть несколько миллионов примеров значений. На первом графике у меня есть несколько миллионов последовательностей разной длины. Хотелось бы узнать, например, вероятность длины 200.
Я знаю, что для непрерывного распределения вероятность любой точной точки должна быть равна нулю, но, учитывая поток новых значений, мне нужно иметь возможность сказать, насколько вероятно каждое значение. Я просмотрел некоторые из функций плотности плотности numpy/scipy, но я не уверен, что выбрать или как запросить новые значения, как только я запустил что-то вроде scipy.stats.norm.pdf(data). Похоже, что разные функции плотности вероятности будут соответствовать данным по-разному. Учитывая форму гистограмм, я не уверен, как решить, что использовать.