Я знаю, как создать гистограмму (просто используйте "с полями" ) в gnuplot, если мой .dat файл уже имеет надлежащим образом закодированные данные. Есть ли способ взять список чисел и gnuplot предоставить гистограмму на основе диапазонов и размеров ящиков, которые пользователь предоставляет?
Гистограмма с использованием gnuplot?
Ответ 1
да, и его быстрый и простой, хотя и очень скрытый:
binwidth=5
bin(x,width)=width*floor(x/width)
plot 'datafile' using (bin($1,binwidth)):(1.0) smooth freq with boxes
проверьте help smooth freq
, чтобы увидеть, почему приведенное выше делает гистограмму
чтобы иметь дело с диапазонами, просто задайте переменную xrange.
Ответ 2
У меня есть пара исправлений/дополнений к Born2Smile очень полезный ответ:
- Пустые бункеры заставляют коробку для соседнего бункера неправильно распространяться в ее пространство; избегайте этого, используя
set boxwidth binwidth
- В версии Born2Smile бункеры отображаются в центре их нижней границы. Строго они должны простираться от нижней границы до верхней границы. Это можно исправить, изменив функцию
bin
:bin(x,width)=width*floor(x/width) + binwidth/2.0
Ответ 3
Будьте очень осторожны: все ответы на этой странице неявно принимают решение о том, где начинается битнинг - левый край самого левого лотка, если хотите, - из рук пользователя. Если пользователь объединяет любую из этих функций для объединения данных с собственным решением о том, где начинается биннинг (как это делается в блоге, который связан с выше), приведенные выше функции являются неправильными. С произвольной начальной точкой для биннинга "Мин" правильная функция:
bin(x) = width*(floor((x-Min)/width)+0.5) + Min
Вы можете понять, почему это правильно последовательно (это помогает нарисовать несколько бункеров и точку где-то в одном из них). Вычитайте Min из вашей точки данных, чтобы увидеть, насколько далеко находится диапазон биннинга. Затем разделите по ширине бина, чтобы эффективно работать в единицах "бункеров". Затем "поместите" результат, чтобы перейти к левому краю этого бункера, добавьте 0,5, чтобы перейти к середине бункера, умножьте его на ширину, чтобы вы больше не работали в единицах бункеров, но в абсолютном масштабе снова, затем, наконец, добавьте обратно на смещение Min, которое вы вычитаете в начале.
Рассмотрим эту функцию в действии:
Min = 0.25 # where binning starts
Max = 2.25 # where binning ends
n = 2 # the number of bins
width = (Max-Min)/n # binwidth; evaluates to 1.0
bin(x) = width*(floor((x-Min)/width)+0.5) + Min
например. значение 1.1 действительно попадает в левый лоток:
- эта функция правильно отображает ее в центр левой ячейки (0.75);
- Ответ Born2Smile, bin (x) = ширина * пол (x/ширина), неправильно отображает его на 1;
- mas90 answer, bin (x) = ширина * floor (x/width) + binwidth/2.0, неверно отображает его до 1.5.
Ответ Born2Smile справедлив только в том случае, если границы бинов встречаются в (n + 0,5) * binwidth (где n пробегает целые числа). Ответ mas90 корректен только в том случае, если границы бункеров встречаются при n * бинарной ширине.
Ответ 4
Вы хотите построить график, подобный этому? да? Затем вы можете посмотреть мою статью в блоге: http://gnuplot-surprising.blogspot.com/2011/09/statistic-analysis-and-histogram.html
Ключевые строки из кода:
n=100 #number of intervals
max=3. #max value
min=-3. #min value
width=(max-min)/n #interval width
#function used to map a value to the intervals
hist(x,width)=width*floor(x/width)+width/2.0
set boxwidth width*0.9
set style fill solid 0.5 # fill style
#count and plot
plot "data.dat" u (hist($1,width)):(1.0) smooth freq w boxes lc rgb"green" notitle
Ответ 5
Как обычно, Gnuplot - это фантастический инструмент для построения графиков с красивым графиком, и он может быть выполнен для выполнения всех видов вычислений. Однако, он предназначен для построения данных, а не для использования в качестве калькулятора, и часто проще использовать внешнюю программу (например, Octave) для выполнения более сложных вычислений, сохранять эти данные в файл, затем используйте Gnuplot для создания графика. Для вышеуказанной проблемы проверьте, что функция "hist" - это Octave с помощью [freq,bins]=hist(data)
, затем постройте график в Gnuplot, используя
set style histogram rowstacked gap 0
set style fill solid 0.5 border lt -1
plot "./data.dat" smooth freq with boxes
Ответ 6
Я нашел это обсуждение чрезвычайно полезным, но у меня возникли некоторые проблемы "округления".
Точнее, используя ширину бина в 0,05, я заметил, что с помощью методов, представленных здесь выше, точки данных, которые читают 0,1 и 0,15, попадают в один и тот же бит. Это (явно нежелательное поведение), скорее всего, связано с функцией "пол".
В дальнейшем мой небольшой вклад, чтобы попытаться обойти это.
bin(x,width,n)=x<=n*width? width*(n-1) + 0.5*binwidth:bin(x,width,n+1)
binwidth = 0.05
set boxwidth binwidth
plot "data.dat" u (bin($1,binwidth,1)):(1.0) smooth freq with boxes
Этот рекурсивный метод для x >= 0; можно обобщить это с более условными утверждениями, чтобы получить что-то еще более общее.
Ответ 7
Нам не нужно использовать рекурсивный метод, он может быть медленным. Мое решение использует пользовательскую функцию rint instesd функции instrinsic int или floor.
rint(x)=(x-int(x)>0.9999)?int(x)+1:int(x)
Эта функция даст rint(0.0003/0.0001)=3
, а int(0.0003/0.0001)=floor(0.0003/0.0001)=2
.
Почему? Посмотрите функцию Perl int и нулевые пробелы
Ответ 8
У меня есть небольшая модификация решения Born2Smile.
Я знаю, что это не имеет особого смысла, но вы можете хотеть его на всякий случай. Если ваши данные целые, и вам нужен размер ячейки с плавающей запятой (возможно, для сравнения с другим набором данных или плотностью графика в более тонкой сетке), вам нужно будет добавить случайное число от 0 до 1 внутреннего этажа. В противном случае будут возникать всплески из-за ошибки округления. floor(x/width+0.5)
не будет делать, потому что он создаст шаблон, который не соответствует исходным данным.
binwidth=0.3
bin(x,width)=width*floor(x/width+rand(0))
Ответ 9
Что касается функций биннинга, я не ожидал результата предлагаемых функций. А именно, если моя ширина бина равна 0,001, эти функции центрируют бункеры на 0,0005 балла, тогда как я считаю более интуитивным, чтобы ячейки были сосредоточены на границах 0.001.
Другими словами, я хотел бы иметь
Bin 0.001 contain data from 0.0005 to 0.0014
Bin 0.002 contain data from 0.0015 to 0.0024
...
Функция биннинга, с которой я столкнулся, -
my_bin(x,width) = width*(floor(x/width+0.5))
Здесь a script для сравнения некоторых из предложенных функций bin с этим:
rint(x) = (x-int(x)>0.9999)?int(x)+1:int(x)
bin(x,width) = width*rint(x/width) + width/2.0
binc(x,width) = width*(int(x/width)+0.5)
mitar_bin(x,width) = width*floor(x/width) + width/2.0
my_bin(x,width) = width*(floor(x/width+0.5))
binwidth = 0.001
data_list = "-0.1386 -0.1383 -0.1375 -0.0015 -0.0005 0.0005 0.0015 0.1375 0.1383 0.1386"
my_line = sprintf("%7s %7s %7s %7s %7s","data","bin()","binc()","mitar()","my_bin()")
print my_line
do for [i in data_list] {
iN = i + 0
my_line = sprintf("%+.4f %+.4f %+.4f %+.4f %+.4f",iN,bin(iN,binwidth),binc(iN,binwidth),mitar_bin(iN,binwidth),my_bin(iN,binwidth))
print my_line
}
и здесь вывод
data bin() binc() mitar() my_bin()
-0.1386 -0.1375 -0.1375 -0.1385 -0.1390
-0.1383 -0.1375 -0.1375 -0.1385 -0.1380
-0.1375 -0.1365 -0.1365 -0.1375 -0.1380
-0.0015 -0.0005 -0.0005 -0.0015 -0.0010
-0.0005 +0.0005 +0.0005 -0.0005 +0.0000
+0.0005 +0.0005 +0.0005 +0.0005 +0.0010
+0.0015 +0.0015 +0.0015 +0.0015 +0.0020
+0.1375 +0.1375 +0.1375 +0.1375 +0.1380
+0.1383 +0.1385 +0.1385 +0.1385 +0.1380
+0.1386 +0.1385 +0.1385 +0.1385 +0.1390