У меня много диапазонов в форме [(1, 1000), (5000, 5678), ... ]
. Я пытаюсь выяснить самый быстрый способ проверить, находится ли число в пределах любого диапазона. Диапазоны состоят из longs
и слишком велики, чтобы просто сохранить set
всех чисел.
Простейшим решением является следующее:
ranges = [(1,5), (10,20), (40,50)] # The real code has a few dozen ranges
nums = range(1000000)
%timeit [n for n in nums if any([r[0] <= n <= r[1] for r in ranges])]
# 1 loops, best of 3: 5.31 s per loop
Banyan немного быстрее:
import banyan
banyan_ranges = banyan.SortedSet(updator=banyan.OverlappingIntervalsUpdator)
for r in ranges:
banyan_ranges.add(r)
%timeit [n for n in nums if len(banyan_ranges.overlap_point(n))>0]
# 1 loops, best of 3: 452 ms per loop
Хотя есть только несколько десятков диапазонов, есть миллионы проверок против этих диапазонов. Какой самый быстрый способ выполнить эти проверки?
(Примечание. Этот вопрос похож на Python: эффективно проверяет, является ли целое число внутри * многих * диапазонов, но не имеет одинаковых ограничений, связанных с Django, и является исключительным связанные со скоростью)