Что такое внутренние хранилища и поиск, которые позволяют это? Как в nitty gritties?
Например, у меня есть миллион документов, согласованных термином и миллионом других, сопоставляемых вторым термином запроса И. Как lucene делает пересечение так быстро, что дает мне верхнюю часть?
Сохраняет ли документ документ в порядке возрастания ID документа для каждого термина? И тогда, когда нужно заключить документы с двумя терминами, он ищет первые общие k-документы в обоих наборах, повторяя их как поэтапно, за один проход.
Или он использует простой неупорядоченный хеш-набор из массива больших документов, чтобы найти общие документы?
Или оба являются такими (или, возможно, более) типами политик пересечения, используемых в зависимости от количества запросов, заданных пользователем, тех, которые соответствуют отдельным терминам и т.д. среди других факторов?
Будут оценены любые статьи, которые могут указывать на слияние элементов массива документа.
Изменить: Спасибо за информацию, ребята. Теперь это имеет смысл. Пропустить списки делают магию. Я буду копать в него больше, чтобы получить четкое понимание.