Кажется, что это должен быть очевидный вопрос, но учебные пособия и документация по спискам не ожидаются. Многие из этих проблем связаны с огромными размерами моих текстовых файлов (сотни МБ) и мои попытки свести их к чему-то управляемому моей системой. В результате я делаю свою работу в сегментах, и теперь я пытаюсь совместить результаты.
У меня есть несколько списков частоты слов (~ 40 из них). Списки можно либо импортировать через [], либо как переменные, сгенерированные в Mathematica. Каждый список выглядит следующим образом и сгенерирован с использованием команд Tally [] и Sort []:
{{ "the", 42216}, { "of", 24903}, { "and", 18624}, { "n", 16850}, { "in",
16164}, { "de", 14930}, { "a", 14660}, { "to", 14175}, { "la", 7347} { "was", 6030}, { "l", 5981}, { "le", 5735}, < 51293 → , { "скотобойня" 1}, { "abattement", 1}, { "abattagen", 1}, { "abattage", 1}, { "abamed", 1}, { "restonn", 1}, { "abaiss", 1}, { "aback", 1}, { "aase", 1}, { "aaijaut", 1}, { "aaaah", 1}, { "aaa", 1}}
Вот пример второго файла:
{{ "the", 30419}, { "n", 20414}, { "de", 19956}, { "of", 16262}, { "and",
14488}, { "to", 12726}, { "a", 12635}, { "in", 11141}, { "la", 10739} { "et", 9016}, { "les", 8675}, { "le", 7748}, < 101032 → , { "abattement", 1}, { "abattagen", 1}, { "abattage", 1}, { "abamed", 1}, { "отказ", 1}, { "abaiss", 1}, { "aback", 1}, { "aase", 1}, { "aaijaut", 1}, { "aaaah", 1}, { "aaa", 1}}
Я хочу объединить их, чтобы агрегировать частотные данные: т.е. если второй файл имеет 30,419 вхождений "и" и присоединяется к первому файлу, он должен вернуть, что есть 72 635 случаев (и так далее, когда я перемещаюсь через всю коллекцию).