Я - не-компьютерный научный студент, занимающийся диссертацией по истории, который включает определение частоты конкретных терминов в ряде текстов, а затем построение этих частот с течением времени для определения изменений и тенденций. Хотя я выяснил, как определить частоты слов для данного текстового файла, я имею дело с (относительно, для меня) большим количеством файлов ( > 100), и для согласований просто хотел бы ограничить слова, включенные в частоту к определенному набору терминов (вроде как противоположность "стоп-листа" )
Это должно быть очень простым. В конце все, что мне нужно - это частоты для конкретных слов для каждого обрабатываемого текстового файла, желательно в формате электронных таблиц (с разделителем табуляции), чтобы затем я мог создавать графики и визуализации с использованием этих данных.
Я использую Linux изо дня в день, мне удобнее использовать командную строку, и мне бы понравилось решение с открытым исходным кодом (или что-то, что я мог бы запустить с WINE). Однако это не требование:
Я вижу два способа решить эту проблему:
- Найдите способ вычеркнуть все слова в текстовом файле EXCEPT для предварительно определенного списка, а затем выполните подсчет частоты оттуда или:
- Найдите способ делать счетчик частоты, используя только термины из предварительно определенного списка.
Любые идеи?