Я скоро начну с нового проекта, где я собираюсь выполнять множество задач обработки текста, таких как поиск, классификация/классификация, кластеризация и т.д.
Там будет огромное количество документов, которые необходимо обработать; вероятно, миллионы документов. После первоначальной обработки он также должен быть обновлен ежедневно несколькими новыми документами.
Можно ли использовать Python для этого или слишком медленный Python? Лучше ли использовать Java?
Если возможно, я бы предпочел Python с тех пор, что я использовал в последнее время. Кроме того, я бы быстрее закончил кодировку. Но все зависит от скорости Python. Я использовал Python для выполнения небольших задач обработки текста всего несколькими тысячами документов, но я не уверен, насколько он масштабируется.