У меня есть большой (около 12 М строк) dataframe df, например:
df.columns = ['word','documents','frequency']
Итак, следующее выполнялось своевременно:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
Однако для этого требуется много времени:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
Что я здесь делаю неправильно? Есть ли лучший способ подсчета вложений в большой части данных?
df.word.describe()
работает довольно хорошо, поэтому я действительно не ожидал, что этот DataFrame Occurrences_of_Words займет очень много времени.
ps: Если ответ очевиден, и вы чувствуете необходимость штрафовать меня за задание этого вопроса, пожалуйста, укажите также ответ. спасибо.