Есть так много руководств о том, как tokenize предложение, но я не нашел никаких способов сделать обратное.
import nltk
words = nltk.word_tokenize("I've found a medicine for my disease.")
result I get is: ['I', "'ve", 'found', 'a', 'medicine', 'for', 'my', 'disease', '.']
Есть ли какая-либо функция, кроме того, чтобы возвращать токенированное предложение в исходное состояние. Функция tokenize.untokenize()
по какой-то причине не работает.
Edit:
Я знаю, что могу это сделать, например, и это, вероятно, решает проблему, но мне любопытно, есть ли для этого встроенная функция:
result = ' '.join(sentence).replace(' , ',',').replace(' .','.').replace(' !','!')
result = result.replace(' ?','?').replace(' : ',': ').replace(' \'', '\'')