Я разрабатывал регулярное выражение для split всех фактических слов из заданного текста:
Пример ввода:
"John mom went there, but he wasn't there. So she said: 'Where are you'"
Ожидаемый результат:
["John's", "mom", "went", "there", "but", "he", "wasn't", "there", "So", "she", "said", "Where", "are", "you"]
Я думал о регулярном выражении:
"(([^a-zA-Z]+')|('[^a-zA-Z]+))|([^a-zA-Z']+)"
После разбиения на Python результат содержит None
элементы и пустые пробелы.
Как избавиться от элементов None? И почему пробелы не совпадали?
Редактировать:
Разделение на пробелы даст такие предметы, как: ["there."]
И расщепление на не-буквы, даст такие предметы, как: ["John","s"]
И расщепление на не-буквы, кроме '
, даст такие элементы, как: ["'Where","you'"]