В рамках более крупного личного проекта, над которым я работаю, я пытаюсь отделить встроенные даты от различных текстовых источников.
Например, у меня есть большой список строк (которые обычно принимают форму английских предложений или операторов), которые принимают различные формы:
Заседание центральной проектной комиссии Вторник 10/22 6:30 вечера
Th 9/19 LAB: последовательное кодирование (раздел 2.2)
15 декабря будет еще один для тех, кто неспособен сделать это сегодня.
Рабочая тетрадь 3 (минимальная заработная плата): срок Среда 9/18 23:59
Он будет летать 15 сентября.
Хотя эти даты совпадают с естественным текстом, ни одна из них сама по себе не является собственно естественными языковыми формами (например, нет "Встреча будет через две недели с завтрашнего дня" - все это явно).
Как у кого-то, у кого нет слишком большого опыта работы с такой обработкой, что было бы лучше всего начать? Я просмотрел такие вещи, как модуль dateutil.parser
и parsedatetime, но, похоже, это происходит после того, как вы выделили дату.
Из-за этого есть ли хороший способ извлечь дату и посторонний текст
input: Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']
или что-то подобное? Похоже, что подобная обработка выполняется такими приложениями, как Gmail и Apple Mail, но возможно ли реализовать их на Python?