Я медсестра, и я знаю python, но я не эксперт, просто использовал его для обработки последовательностей ДНК. Мы получили записи в больнице, написанные на человеческих языках, и я должен вставить эти данные в базу данных или файл csv, но они содержат более 5000 строк, и это может быть так сложно. Все данные написаны в согласованном формате, и я покажу вам пример
11/11/2010 - 09:00am : He got nausea, vomiting and died 4 hours later
Мне нужно получить следующие данные
Sex: Male
Symptoms: Nausea
Vomiting
Death: True
Death Time: 11/11/2010 - 01:00pm
Другой пример
11/11/2010 - 09:00am : She got heart burn, vomiting of blood and died 1 hours later in the operation room
И я получаю
Sex: Female
Symptoms: Heart burn
Vomiting of blood
Death: True
Death Time: 11/11/2010 - 10:00am
порядок не согласуется с тем, когда я говорю в......., поэтому in является ключевым словом, и весь текст после - это место, пока я не найду другое ключевое слово
В начале он или она определяет пол, получил........ все, что следует, представляет собой группу симптомов, которые я должен разделить в соответствии с разделителем, который может быть запятой, гипной или чем-то другим, но он согласуется с той же строкой < ш > умер..... спустя несколько часов также должен получить, сколько часов, иногда пациент остается жив и разряжен.... и т.д.
Чтобы сказать, что у нас много соглашений, и я думаю, что если я могу подделать текст с помощью ключевых слов и шаблонов, я смогу выполнить эту работу. Поэтому, если вы знаете полезную функцию /modules/tutorial/tool для этого, предпочтительно, в python (если не python, поэтому инструмент gui будет приятным)
Немного информации:
there are a lot of rules to express various medical data but here are few examples
- Start with the same date/time format followed by a space followd by a colon followed by a space followed by He/She followed space followed by rules separated by and
- Rules:
* got <symptoms>,<symptoms>,....
* investigations were done <investigation>,<investigation>,<investigation>,......
* received <drug or procedure>,<drug or procedure>,.....
* discharged <digit> (hour|hours) later
* kept under observation
* died <digit> (hour|hours) later
* died <digit> (hour|hours) later in <place>
other rules do exist but they follow the same idea