У меня есть файлы в формате pdf, используя pdfbox, я преобразовал их в текст и сохранил в текстовые файлы. Теперь из текстовых файлов, которые я хочу удалить
- Гиперссылки
- Все специальные символы
- Пустые строки
- нижние колонтитулы в pdf файлах
- "1)", "2)", "a" "," bullets "и т.д.
Я хочу получить допустимый текст в строке следующим образом:
Мы предлагаем OntoGain - метод изучения онтологии из терминов понятий многословного слова, извлеченных из простого текста. OntoGain следует учебному процессу онтологии, разработанному отдельными обрабатывающими слоями. Основываясь на извлечении простого термина, иерархия консенсуса формируется путем кластеризации извлеченных понятий. Полученный термин таксономия затем обогащается не-таксономическими отношениями. Для реализации каждого слоя были исследованы несколько различных современных методов. OntoGain основан на многословных терминах, поскольку многословные или сложные термины наделены более твердой и отличительной семантикой, чем простые словарные термины. Мы выбрали метод иерархической кластеризации и алгоритм формального концептуального анализа (FCA) для построения термина таксономии. Кроме того, применяется алгоритм правила ассоциации для выявления не-таксономических отношений. Также реализуется метод, который пытается реализовать наиболее подходящий уровень обобщения между концепциями отношений. Чтобы показать доказательство концепции, реализован прототип системы. OntoGain позволяет преобразовать производную онтологию в OWL с использованием Jena Semantic Web Frame-work1. OntoGain применяется на двух отдельных источниках данных медицинский и компьютерный корпус, и его результаты сравниваются с аналогичными результатами, полученными Text2Onto, методом изучения современной онтологии. Анализ результатов 11.5 CCD1.1 указывает на то, что OntoGain работает лучше, чем Text2Onto с точки зрения точности, извлекает более правильные понятия, будучи более избирательными, извлекает меньше, но более разумные понятия.
Как я могу это достичь?