Когда я пытаюсь извлечь текст из своих PDF файлов, кажется, что он случайно помещает пробелы между severl-словами.
Я использую pdfbox-app-1.6.0.jar(последняя версия) в следующем примере файла в разделе Downloads на этой странице: http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
Я пробовал с несколькими другими файлами PDF и, похоже, делал то же самое на нескольких страницах.
Я делаю следующее:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/ped training pdf.pdf
в загруженном файле, и вы увидите пробелы в следующем неверно введенном в результате на консоли: • Если дети могут ходить безопасно, это может уменьшить заторы. "
"• Развивает хорошие привычки для дальнейшей жизни".
"www.sheff ield.gov.uk"
"Think Ahead!, который основан на"
и т.д.
Как вы можете видеть, некоторые из вышеперечисленных слов имеют пробелы между ними, потому что я не могу понять.
Я нахожусь на ubuntu и запускаю Sun JDK 1.6.
Я пробовал это в нескольких разных PDF файлах и пытался найти решение на форумах, были похожие ошибки, но все, похоже, было разрешено.
Любая помощь или если кто-то другой имеет такую же проблему, прокомментируйте. Это вызывает большую проблему при индексировании содержимого для поиска.