У меня есть PDF, который содержит таблицы, текст и некоторые изображения. Я хочу извлечь таблицу везде, где есть таблицы в PDF.
Прямо сейчас я делаю вручную, чтобы найти таблицу со страницы. Оттуда я беру эту страницу и сохраняю ее в другом PDF файле.
import PyPDF2
PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is stored
pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #PdfFileReader object
pg4 = pfr.getPage(126) #extract pg 127
writer = PyPDF2.PdfFileWriter() #create PdfFileWriter object
#add pages
writer.addPage(pg4)
NewPDFfilename = "allTables.pdf" #filename of your PDF/directory where you want your new PDF to be
with open(NewPDFfilename, "wb") as outputStream:
writer.write(outputStream) #write pages to new PDF
Моя цель - извлечь таблицу из всего документа PDF.