Мне нужно добавить дополнительный текст в существующий PDF файл с использованием Python, как это лучше всего сделать и какие дополнительные модули мне нужно будет установить.
Примечание: в идеале я хотел бы иметь возможность запускать это как на Windows, так и на Linux, но в один момент подойдет только Linux.
Изменение: pyPDF и ReportLab выглядят хорошо, но ни один из них не позволит мне редактировать существующий PDF, есть ли другие варианты?
Ответ 1
Я знаю, что это старый пост, но я потратил много времени, пытаясь найти решение. Я наткнулся на приличный, использующий только ReportLab и PyPDF, поэтому я решил поделиться:
- прочитайте свой PDF с помощью
PdfFileReader()
, мы назовем этот ввод - создайте новый PDF файл с вашим текстом для добавления с использованием ReportLab, сохраните его как строковый объект
- читать строковый объект с помощью
PdfFileReader()
, мы назовем этот текст - создайте новый объект PDF с помощью
PdfFileWriter()
, мы назовем этот вывод -
.mergePage(*text*.getPage(0))
ввод и примените .mergePage(*text*.getPage(0))
для каждой страницы, к которой вы хотите добавить текст, затем используйте output.addPage()
чтобы добавить измененные страницы в новый документ
Это хорошо работает для простых текстовых дополнений. См. Образец PyPDF для водяных знаков документа.
Вот код для ответа на вопрос ниже:
packet = StringIO.StringIO()
can = canvas.Canvas(packet, pagesize=letter)
<do something with canvas>
can.save()
packet.seek(0)
input = PdfFileReader(packet)
Отсюда вы можете объединить страницы входного файла с другим документом.
Ответ 2
Пример для [Python 2.7]:
from pyPdf import PdfFileWriter, PdfFileReader
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(10, 100, "Hello world")
can.save()
#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(file("original.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = file("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()
Пример для Python 3.x:
from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
packet = io.BytesIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(10, 100, "Hello world")
can.save()
#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(open("original.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()
Ответ 3
Использование Дэвид Дехган answer выше, в Python 2.7.13 работает следующее:
from PyPDF2 import PdfFileWriter, PdfFileReader, PdfFileMerger
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(290, 720, "Hello world")
can.save()
#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader("original.pdf")
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()
Ответ 4
pdfrw позволит вам читать страницы из существующего PDF файла и нарисовать их на холсте reportlab (подобно рисованию изображения). Для этого есть примеры для этого в подкаталоге pdfrw examples/rl1 в github. Отказ от ответственности: я автор pdfrw.
Ответ 5
cpdf выполнит задание из командной строки. Это не python, хотя (afaik):
cpdf -add-text "Line of text" input.pdf -o output .pdf
Ответ 6
Если вы работаете в Windows, это может сработать:
PDF Creator Pilot
Там также есть документ создания и редактирования PDF файлов в Python. Он немного устарел, но, может быть, может дать вам полезную информацию:
Использование Python как PDF-редакция и обработка данных
Ответ 7
Возможно, вам удастся переломить проблему, превратив PDF в редактируемый формат, записать ваши изменения, а затем преобразовать его в PDF. Я не знаю библиотеки, которая позволяет вам напрямую редактировать PDF, но есть много конвертеров между DOC и PDF, например.
Ответ 8
Вы пробовали pyPdf?
Извините, у него нет возможности изменять содержимое страниц.