Любые рекомендации по методу преобразования .doc,.ppt и .xls в обычный текст на linux с использованием python? Действительно, был бы полезен любой метод преобразования. Я уже рассмотрел использование Open Office, но мне хотелось бы, чтобы решение не требовало установки Open Office.
Python конвертирует документы Microsoft Office в обычный текст на linux
Ответ 1
Я бы воспользовался командной строкой-решением (а затем с помощью http://vitus.wagner.pp.ru/software/catdoc/.
Нельзя комментировать полезность catppt, но catdoc и xls2csv отлично работают!
Но обязательно сначала найдите свои репозитории дистрибутивов... На ubuntu, например, catdoc - это всего лишь один быстрый apt-get away.
Ответ 2
Вы можете получить доступ к OpenOffice через API Python.
Попробуйте использовать это в качестве базы: http://wiki.services.openoffice.org/wiki/Odt2txt.py
Ответ 3
Обычный инструмент для преобразования документов Microsoft Office в HTML или другие форматы был mswordview, который с тех пор был переименован в vwWare.
Если вы ищете инструмент командной строки, они фактически рекомендуют использовать AbiWord для выполнения преобразования:
AbiWord --to=txt
Если вы ищете библиотеку, запустите страницу wvWare. Они также поддерживают список библиотек и инструментов, которые читают документы MS Office.
Ответ 4
В командной строке antiword или wv отлично работает для файлов .doc. (Не решение Python, но их легко установить и быстро.)
Ответ 5
Такая же проблема. Ниже приведен мой простой script для преобразования всех файлов doc в dir 'docs/' в dir 'txts/' с помощью catdoc. Надеюсь, это поможет кому-то:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))
Ответ 6
Для работы с таблицами Excel xlwt является хорошим. Но это не поможет с .doc
и .ppt
файлами.
(Возможно, вы также слышали о PyExcelerator. xlwt - это вилка этого и лучше поддерживается, поэтому я думаю, что вам будет лучше с xlwt.)
Ответ 7
У меня был некоторый успех при использовании XSLT для обработки файлов на базе XML на чем-то, что можно было использовать в прошлом. Это не обязательно решение на основе python, но оно выполняет свою работу.
Ответ 8
Я настоятельно рекомендую использовать Tika. Он обрабатывает Pdf, Doc, Docx и т.д.
Вот пример кода.
https://medium.com/@justinboylantoomey/fast-text-extraction-with-python-and-tika-41ac34b0fe61
Удачи