TesseractNotFoundError

Я пытаюсь использовать pytesseract в Python, но всегда получаю следующую ошибку:

    raise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it not in your path

Однако в моей системе установлены pytesseract и Tesseract.

Пример кода, который выдает эту ошибку:

import cv2
import pytesseract

img = cv2.imread('1d.png')
print(pytesseract.image_to_string(img))

Ответ 1

Я попытался добавить к переменной пути, как уже упоминали другие, но все равно получил ту же ошибку. что работало, добавив это в мой скрипт:

pytesseract.pytesseract.tesseract_cmd = r "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"

Ответ 2

Я получил эту ошибку, потому что я установил pytesseract с pip, но забыл установить двоичный файл.

В Linux

sudo apt update
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

на Mac

brew install tesseract

В Windows

скачать бинарный файл из https://github.com/UB-Mannheim/tesseract/wiki. затем добавьте pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe' к вашему сценарию. (замените путь двоичного файла Тессеракта, если необходимо)

Рекомендации: https://pypi.org/project/pytesseract/ (раздел УСТАНОВКА) иhttps://github.com/tesseract-ocr/tesseract/wiki#installation

Ответ 3

Возможно, вам не хватает tesseract-ocr вашей машине. Проверьте инструкцию по установке здесь: https://github.com/tesseract-ocr/tesseract/wiki

На Mac вы можете просто установить с помощью homebrew:

brew install tesseract

После этого должно работать нормально

Ответ 4

В среде ОС Windows 10 у меня работает следующий метод:

  1. https://github.com/tesseract-ocr/tesseract/wiki Скачайте tesseract и установите его. Версия для Windows доступна здесь: https://github.com/UB-Mannheim/tesseract/wiki

  2. Найдите файл сценария pytesseract.py в C:\Users\User\Anaconda3\Lib\site-packages\pytesseract и откройте его. Измените следующий код с tesseract_cmd = 'tesseract' на: tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

  3. Вам также может понадобиться добавить переменную среды D:/Program Files (x86)/Tesseract-OCR/

Надеюсь, это работает для вас!

Ответ 5

Одна простая вещь, которая на самом деле работала для меня в Jupyter Notebook, заключалась в использовании двойной обратной косой черты вместо одной обратной косой черты в пути pytesseract.pytesseract.tesseract_cmd:

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

Ответ 6

Я работаю на Mac OS и установил tesseract с brew, так что вот мое мнение об этом. Поскольку pytesseract - это то, как вы можете получить доступ к tesseract из python, вы должны указать, где tesseract уже находится на вашем компьютере.

Для Mac OS

Попробуйте найти, где tesseract.exe is-, если вы установили его с помощью brew, на вашем терминале используйте:

>brew list tesseract

Это должно перечислить, где ваш tesseract.exe, где-то более или менее как

> /usr/local/Cellar/tesseract/3.05.02/bin/tesseract

Затем следуйте их инструкциям:

pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'

pytesseract.pytesseract.tesseract_cmd = r '/usr/local/Cellar/tesseract/3.05.02/bin/tesseract'

должен сделать трюк!

Ответ 7

Я сталкиваюсь с этой же проблемой. Я просто использую эту команду, которая поможет мне.

sudo apt install tesseract-ocr

Обратите внимание, что это будет работать только в Ubuntu.
sudo - это эксклюзивная команда Unix (Linux, Mac, Rasbian и т.д.), а apt специфична для Ubuntu.

Ответ 8

Я столкнулся с той же проблемой. Я надеюсь, что вы установили отсюда, а также сделали pip install pytesseract.

Если все в порядке, вы должны увидеть путь C:\Program Files (x86)\Tesseract-OCR where tesseract.exe доступен C:\Program Files (x86)\Tesseract-OCR where tesseract.exe.

Добавление переменной Path мне не помогло, я фактически добавил новую переменную с именем tesseract в переменные окружения со значением C:\Program Files (x86)\Tesseract-OCR\tesseract.exe.

Ввод команды tesseract в командной строке теперь должен работать как положено, предоставляя вам информацию об использовании. Теперь вы можете использовать pytesseract как таковой (не забудьте перезапустить ядро python перед запуском этого!):

import pytesseract
from PIL import Image

value=Image.open("text_image.png")
text = pytesseract.image_to_string(value, config='')    
print("text present in images:",text)

наслаждаться!

Ответ 9

Вы можете загрузить tesseract-ocr setup, используя следующую ссылку,

Tesseract для окон

Затем добавьте новую переменную с именем tesseract в переменные среды со значением C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

Ответ 10

Для Mac:

  1. Установите Pytesseract (pip install pytesseract должен работать)
  2. Установите Tesseract, но только с помощью homebrew, установка pip как-то не работает. (заваривать установить тессеракт)
  3. Узнайте, как установить Tesseract на вашем устройстве (список Brew Tesseract)
  4. Добавьте путь в ваш код, а не в путь sys. Путь должен быть добавлен вместе с кодом, используя pytesseract.pytesseract.tesseract_cmd = '<путь, полученный на шаге 3>' - (например, pytesseract.pytesseract.tesseract_cmd = '/usr/local/Cellar/tesseract/4.0.0_1/bin/тессеракт ')

Это должно работать нормально.

Ответ 12

Следующие три команды сделают все необходимое:

sudo apt update
# This will update your packages
sudo apt install tesseract-ocr
# This will install OCR
sudo apt install libtesseract-dev
# This will add it as development dependency

Ответ 13

ВНИМАНИЕ: ТОЛЬКО ДЛЯ WINDOWS


Я столкнулся с этой проблемой сегодня, и все ответы, упомянутые здесь, помогли мне, но мне лично пришлось много копать, чтобы решить ее. Итак, позвольте мне помочь всем остальным, предложив решение в очень простой форме:

  1. Загрузите исполняемый файл 64-разрядной (32-разрядной, если ваш компьютер имеет 32-разрядную версию) отсюда.

    (Имя файла будет tesseract-ocr-w64-setup-v5.0.0.20190526 (alpha))

  2. Установите это. Позвольте ему установить себя в директорию C по умолчанию.

  3. Теперь перейдите к вашей переменной среды (откройте ее, просто выполнив поиск в меню "Пуск" или выберите " Control Panel > System > Advanced System Settings > Environment Variables).

    а) Выберите PATH, а затем отредактируйте его. Нажмите на NEW и добавьте путь, где он установлен (обычно C:\Program Files\Tesseract-OCR\)

Теперь вы не получите ошибку!

Ответ 14

Вы импортируете

from tesseract import image_to_string

Не импортировать из pytesseract

Ответ 15

Я также столкнулся с той же проблемой, просто добавьте C:\Program Files (x86)\Tesseract-OCR в вашу переменную пути. Если он все еще не работает, добавьте C:\Program Files (x86)\Tesseract-OCR\tessdata в вашу переменную пути в новой строке. И не забудьте перезагрузить компьютер после добавления переменной пути.

Ответ 16

В настоящее время я использую Windows и вам нужно разработать парсер PDF, но добавление новой переменной среды через sysdm.cpl не sysdm.cpl. Для других пользователей Windows я настоятельно рекомендую добавить C:\Program Files (x86)\Tesseract-OCR в свой файл profile.ps1 (если используется Powershell).

Ответ 17

Небольшая ошибка - я знал, что мне нужно было открыть/закрыть мой cmd, чтобы обновить путь к размышлению. Используя Jupyter Notebook, мне пришлось выключить клиент и снова инициализировать его.

Ответ 18

Скорее всего, у вас установлены разные версии Python, убедитесь, что установленный Tesseract установлен на одну и ту же версию Python.

which pip3 показывает вам путь к установке pip3, а which python3 показывает соответствующий путь к установке Python.

Убедитесь, что эти два одинаковы.

Ответ 19

Я также столкнулся с той же ошибкой, когда пытался создать экстрактор текста с помощью pytesseract, но решение было в инструкциях по установке pytesseract на сайте pypi: pytesseract Есть много альтернатив, чтобы избежать ошибки, но добавив еще один параметр в методе pytesseract.image_to_string решил это для меня, как

tessdata_dir_config = "/usr/share/tesseract-ocr/4.00/tessdata"
output = pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config)

Ответ 20

Это происходит в Windows (по крайней мере, в версии 3.05 tesseract), когда текущий каталог находится на диске, отличном от того, где установлен tesseract.

Что-то в tesseract ожидает, что файлы данных будут находиться в \Program Files... (а не в C:\Program Files, скажем). Так что, если вы не находитесь на той же букве диска, что и tesseract, произойдет сбой. Было бы здорово, если бы мы могли обойти эту проблему, временно заменив диски (только под Windows) на установочный диск tesseract перед выполнением tesseract и вернувшись обратно после. Пример в вашем случае: вы можете скопировать yourmodule_python.py в "C/Program Files (x86)/Tesseract-OCR/" и запустить!