Китайское распознавание символов с использованием Tesseract OCR

Я использую Tesseract 3.0.2 OCR SDK для извлечения текста. Но если я использую китайские текстовые изображения и прохожу через OCR, то Tesseract не предоставляет мне китайских символов вместо этого, я получаю числовые и английские символы. Но мне нужны китайские символы, как показано на изображении, которое я использую.

Как я могу это достичь? Есть ли способ получить китайские символы, а не любые другие персонажи?

Ответ 1

Вам нужно загрузить китайские обучаемые данные (это будет файл типа chi_sim.traineddata​​strong > ) и добавить его в папку tessdata​​strong > .

Чтобы загрузить файл https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

и используйте это как

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

Если у вас есть какие-либо проблемы, вы можете загрузить мой эксперимент с помощью tessaract (с поддержкой китайского языка) из https://github.com/aryansbtloe/ExperimentWithTesseract.git

Я проверил этот... Надеюсь, вы найдете это полезным.