Цифры OpenCV объединяются в окружающие коробки

У меня есть куча дат, которые я пытаюсь использовать OCR, используя tesseract. Однако многие цифры в датах сливаются с строками в полях даты так:

Кроме того, здесь хороший образ, который я могу хорошо разбираться с:

И вот мой код:

import os
import cv2
from matplotlib import pyplot as plt
import subprocess
import numpy as np
from PIL import Image

def show(img):
    plt.figure(figsize=(20,20))
    plt.imshow(img,cmap='gray')
    plt.show()

def sort_contours(cnts, method="left-to-right"):
    # initialize the reverse flag and sort index
    reverse = False
    i = 0

    # handle if we need to sort in reverse
    if method == "right-to-left" or method == "bottom-to-top":
        reverse = True

    # handle if we are sorting against the y-coordinate rather than
    # the x-coordinate of the bounding box
    if method == "top-to-bottom" or method == "bottom-to-top":
        i = 1

    # construct the list of bounding boxes and sort them from top to
    # bottom
    boundingBoxes = [cv2.boundingRect(c) for c in cnts]

    cnts, boundingBoxes = zip(*sorted(zip(cnts, boundingBoxes),
        key=lambda b:b[1][i], reverse=reverse))

    # return the list of sorted contours and bounding boxes
    return cnts, boundingBoxes


def tesseract_it(contours,main_img, label,delete_last_contour=False):
    min_limit, max_limit = (1300,1700)
    idx =0 
    roi_list = []
    slist= set()
    for cnt in contours:
        idx += 1
        x,y,w,h = cv2.boundingRect(cnt)
        if label=='boxes':
            roi=main_img[y+2:y+h-2,x+2:x+w-2]
        else:
            roi=main_img[y:y+h,x:x+w]

        if w*h > min_limit and w*h < max_limit and w>10 and w< 50 and h>10 and h<50:
            if (x,y,w,h) not in slist: # Stops from identifying repeted contours

                roi = cv2.resize(roi,dsize=(45,45),fx=0 ,fy=0, interpolation = cv2.INTER_AREA)
                roi_list.append(roi)
                slist.add((x,y,w,h))

    if not delete_last_contour:
        vis = np.concatenate((roi_list),1)
    else:
        roi_list.pop(-1)
        vis = np.concatenate((roi_list),1)

    show(vis)

    # Tesseract the final image here
    # ...


image = 'bad_digit/1.jpg'
# image = 'bad_digit/good.jpg'
specimen_orig = cv2.imread(image,0)


specimen = cv2.fastNlMeansDenoising(specimen_orig)
#     show(specimen)
kernel = np.ones((3,3), np.uint8)

# Now we erode
specimen = cv2.erode(specimen, kernel, iterations = 1)
#     show(specimen)
_, specimen = cv2.threshold(specimen, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
#     show(specimen)
specimen_canny = cv2.Canny(specimen, 0, 0)
#     show(specimen_canny)

specimen_blank_image = np.zeros((specimen.shape[0], specimen.shape[1], 3))
_,specimen_contours, retr = cv2.findContours(specimen_canny.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_NONE )
# print(len(specimen_contours))
cv2.drawContours(specimen_blank_image, specimen_contours, -1, 100, 2)
#     show(specimen_blank_image)
specimen_blank_image = np.zeros((specimen.shape[0], specimen.shape[1], 3))

specimen_sorted_contours, specimen_bounding_box = sort_contours(specimen_contours)

output_string = tesseract_it(specimen_sorted_contours,specimen_orig,label='boxes',)
# return output_string

Результат от прикрепленного хорошего изображения таков:

Tesseracting это изображение дает мне точные результаты.

Тем не менее, для тех, где линии объединяются в цифры, мой вывод выглядит следующим образом:

Они не очень хорошо работают с Tesseract. Мне было интересно, есть ли способ удалить строки и сохранить только цифры.

Я также пробовал следующее: https://docs.opencv.org/3.2.0/d1/dee/tutorial_moprh_lines_detection.html

На самом деле это не очень хорошо влияет на изображения, которые я приложил.

Я также пытался использовать imagemagick:

convert original.jpg \
\( -clone 0 -threshold 50% -negate -statistic median 200x1 \)  \
-compose lighten -composite                                    \
\( -clone 0 -threshold 50% -negate -statistic median 1x200 \)  \
-composite output.jpg

Его результаты справедливы, но линия удалена несколько сокращается через цифры следующим образом:

Есть ли лучший способ решить эту проблему? Моя конечная цель - tesseract цифры, поэтому окончательное изображение должно быть достаточно ясным.

Ответ 1

Вот код, который, кажется, работает достаточно хорошо. Существует два этапа:

Можно заметить, что цифры немного смелее, чем коробки. Плюс все изображение имеет сильную горизонтальность. Таким образом, мы можем применять растяжение сильнее горизонтально, чтобы избавиться от большинства вертикальных линий.
На данный момент OCR, например Google, могут обнаруживать большинство номеров. К сожалению, он слишком хорош и видит другие вещи, поэтому я добавил еще одну фазу, более сложную и весьма связанную с вашим конкретным контекстом.

Вот один результат изображения после 1-й фазы:

И вот все результаты после второй фазы:

Как вы видите, это не идеально, 8 можно рассматривать как B (ну, даже такой человек, как я, видит его как B... но его можно легко устранить, если у вас есть только номера в вашем мире). Существует также как символ ":" (наследие от удаленной вертикальной линии), из-за которого я не могу избавиться либо от чрезмерной настройки кода...

Код С#:

static void Unbox(string inputFilePath, string outputFilePath)
{
    using (var orig = new Mat(inputFilePath))
    {
        using (var gray = orig.CvtColor(ColorConversionCodes.BGR2GRAY))
        {
            using (var dst = orig.EmptyClone())
            {
                // this is what I call the "horizontal shake" pass.
                // note I use the Rect shape here, this is important
                using (var dilate = Cv2.GetStructuringElement(MorphShapes.Rect, new Size(4, 1)))
                {
                    Cv2.Dilate(gray, dst, dilate);
                }

                // erode just a bit to get back some numbers to life
                using (var erode = Cv2.GetStructuringElement(MorphShapes.Rect, new Size(2, 1)))
                {
                    Cv2.Erode(dst, dst, erode);
                }

                // at this point, good OCR will see most numbers
                // but we want to remove surrounding artifacts

                // find countours
                using (var canny = dst.Canny(0, 400))
                {
                    var contours = canny.FindContoursAsArray(RetrievalModes.List, ContourApproximationModes.ApproxSimple);

                    // compute a bounding rect for all numbers w/o boxes and artifacts
                    // this is the tricky part where we try to discard what not related exclusively to numbers
                    var boundingRect = Rect.Empty;
                    foreach (var contour in contours)
                    {
                        // discard some small and broken polygons
                        var polygon = Cv2.ApproxPolyDP(contour, 4, true);
                        if (polygon.Length < 3)
                            continue;

                        // we want only numbers, and boxes are approx 40px wide,
                        // so let discard box-related polygons, if any
                        // and some other artifacts that passed previous checks
                        // this quite depends on some context knowledge...
                        var rect = Cv2.BoundingRect(polygon);
                        if (rect.Width > 40 || rect.Height < 15)
                            continue;

                        boundingRect = boundingRect.X == 0 ? rect : boundingRect.Union(rect);
                    }

                    using (var final = dst.Clone(boundingRect))
                    {
                        final.SaveImage(outputFilePath);
                    }
                }
            }
        }
    }
}

Ответ 2

Просто предложение, я этого никогда не пробовал.

Вместо того, чтобы пытаться удалять бары, держите их и тренируйтесь на всех возможных положениях бара. Обрежьте бары символами для правильного выравнивания.

02032018022018. Думаю, лучше имитировать бары на чистых персонажах.

Ответ 3

В частности, посмотрите на свой 1 в 2018 ниже в случае с Yves Daoust casus... что почти "n" или как три четверти целого числа 0 а 8 становится буквой B 2 можно считать инвертированным 6. В некоторых случаях 0 можно читать как 6 и т.д. Даже некоторые из них могут оказаться "неузнаваемыми", если вы оставите сетку на месте. Таким образом, мой подход:

Вывод избыточной сетки-информации помогает лучше идентифицировать целые числа, которые имеют прямые линии внутри них, такие как 0,1, 2, 4, 5 и 7.
Затем следует обучение персонажа с использованием классификатора Cascade.

Кривизны некоторых цифр легко обнаруживаются после удаления сетки и обучения. Это уменьшит 90-95 процентов ваших ложных отрицательных обращений на реальные целые числа (истинные положительные результаты) или тележки (истинные негативы). Вам тогда нужно только беспокоиться о тех 5-10 процентах.

Документацию и информацию о кодовых примерах можно найти здесь, в OpenCV, здесь, в Code-Robin, и здесь, в github.

Значения изображения 02032018022018: