Использование PDFbox для определения координат слов в документе

Я использую PDFbox для извлечения координат слов/строк в PDF-документе и до сих пор успешно определял положение отдельных символов. это код до сих пор, из документа PDFbox:

package printtextlocations;

import java.io.*;
import org.apache.pdfbox.exceptions.InvalidPasswordException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.TextPosition;

import java.io.IOException;
import java.util.List;

public class PrintTextLocations extends PDFTextStripper {

    public PrintTextLocations() throws IOException {
        super.setSortByPosition(true);
    }

    public static void main(String[] args) throws Exception {

        PDDocument document = null;
        try {
            File input = new File("C:\\path\\to\\PDF.pdf");
            document = PDDocument.load(input);
            if (document.isEncrypted()) {
                try {
                    document.decrypt("");
                } catch (InvalidPasswordException e) {
                    System.err.println("Error: Document is encrypted with a password.");
                    System.exit(1);
                }
            }
            PrintTextLocations printer = new PrintTextLocations();
            List allPages = document.getDocumentCatalog().getAllPages();
            for (int i = 0; i < allPages.size(); i++) {
                PDPage page = (PDPage) allPages.get(i);
                System.out.println("Processing page: " + i);
                PDStream contents = page.getContents();
                if (contents != null) {
                    printer.processStream(page, page.findResources(), page.getContents().getStream());
                }
            }
        } finally {
            if (document != null) {
                document.close();
            }
        }
    }

    /**
     * @param text The text to be processed
     */
    @Override /* this is questionable, not sure if needed... */
    protected void processTextPosition(TextPosition text) {
        System.out.println("String[" + text.getXDirAdj() + ","
                + text.getYDirAdj() + " fs=" + text.getFontSize() + " xscale="
                + text.getXScale() + " height=" + text.getHeightDir() + " space="
                + text.getWidthOfSpace() + " width="
                + text.getWidthDirAdj() + "]" + text.getCharacter());
    }
}

Это создает ряд строк, содержащих позицию каждого символа, включая пробелы, которая выглядит так:

String[202.5604,41.880127 fs=1.0 xscale=13.98 height=9.68814 space=3.8864403 width=9.324661]P

Где "P" - символ. Я не смог найти функцию в PDFbox для поиска слов, и я недостаточно хорошо знаком с Java, чтобы иметь возможность точно конкатенации этих символов обратно в слова для поиска, даже если они также включены. Кто-нибудь еще был в подобной ситуации, и если да, то как вы к нему подошли? Мне действительно нужна координата первого символа в слове, так что части упрощаются, но что касается того, как я собираюсь сопоставить строку с таким типом вывода, это вне меня.

Ответ 1

В PDFBox нет функции, позволяющей автоматически извлекать слова. В настоящее время я работаю над извлечением данных, чтобы собрать их в блоки, и вот мой процесс:

Я извлекаю все символы документа (называемые глифами) и сохраняю их в списке.
Я делаю анализ координат каждого глифа, перебирая список. Если они перекрываются (если верхняя часть текущего глифа находится между верхней и нижней частью предыдущей/или нижней частью текущего глифа, находится между верхней и нижней частью предыдущего), я добавляю ее в ту же строку.
На этом этапе я выделил разные строки документа (будьте осторожны, если ваш документ является многоколоночным, выражение "lines" означает все глифы, которые перекрываются по вертикали, то есть текст всех столбцы, которые имеют одинаковые вертикальные координаты).
Затем вы можете сравнить левую координату текущего глифа с правой координатой предыдущего, чтобы определить, принадлежат ли они одному слову или нет (класс PDFTextStripper предоставляет метод getSpacingTolerance(), который дает вам, основанный на испытаниях и ошибках, значение "нормального" пространства. Если разница между правой и левой координатами ниже этого значения, оба глифа относятся к одному и тому же слову.

Я применил этот метод к своей работе, и он работает хорошо.

Ответ 2

На основе оригинальной идеи здесь представлена версия текстового поиска PDFBox 2. Сам код грубый, но простой. Это должно заставить вас начать довольно быстро.

import java.io.IOException;
import java.io.Writer;
import java.util.List;
import java.util.Set;
import lu.abac.pdfclient.data.PDFTextLocation;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

public class PrintTextLocator extends PDFTextStripper {

    private final Set<PDFTextLocation> locations;

    public PrintTextLocator(PDDocument document, Set<PDFTextLocation> locations) throws IOException {
        super.setSortByPosition(true);
        this.document = document;
        this.locations = locations;
        this.output = new Writer() {
            @Override
            public void write(char[] cbuf, int off, int len) throws IOException {
            }
            @Override
            public void flush() throws IOException {
            }

            @Override
            public void close() throws IOException {
            }
        };
    }

    public Set<PDFTextLocation> doSearch() throws IOException {

        processPages(document.getDocumentCatalog().getPages());
        return locations;
    }

    @Override
    protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
        super.writeString(text);

        String searchText = text.toLowerCase();
        for (PDFTextLocation textLoc:locations) {
            int start = searchText.indexOf(textLoc.getText().toLowerCase());
            if (start!=-1) {
                // found
                TextPosition pos = textPositions.get(start);
                textLoc.setFound(true);
                textLoc.setPage(getCurrentPageNo());
                textLoc.setX(pos.getXDirAdj());
                textLoc.setY(pos.getYDirAdj());
            }
        }

    }


}

Ответ 3

Взгляните на это, я думаю, это то, что вам нужно.

https://jackson-brain.com/using-pdfbox-to-locate-text-coordinates-within-a-pdf-in-java/

Вот код:

import java.io.File;
import java.io.IOException;
import java.text.DecimalFormat;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import org.apache.pdfbox.exceptions.InvalidPasswordException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.TextPosition;

public class PrintTextLocations extends PDFTextStripper {

public static StringBuilder tWord = new StringBuilder();
public static String seek;
public static String[] seekA;
public static List wordList = new ArrayList();
public static boolean is1stChar = true;
public static boolean lineMatch;
public static int pageNo = 1;
public static double lastYVal;

public PrintTextLocations()
        throws IOException {
    super.setSortByPosition(true);
}

public static void main(String[] args)
        throws Exception {
    PDDocument document = null;
    seekA = args[1].split(",");
    seek = args[1];
    try {
        File input = new File(args[0]);
        document = PDDocument.load(input);
        if (document.isEncrypted()) {
            try {
                document.decrypt("");
            } catch (InvalidPasswordException e) {
                System.err.println("Error: Document is encrypted with a password.");
                System.exit(1);
            }
        }
        PrintTextLocations printer = new PrintTextLocations();
        List allPages = document.getDocumentCatalog().getAllPages();

        for (int i = 0; i < allPages.size(); i++) {
            PDPage page = (PDPage) allPages.get(i);
            PDStream contents = page.getContents();

            if (contents != null) {
                printer.processStream(page, page.findResources(), page.getContents().getStream());
            }
            pageNo += 1;
        }
    } finally {
        if (document != null) {
            System.out.println(wordList);
            document.close();
        }
    }
}

@Override
protected void processTextPosition(TextPosition text) {
    String tChar = text.getCharacter();
    System.out.println("String[" + text.getXDirAdj() + ","
            + text.getYDirAdj() + " fs=" + text.getFontSize() + " xscale="
            + text.getXScale() + " height=" + text.getHeightDir() + " space="
            + text.getWidthOfSpace() + " width="
            + text.getWidthDirAdj() + "]" + text.getCharacter());
    String REGEX = "[,.\\[\\](:;!?)/]";
    char c = tChar.charAt(0);
    lineMatch = matchCharLine(text);
    if ((!tChar.matches(REGEX)) && (!Character.isWhitespace(c))) {
        if ((!is1stChar) && (lineMatch == true)) {
            appendChar(tChar);
        } else if (is1stChar == true) {
            setWordCoord(text, tChar);
        }
    } else {
        endWord();
    }
}

protected void appendChar(String tChar) {
    tWord.append(tChar);
    is1stChar = false;
}

protected void setWordCoord(TextPosition text, String tChar) {
    tWord.append("(").append(pageNo).append(")[").append(roundVal(Float.valueOf(text.getXDirAdj()))).append(" : ").append(roundVal(Float.valueOf(text.getYDirAdj()))).append("] ").append(tChar);
    is1stChar = false;
}

protected void endWord() {
    String newWord = tWord.toString().replaceAll("[^\\x00-\\x7F]", "");
    String sWord = newWord.substring(newWord.lastIndexOf(' ') + 1);
    if (!"".equals(sWord)) {
        if (Arrays.asList(seekA).contains(sWord)) {
            wordList.add(newWord);
        } else if ("SHOWMETHEMONEY".equals(seek)) {
            wordList.add(newWord);
        }
    }
    tWord.delete(0, tWord.length());
    is1stChar = true;
}

protected boolean matchCharLine(TextPosition text) {
    Double yVal = roundVal(Float.valueOf(text.getYDirAdj()));
    if (yVal.doubleValue() == lastYVal) {
        return true;
    }
    lastYVal = yVal.doubleValue();
    endWord();
    return false;
}

protected Double roundVal(Float yVal) {
    DecimalFormat rounded = new DecimalFormat("0.0'0'");
    Double yValDub = new Double(rounded.format(yVal));
    return yValDub;
}
}

Зависимости:

PDFBox, FontBox, Общий интерфейс регистрации Apache.

Вы можете запустить его, введя в командной строке:

javac PrintTextLocations.java 
sudo java PrintTextLocations file.pdf WORD1,WORD2,....

вывод похож на:

[(1)[190.3 : 286.8] WORD1, (1)[283.3 : 286.8] WORD2, ...]

Ответ 4

Я получил это с помощью преобразования IKVM PDFBox.NET 1.8.9. в С# и .NET.

Наконец, я выяснил, что координаты символов (глифов) являются частными для сборки .NET, но доступ к ним можно получить с помощью System.Reflection.

Я разместил полный пример получения координат СЛОВ и отрисовки их на изображениях PDF с использованием SVG и HTML здесь: https://github.com/tsamop/PDF_Interpreter

Для приведенного ниже примера вам понадобится PDFbox.NET: http://www.squarepdf.net/pdfbox-in-net и включить ссылки на него в ваш проект.

Мне понадобилось много времени, чтобы понять это, поэтому я очень надеюсь, что это сэкономит кому-то еще время !!

Если вам просто нужно знать, где искать символы и координаты, очень сокращенная версия будет выглядеть так:

    using System;
using System.Reflection;

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;

  // to test run pdfTest.RunTest(@"C:\temp\test_2.pdf");

class pdfTest
{
    //simple example for getting character (gliph) coordinates out of a pdf doc.
    // a more complete example is here:   https://github.com/tsamop/PDF_Interpreter
    public static void RunTest(string sFilename)
    {
    //probably a better way to get page count, but I cut this out of a bigger project.
    PDDocument oDoc = PDDocument.load(sFilename);
        object[] oPages = oDoc.getDocumentCatalog().getAllPages().toArray();

        int iPageNo = 0; //1 based!!
        foreach (object oPage in oPages)
        {
            iPageNo++;

            //feed the stripper a page.
            PDFTextStripper tStripper = new PDFTextStripper();
            tStripper.setStartPage(iPageNo);
            tStripper.setEndPage(iPageNo);
            tStripper.getText(oDoc);

            //This gets the "charactersByArticle" private object in PDF Box.
            FieldInfo charactersByArticleInfo = typeof(PDFTextStripper).GetField("charactersByArticle", BIndingFlags.NonPublic | BindingFlags.Instance);
            object charactersByArticle = charactersByArticleInfo.GetValue(tStripper);

            object[] aoArticles = (object[])charactersByArticle.GetField("elementData");

            foreach (object oArticle in aoArticles)
            {
                if (oArticle != null)
                {

                    //THE CHARACTERS within the article
                    object[] aoCharacters = (object[])oArticle.GetField("elementData");

                    foreach (object oChar in aoCharacters)
                    {

                        /*properties I caulght using reflection:
                         * endX, endY, font, fontSize, fontSizePt, maxTextHeight, pageHeight, pageWidth, rot, str textPos, unicodCP, widthOfSpace, widths, wordSpacing, x, y
                         * 
                         */
                        if (oChar != null)
                        {
                            //this is a really quick test.  
                            // for a more complete solution that pulls the characters into words and displays the word positions on the page, try this:  https://github.com/tsamop/PDF_Interpreter
                            //the Y appear to be the bottom of the char?
                            double mfMaxTextHeight = Convert.ToDouble(oChar.GetField("maxTextHeight")); //I think this is the height of the character/word

                            char mcThisChar = oChar.GetField("str").ToString().ToCharArray()[0];
                            double mfX = Convert.ToDouble(oChar.GetField("x"));
                            double mfY = Convert.ToDouble(oChar.GetField("y")) - mfMaxTextHeight;

                            //CALCULATE THE OTHER SIDE OF THE GLIPH
                            double mfWidth0 = ((Single[])oChar.GetField("widths"))[0];
                            double mfXend = mfX + mfWidth0; // Convert.ToDouble(oChar.GetField("endX"));

                            //CALCULATE THE BOTTOM OF THE GLIPH.
                            double mfYend = mfY + mfMaxTextHeight; //  Convert.ToDouble(oChar.GetField("endY"));

                            double mfPageHeight = Convert.ToDouble(oChar.GetField("pageHeight"));
                            double mfPageWidth = Convert.ToDouble(oChar.GetField("pageWidth"));

                            System.Diagnostics.Debug.Print(@"add some stuff to test {0}, {1}, {2}", mcThisChar, mfX, mfY);

                        }
                    }

                }
            }

        }
    }
}



using System.Reflection;

/// <summary>
/// To deal with the Java interface hiding necessary properties! ~mwr
/// </summary>
public static class GetField_Extension
{
    public static object GetField(this object randomPDFboxObject, string sFieldName)
    {
            FieldInfo itemInfo = randomPDFboxObject.GetType().GetField(sFieldName, BindingFlags.NonPublic | BindingFlags.Instance);
            return itemInfo.GetValue(randomPDFboxObject);
    }

}