Мне нужно сравнить большое количество PDF файлов для этого оптического контента. Поскольку файлы PDF были созданы на разных платформах и с разными версиями программного обеспечения, существуют структурные различия. Например:
- фрагмент текста может быть другим.
- порядок записи может быть различным
- позиция может отличаться от нескольких пикселей.
Он должен сравнивать контент, как человек, а не внутреннюю структуру. Я хочу проверить регрессии между различными версиями генератора PDF, которые мы использовали.