У меня есть изображения размером ~ 20000 jpg, некоторые из которых являются дубликатами. К сожалению, некоторые файлы были отмечены метаданными EXIF, поэтому простой хэш файла не может идентифицировать дублированный файл.
Я пытаюсь создать Powershell script для их обработки, но не может найти способ извлечь только данные растрового изображения.
System.drawing.bitmap может возвращать только объект растрового изображения, а не байты. Там функция GetHash(), но, по-видимому, действует на весь файл.
Как я могу хэшировать эти файлы таким образом, чтобы исключить информацию EXIF? Я предпочел бы избегать внешних зависимостей, если это возможно.