В моем коде С# я извлекаю текст из документа PDF. Когда я это делаю, я получаю строку в кодировке UTF-8 или Unicode (я не уверен, какой). Когда я использую Encoding.UTF8.GetBytes(src);
, чтобы преобразовать его в массив байтов, я заметил, что пробелы на самом деле являются двумя символами с байтовыми значениями 194 и 160.
Например, строка "CLE action" выглядит как
[67, 76, 69, 194 ,160, 65 ,99, 116, 105, 111, 110]
в массиве байтов, где пробелы равны 194 и 160... И из-за этого src.IndexOf("CLE action");
возвращает -1, когда мне нужно, чтобы он возвращал 1.
Как я могу исправить кодировку строки?