StartsWith метод С# не возвращает TRUE

Я прочитал некоторые значения из базы данных MS SQL, и мне нравится делать некоторые операции над строкой. Вот код, который я использую, чтобы проверить, начинается ли какая-либо строка с другой строкой:

String input = "Основното jавно обвинителство денеска поднесе пријава против БМ (59) од Битола заради постоење основи на сомнение дека сторил кривични дела „тешки дела против безбедноста на луѓето и имотот во сообраќајот" и „неукажување помош на лице повредено во сообраќајна незгода"";
String subString = "Основното јавно обвинителство";
if (input.StartsWith(subString))
{
    Response.Write("OK");
}

Однако input.StartsWith(subString) не возвращает true. У кого-нибудь есть идея, почему?

Ответ 1

Разница в символе j в позиции 10: его код равен 106 на входе, но в вашей подстроке это 1112 (0x458- см. demo).

Ваш второй j происходит от Unicode page 4

ј   1112    458 0xD1 0x98   CYRILLIC SMALL LETTER JE

Он выглядит одинаково, но имеет другой код.

Повторная ввод j в substring устраняет эту проблему.

Ответ 2

Второе слово на входе и подстроке не совпадает. Поместите строки в блокнот ++ и выберите каждое слово за раз. Первое и последнее слово в подстроке совпадают, но не средние.

Этот пример демонстрирует проблему:

void Main()
{
    var test = "Основното јавно обвинителство";
    var tost = "Основното jавно обвинителство";

    for(var i = 0; i < test.Length; i++){
        Console.WriteLine(string.Format("1: {0}, 2: {1}, Equal: {2}", test[i], tost[i], test[i] == tost[i]));
        if(test[i] != tost[i]){ Console.WriteLine (string.Format("1: {0}, 2: {1}", (int) test[i], (int) tost[i])); }
    }

    Console.WriteLine (test == tost);
}

Соответствующий вывод:

1: ј, 2: j, Equal: False
1: 1112, 2: 106

Ответ 3

Строки, которые вы публикуете, не равны. Сделайте это:

string s1 = "Основното јавно обвинителство";
string s2 = "Основното jавно обвинителство";
var bt = Encoding.UTF8.GetBytes(s1);
var bt_1 = Encoding.UTF8.GetBytes(s2);

Результат будет выглядеть примерно так:

56
55

Фактическое различие заключается в следующем. "J" в первой строке:

[19]    209 byte
[20]    152 byte

тогда как "j" во второй строке:

[19]    106 byte

Первый представляет ј с 0xD1 0x98 шестнадцатеричным кодом, а второй представляет j с 0x6A шестнадцатеричный код.