Мне предоставлен экспорт из базы данных MySQL, которая, похоже, несколько раз запуталась в кодировании и содержит сочетание HTML char codes
, например & uuml;
, и более проблемные символы, представляющие те же буквы, что и ü
и Ã
. Моя задача - вернуть некоторую консистенцию в файл и получить все правильные латинские символы, например. ú
и ó
.
Пример типа строки, с которой я имею дело, - это
Desinfektionslösungstücher für Flächen
который должен быть равен
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
Есть ли способ, доступный в С#/.NET 4.5, который бы успешно перекодировал подобные ü
и Ã
в UTF-8
?
Иначе какой подход был бы целесообразным?
Также есть символ абзаца ¶
в приведенной выше строке строки фактический символ абзаца или часть некоторой другой комбинации символов?
Я создал таблицу поиска в случае необходимости найти и заменить ниже, однако я не уверен, насколько это полно.
É -> É
“ -> "
†-> "
Ç -> Ç
à -> Ã
é, 'é
à -> ú -> ú
• -> -
Ø -> Ø
õ -> õ
à -> í
â -> â
ã -> ã
ê -> ê
á -> á
é -> é
ó -> ó
â€" -> –
ç -> ç
ª -> ª
º -> º
à -> à