Если я хочу использовать регулярные выражения С++ 11 с строками unicode, будут ли они работать с char * как UTF-8 или мне нужно преобразовать их в строку wchar_t *?
Поддерживаются ли регулярные выражения С++ 11 с строками UTF-8?
Ответ 1
Вам нужно будет протестировать ваш компилятор и систему, которую вы используете, но теоретически она будет поддерживаться, если ваша система имеет локаль UTF-8. Следующий тест верен для меня на Clang/OS X.
bool test_unicode()
{
std::locale old;
std::locale::global(std::locale("en_US.UTF-8"));
std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
bool result = std::regex_match(std::string("abcdéfg"), pattern);
std::locale::global(old);
return result;
}
ПРИМЕЧАНИЕ. Это было скомпилировано в файле, который был кодирован UTF-8.
Чтобы быть в безопасности, я также использовал строку с явными шестнадцатеричными версиями. Он также работал.
bool test_unicode2()
{
std::locale old;
std::locale::global(std::locale("en_US.UTF-8"));
std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
bool result = std::regex_match(std::string("abcd\xC3\xA9""fg"), pattern);
std::locale::global(old);
return result;
}
Обновление test_unicode()
все еще работает для меня
$ file regex-test.cpp
regex-test.cpp: UTF-8 Unicode c program text
$ g++ --version
Configured with: --prefix=/Applications/Xcode-8.2.1.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix
InstalledDir: /Applications/Xcode-8.2.1.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin
Ответ 2
С++ 11 регулярных выражений будут "работать с" UTF-8 просто отлично, для минимального определения "работа". Если вы хотите, чтобы "полная" поддержка регулярных выражений Unicode для строк UTF-8, вам будет лучше с библиотекой, которая поддерживает это напрямую, например http://www.pcre.org/.
Ответ 3
Да, они будут, это по дизайну кодировки UTF-8. Операции подстроки должны работать корректно, если строка обрабатывается как массив байтов, а не массив кодовых точек.
См. FAQ № 18 здесь: http://www.utf8everywhere.org/#faq.validation о том, как это достигается в этом дизайне кодирования.