Я ищу некоторые статистические данные об использовании символов Unicode в текстовых документах (с любой разметкой). Googling не принес никаких результатов.
Справочная информация. В настоящее время я разрабатываю инструмент обработки текстовой обработки с конечным состоянием. Статистические данные о символах могут помочь в поиске правильных переходов. Например, латинские символы, вероятно, наиболее часто используются, поэтому имеет смысл проверить их в первую очередь.
Кто-нибудь случайно собрал или увидел такую статистику?
(Я не сосредоточен на определенных языках или локалях. Подумайте, как синтаксический анализатор общего назначения, как XML-парсер.)