В вашем опыте, какие символы Unicode, кодовые точки, находятся вне BMP (Basic Multilingual Plane), являются наиболее распространенными до сих пор? Это те, которые требуют 4 байта в UTF-8 или суррогатах в UTF-16.
Я ожидал, что ответом будет китайский и японский символы, используемые в именах, но не включенные в самые распространенные многобайтовые наборы символов CJK, но в проекте, над которым я больше всего работаю, в английской викторине, мы обнаружили, что Готический алфавит гораздо более распространен до сих пор.
UPDATE
Я написал несколько программных инструментов для сканирования всех Википедий для персонажей без BMP и нашел мое удивление, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в китайской Википедии, но также было использовано много китайских иероглифов до 50 или 70 раз, включая "𨭎", "𠬠" и "𩷶".