Недавно я обнаружил, к моему удивлению (никогда не думал об этом раньше), машинная сортировка японских существительных, по-видимому, невозможна.
Я работаю над приложением, которое должно позволить пользователю выбрать больницу из интерфейса из 3-х меню. Первое меню - префектура, второе - название города, а третья - больница. Каждое меню должно сортироваться, как и следовало ожидать, поэтому пользователь может найти то, что им нужно в меню.
Позвольте мне изложить то, что я нашел, в качестве преамбулы к моему вопросу:
-
Ожидаемый порядок сортировки для японских слов основан на их произношении. Кандзи не имеют неотъемлемого порядка (используются десятки тысяч кандзи), но у японских фонетических слогов есть порядок: あ, い, う, え, お, か, き, く, け, こ.. и для пятидесяти традиционных различных звуков (некоторые из которых устарели в современном японском языке). Этот порядок сортировки называется 五十 音 順 (gojuu on jun, или '50 -sound order ').
-
Поэтому слова кандзи следует сортировать в том же порядке, в каком они были бы, если бы они были написаны в хирагане. (Вы можете представить любое слово кандзи в фонетическом хирагане на японском языке.)
-
Кикер: канонического способа определения произношения данного слова, написанного в кандзи, нет. Никогда не знаешь. В некоторых кандзи есть десять или более разных произношений, в зависимости от слова. В словаре есть много общих слов, и я мог бы, вероятно, взломать способ поиска их из одной из баз бесплатных словарей, но в словаре нет соответствующих существительных (например, имена больниц).
Итак, в моем заявлении у меня есть список каждой префектуры, города и больницы в Японии. Чтобы отсортировать эти списки, что является требованием, мне нужен соответствующий список каждого из этих имен в фонетической форме (kana).
Я не могу придумать ничего, кроме как заплатить кому-то, кто говорит по-японски (я только так себе), чтобы вручную их расшифровать. Прежде чем сделать это, хотя:
-
Возможно ли, что я полностью в огне, и на самом деле есть какой-то способ сделать эту сортировку, не создавая собственных привязок слов кандзи к фонетическим показаниям, которые я почему-то забыл?
/li > -
Существует ли общедоступное отображение имен префектуры/города, от правительства или чего-то еще? Это уменьшит ручное сопоставление, которое мне нужно будет сделать только для имен больниц.
-
Есть ли у кого-нибудь другие советы о том, как подойти к этой проблеме? Любой язык программирования хорош - я работаю с Ruby on Rails, но я был бы рад, если бы смог написать программу, которая будет принимать ввод кандзи (скажем, 40 000 собственных существительных), а затем выводить фонетические представления как данные, которые я мог бы импортируйте в мое приложение Rails.
宜 し く お 願 い し ま す.