Я ищу способ обнаружения наборов символов в документах. Я читал реализацию обнаружения набора символов Mozilla здесь:
Обнаружение универсальной кодировки
Я также нашел Java-реализацию этого метода jCharDet:
Оба они основаны на исследованиях, проведенных с использованием набора статических данных. Мне интересно, кто-нибудь успешно использовал любую другую реализацию, и если да, то что? Вы применили свой собственный подход, и если да, то какой алгоритм вы использовали для обнаружения набора символов?
Любая помощь будет оценена по достоинству. Я не ищу список существующих подходов через Google, и я не ищу ссылку на статью Джоэла Спольского - просто чтобы уточнить:)
ОБНОВЛЕНИЕ:. Я провел кучу исследований в этой области и в итоге нашел структуру под названием cpdetector, которая использует подключаемый подход к обнаружению символов, см.:
Это обеспечивает спецификации, оболочки (Mozilla) и плагины обнаружения ASCII. Также очень легко написать свой собственный. Там также другая структура, которая обеспечивает гораздо лучшее распознавание символов, что подход Mozilla/jchardet и т.д....
Очень легко написать собственный плагин для cpdetector, который использует эту инфраструктуру для обеспечения более точного алгоритма обнаружения кодировки символов. Он работает лучше, чем подход Mozilla.