Проверка орфографии с открытым исходным кодом

Оценивала добавление проверки орфографии к собственному продукту. В соответствии с моим исследованием основные решения, которые необходимо принять:

  1. Библиотека для использования.
  2. Словарь (это может быть специфический для региона, английский английский, американский и т.д.).
  3. Списки исключений. В любое время, когда опечатка обнаруживает, что это не опечатка, а словосочетание, специфичное для пользователя. На этом этапе пользователям должна быть предоставлена ​​возможность добавьте это в свой список исключений.
  4. Помимо пользовательского пользовательского списка также список исключений, основанный на пользовательском пространстве клиентов инструмента. Это термины/акронимы в домене работы пользователей. Например, FX не будет опечаткой для валютных трейдеров.

Открытые вопросы, которые у меня были, перечислены ниже, и если бы я мог внести в них вклад, это было бы очень полезно. Для 1 я думал о hunspell, которая является библиотекой с открытым исходным кодом, предлагаемой под MPL, и используется файлами firefox и OpenOffice. Какие-нибудь ужасные истории там, используя это? Любые серые области с лицензированием? Проверка орфографии произойдет на клиенте Windows.

Словари доступны из разных источников, некоторые из которых доступны под MPL, а некоторые - нет. Любые предложения по хорошим источникам для бесплатных словарей.

Многоязычная поддержка и что нужно разработать для их поддержки?

В качестве 4, как пользовательские словари хранятся в синхронизации со стороной сервера и клиентами? Проверка орфографии должна происходить на клиентском столе, так что каждый раз они запускаются с первоначальным запуском или они синхронизируются так часто?

Ответ 1

Как уже упоминалось, Hunspell - это современная проверка орфографии. Это проверка орфографии Open Office, Thunderbird, Firefox и Google Chrome. Доступны порты для всех основных языков программирования. Он работает с каталогами Open Office, поэтому поддерживается множество языков.

Ответ 2

Я использовал Hunspell для нескольких вещей, и у меня на самом деле нет ужасных историй. Я использовал его только с английским (американским), но он утверждает, что работает с другими языками.

Что касается лицензирования, он предлагает выбор GPL, LGPL и MPL. Если вам не нравится MPL, вы всегда можете использовать LGPL.

Ответ 4

Вот хорошая демонстрация Питера Норвига: я нахожу это простое объяснение более интуитивным. Следуйте ссылкам в документе, а также для более глубокого анализа.

http://norvig.com/spell-correct.html