Как получить базу данных английского языка?

Мне нужна база данных каждого действительного слова на английском языке. Я проверил файл /usr/share/dict/words, он содержит менее 100 тыс. Слов. Википедия говорит, что английский язык имеет 475 тыс. Слов. Где я могу получить полный список (американское правописание)?

Кроме того, есть ли один веб-сайт, который выдает слова для других языков, включая азиатские и европейские?

Изменить: Забыл добавить, мне не нужны имена и т.д., только правильные английские слова.

Ответ 1

База данных WordNet может быть полезна. Я когда-то работал над дополнением Firefox, которое касается слов и всех видов простых и сложных ассоциаций между ними и другими. Похоже, WordNet будет очень полезен для вас.

Здесь он находится в формате MySQL. И эта (веб-архивная ссылка) использует данные Wordnet v3.0, а не более старые данные Wordnet 2.0.

Ответ 2

Вы можете найти то, что вам нужно на infochimps.org.

У них есть список из 350 000 простых (т.е. не связанных) слов, доступных для бесплатной загрузки.

Список слов - 350 000+ простых английских слов

Что касается других языков, вы можете захотеть совать в Викисловаре. Вот ссылка на все резервные копии резервных копий - информация не организована так сильно, но если у них есть язык, вы можете загрузить данные в формате SQL.

Ответ 3

Я не вижу http://wordlist.sourceforge.net/, но здесь я бы начал, если бы искал что-то вроде этого (и я был, когда я наткнулся на этот вопрос).

Если вы не можете найти то, что хотите, и что вы хотите, это список английских слов, то вам, вероятно, стоит потратить некоторое дополнительное время, описывая, как узнать, что именно вы хотите.

Ответ 4

Нет такой вещи, как "полный" список. У разных людей разные способы измерения - например, они могут включать сленг, неологизмы, многословные фразы, оскорбительные термины, иностранные слова, спряжения глаголов и т.д. Некоторые люди даже посчитали миллион слов! Поэтому вам нужно будет решить, что вы хотите в списке слов.

Ответ 5

Вы можете проверить *spell en-GB словарь, используемый Mozilla, OpenOffice, много другого программного обеспечения.

Ответ 6

Вы не сказали, для чего вам нужен этот список. Если что-то, используемое в качестве черного списка для проверки пароля, достаточно cracklib, может быть полезно для вас. Он содержит более 1,5 М слов.