Исходный список имен людей

Мне нужно иметь длинный список имен людей ( "Роберт", "Jeniffer", "Andrew" и т.д.)

Как долго? 100 будет вроде хорошо, но тысячи будут лучше.

Я бы хотел, чтобы он был сырым, а не на веб-странице HTML или чем-то, поэтому я могу легко импортировать его в свой код.

Ответ 2

Бюро переписи населения США три списка, созданные в результате переписи 1990 года:

(Они имеют те же значения, что и у другого ответа, который ссылается на deron.meranda.us)

Цитируя ссылку выше:

Каждый из трех файлов (dist.all.last), (dist. male.first) и (dist female.first) содержат четыре элемента данных. Четыре элемента:

A "Имя" Частота в процентах Кумулятивная частота в процентах Рейтинг В файл (dist.all.last) появляется одна запись:

    MOORE       0.312       5.312       9  

В нашем примере области поиска MOORE занимает 9-е место по частоте. 5,312% выборка населения покрывается MOORE, а 8 имен встречаются больше часто, чем MOORE. Фамилия, MOORE, имеет 0,312 процентов нашей выборки населения.

Похоже, что эти данные были дополнительно уточнены в один список из 5163 записей (ссылка 1, ссылка 2), в формате :

    <namestyle> <first/last indicator> <name>

Namestyle code:

  • MF: используется как мужчина или женщина.
  • MO: используется только для мужчин
  • FO: используется только для женщин

Первый/последний индикатор:

  • LY: используется как фамилия
  • LN: не используется как фамилия

например:

   MF LY AARON 
   FO LY ABBEY 
   FO LN ABBIE 
   FO LY ABBY

ОБНОВЛЕНИЕ 1: Немного от темы из оригинальной публикации, но она может быть полезной для других, которые находят это. Если вы ищете что-то более активное (не только имена людей, но и пол многих существительных и фраз), вы можете посмотреть на корпус, созданный Шейном Бергсмой и Декангом Лином. Данные доступны как один файл gzip из общая задача CoNLL.

ОБНОВЛЕНИЕ 2: www.census.gov реструктурировал свой сайт, поэтому я обновил ссылки, чтобы отразить новые местоположения файлов.

ОБНОВЛЕНИЕ 3: www.census.gov также имеет опрос от 2000 для фамилий, происходящих 100 и более раз, содержащих в общей сложности 151 671 имя (прямая ссылка на zip).

Ответ 3

Ознакомьтесь с моими наборами данных, которые я сделал для исследования НЛП. Все имена были извлечены из общедоступных источников. http://mbejda.github.io Все они - формат CSV.

(Отказ от ответственности: я их сделал).

Ответ 4

Это слишком поздно для оригинального плаката, но, возможно, полезно для поисковиков... здесь: http://www.ssa.gov/OACT/babynames/limits.html

- загружаемый текстовый файл, в котором перечислены все имена по годам рождения до наименований, которые были предоставлены как минимум 5 детям, поэтому у него есть тонна данных.

Ответ 6

каталог Vettrasoft Z в составе своего набора геоданных содержит таблицу "first_names" который имеет имя, любую короткую форму или альтернативные варианты написания (например, Angela/Angie, Daniel - Dan - Danny), пол (M/F/B/?; B - оба и? означает неизвестно). Таблица имеет 12 779 записей и в виде файла находится в формате .unl(| -сепарализованные поля). Наряду с именами, набор данных включает в себя аэропорты (8 200 записей), коды регионов, страны, почтовые (aka zip) коды, штаты, часовые пояса и многое другое. Данные поступают как интегрированный пакет вместе с библиотекой o-o, которая имеет подпрограммы, которые обращаются к этим данным. В случае с именами вы можете написать код на С++ следующим образом:

main()
{
   person_o p = "Daniel Boone";
   p.store_add();
}

который сохранит Даниэля Бун в базе данных (в настоящее время реализованы: mySQL и SQL Server). Объект person будет использовать таблицу DB first_names для автоматического поиска пола, связанного с "Daniel", и записать его как "M" (а также разбор имени, сохранение "Daniel" в столбце first_name и "Boone" до последнего имя столбца). Каталог Z работает аналогичным образом для сохранения и поиска других объектов домена человеческого человека, таких как предприятия, сотрудники, адреса электронной почты, номера телефонов и т.д.

Ответ 7

Функция

поможет вам извлечь алфавиты из буквенно-цифровой строки

Dim input As String = "SMITH 1.006 1.006 1"
        Dim output As String = New String((From c As Char In input Select c Where          Char.IsLetter(c)).ToArray())
        MsgBox(output)

вывод будет: SMITH

Благодаря: https://stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5