Есть ли какие-нибудь статистические данные об обычных туманных ключах?

Мне нужно найти список обычно туманных клавиш на клавиатуре для проекта, над которым я работаю. В основном мне нужно знать, какой ключ пользователь пытается нажать и какой ключ они на самом деле нажимают, и сравнительный пример того, как часто это происходит.

Под "сравнительной мерой" я имею в виду, что я хотел бы сказать, что, зная, что пользователь опечатал ключ "c", более вероятно, что они нажимают клавишу "x" против ключа "v" ( в основном столбец "общности" ниже).

Мой идеальный список - это что-то вроде ниже, чтобы дать вам представление о том, что я ищу.

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

И так далее...

Кто-нибудь сталкивается с любыми авторитетными источниками, которые имеют все, что может предоставить эту информацию? Мне до сих пор не повезло...

Ответ 1

Я действительно должен был изучить аналогичную проблему пару лет назад. Когда я начал проект, я понятия не имел, с чего начать, поэтому, надеюсь, я смогу сэкономить вам кого-нибудь еще в той же ситуации, когда-нибудь.

Итог заключается в том, что вы можете воспользоваться большим количеством работы, выполненной в других областях. Наиболее важные из этих полей, я нашел, Доменное имя Регистрация.

Например, на сайте DomainTools есть Domain Typo Generator ', который работает путем создания списка имен доменов typo, основанных на родительском доменном имени, которое вы вводите.

Учитывая, что профессиональные владельцы доменных имен (aks squatters) составляют большую часть любого бизнеса Регистратора, легко понять, для кого предназначен этот инструмент (т.е. скваттеры заинтересованы в получении общих опечаток доменных имен с высоким трафиком - - даже 2% -ная ошибка для доменного имени с высоким трафиком - это большой трафик на доменное имя опечатки.

Кроме того, я бы порекомендовал замечательный всеобъемлющий 2005 Исследование этой проблемы от Microsoft Research.

Наконец, есть ключевое понятие в вычислительной лингвистике, полученное из расстояния Левенштейна, называемое Расстояние Дамерау-Левенштейна, который распространяет основную идею Левенштейна о расстоянии редактирования до конкретной проблемы людей, печатающих на клавиатуре.

Главный вывод из его исследовательской работы 1964 года состоял в том, что 80% всех опечаток можно описать одной из четырех операций: вставка, удаление, замена одного символа или транспонирование двух символов.

Дамерау не только выделил эти четыре операции редактирования, но также заявил, что они соответствуют более 80% всех человеческих орфографических ошибок. (Единственная ссылка, которую я предоставил для DL, - статья Википедии, я сделал это, потому что я считаю, что это превосходное и краткое введение плюс он содержит псевдокод для алгоритма DL, и, наконец, в статье приведены ссылки на основные онлайн-источники для DL.

Ответ 2

Самый ошибочный ключ на моем iPhone/Touch:

c для f! "Принесите клиры crom Crance в Cinland on Cridays!"

Кроме того, Space Bar для любой из букв в нижней строке клавиатуры iPhone:

"Боб перечислит в Z Top a d a Hale".

Ответ 3

Я не знаю источника статистики, но кажется, что существует большая разница между (1) тем, кто попадает не в тот ключ, из-за плохого позиционирования пальца, который большинство машинистов немедленно отступит и исправит на лету, поэтому статистические данные об этих событиях могут быть зафиксированы только в режиме реального времени, а не в таблицах, с которыми сталкиваются большинство орфографических корректоров, и (2) машинист попадает в правильные ключи, но в неправильном порядке ( "naem" вместо "name" ) из-за скорость/отвлечение/нейроны, и (3) машинистка нажимает неправильные ключи, не зная, как заклинание ( "обслуживание" вместо "обслуживания" ).

Для случая № 1, если наиболее распространенные буквы на английском языке, это E, T, A... тогда, вероятно, есть хорошая вероятность они также являются наиболее пропущенными ключами в этом порядке, хотя это не говорит вам, кто из соседей, таких как "w" и "r", попадает больше всего. Машинист, пытающийся использовать ключ конца строки типа "a", может ошибочно ударить CAPS LOCK так же часто, как ошибочно нажимать "s".

Лично, это не альфа, который я обычно пропускаю, особенно если вы охотитесь и клюете для /vs \, {vs [, 'vs ", запятая против периода при наборе форматированных чисел и валюты, пропускает смену и получает 8 вместо * и т.д. и т.д., и поскольку нестандартное типирование настолько распространено при программировании, эти случаи, вероятно, гораздо более часты для программистов, чем не-программисты.

Ответ 4

Может помочь программа коррекции орфографии, основанная на модели шумного канала Кернигана, Черч и Гейл. В этой статье авторы моделируют опечатки как шумный канал между автором и компьютером. В приложении есть таблицы опечаток, которые можно увидеть в корпусе публикаций Associated Press. Существует таблица для каждого из следующих видов опечаток:

  • удаление
  • вставка
  • замена
  • перестановка

Например, рассматривая таблицу вставок, мы видим, что l было вставлено неправильно после l 128 раз (наибольшее число в этом столбце). Используя эти таблицы, вы можете рассчитать числа, похожие на то, что вы хотите.