У меня есть два фрейма данных (x и y), где идентификаторы student_name
, father_name
и mother_name
. Из-за типографских ошибок ( "n" вместо "m", случайных белых пробелов и т.д.) У меня есть около 60% значений, которые не выравниваются, хотя я могу видеть данные и видеть их. Есть ли способ уменьшить уровень несоответствия так или иначе, чтобы вручную редактировать, по крайней мере, возможно? Кадры данных имеют около 700 тыс. Наблюдений.
R было бы лучше. Я знаю немного python и некоторые базовые инструменты unix. Постскриптум Я прочитал на agrep()
, но не понимаю, как это может работать с фактическими наборами данных, особенно если совпадение превышает более чем одну переменную.
update (данные для размещенной награды):
вы можете указать файл test_sites.R, который вывешен как сущность.
В идеале ответ заканчивается на
merge(sites_a, sites_b, by = **magic**)