У меня есть два фрейма данных (x и y), где идентификаторы student_name, father_name и mother_name. Из-за типографских ошибок ( "n" вместо "m", случайных белых пробелов и т.д.) У меня есть около 60% значений, которые не выравниваются, хотя я могу видеть данные и видеть их. Есть ли способ уменьшить уровень несоответствия так или иначе, чтобы вручную редактировать, по крайней мере, возможно? Кадры данных имеют около 700 тыс. Наблюдений.
R было бы лучше. Я знаю немного python и некоторые базовые инструменты unix. Постскриптум Я прочитал на agrep(), но не понимаю, как это может работать с фактическими наборами данных, особенно если совпадение превышает более чем одну переменную.
update (данные для размещенной награды):
вы можете указать файл test_sites.R, который вывешен как сущность.
В идеале ответ заканчивается на
merge(sites_a, sites_b, by = **magic**)