У меня есть файл csv:
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
Я хочу удалить дубликаты из этого файла, чтобы получить только:
column1 column2
john kerry
adam stephenson
ashley hudson
Я написал этот script, который удаляет дубликаты на основе lastnames, но мне нужно удалить дубликаты на основе lastnames AND firstname.
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add( row[1] )