У меня около 350 текстовых файлов (и каждый файл составляет около 75 МБ). Я пытаюсь объединить все файлы и удалить повторяющиеся записи. Файл находится в следующем формате:
ip1,dns1
ip2,dns2
...
Я написал небольшую оболочку script, чтобы сделать это
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
Я часто обрабатываю эту обработку и задаюсь вопросом, есть ли что-нибудь, что я мог бы сделать, чтобы улучшить обработку в следующий раз, когда я запустил ее. Я открыт для любого языка программирования и предложений. Спасибо!