Я новичок в python. Я пытаюсь проанализировать файл URL-адресов, чтобы оставить только имя домена.
некоторые из URL-адресов в моем файле журнала начинаются с http://, а некоторые начинаются с www.Some начинаются с обоих.
Это часть моего кода, который разделяет часть http://. Что мне нужно добавить к нему, чтобы искать как http, так и www. и удалить оба?
line = re.findall(r'(https?://\S+)', line)
В настоящее время, когда я запускаю код, удаляется только http://. если я изменил код на следующее:
line = re.findall(r'(https?://www.\S+)', line)
Возникают только домены, начинающиеся с обоих. Мне нужен код более условным. ТИА
редактирование... вот мой полный код...
import re
import sys
from urlparse import urlparse
f = open(sys.argv[1], "r")
for line in f.readlines():
line = re.findall(r'(https?://\S+)', line)
if line:
parsed=urlparse(line[0])
print parsed.hostname
f.close()
Я ошибался по оригинальному сообщению в качестве регулярного выражения. он действительно использует urlparse.