Я собрал список страниц, которые нам нужно обновить с новым контентом (мы переключаем медиаформаты). В процессе я каталогизирую страницы, которые правильно имеют новый контент.
Вот общая идея того, что я делаю:
- Итерация через файловую структуру и получение списка файлов
- Для каждого файла, читаемого в буфер, и, используя поиск в регулярном выражении, соответствует определенному тегу
- Если сопоставлено, проверьте еще 2 регулярных выражения
- записать полученные совпадения (один или другой) в базу данных
Все работает отлично до тех пор, пока не будет найдено 3-ий шаблон регулярного выражения, где я получаю следующее:
'NoneType' object has no attribute 'group'
# only interested in embeded content
pattern = "(<embed .*?</embed>)"
# matches content pointing to our old root
pattern2 = 'data="(http://.*?/media/.*?")'
# matches content pointing to our new root
pattern3 = 'data="(http://.*?/content/.*?")'
matches = re.findall(pattern, filebuffer)
for match in matches:
if len(match) > 0:
urla = re.search(pattern2, match)
if urla.group(1) is not None:
print filename, urla.group(1)
urlb = re.search(pattern3, match)
if urlb.group(1) is not None:
print filename, urlb.group(1)
спасибо.