Мой код успешно сбрасывает теги tr align = center из [http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY] и записывает элементы td в текстовый файл.
Однако на сайте выше доступны несколько страниц, в которых я хотел бы очистить.
Например, с указанным выше адресом, когда я нажимаю ссылку на "стр. 2", общий URL не изменяется. Я посмотрел на источник страницы и увидел javascript-код для перехода на следующую страницу.
Как мой код может быть изменен для очистки данных со всех доступных страниц?
Мой код, который работает только для страницы 1:
import bs4
import requests
response = requests.get('http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY')
soup = bs4.BeautifulSoup(response.text)
soup.prettify()
acct = open("/Users/it/Desktop/accounting.txt", "w")
for tr in soup.find_all('tr', align='center'):
stack = []
for td in tr.findAll('td'):
stack.append(td.text.replace('\n', '').replace('\t', '').strip())
acct.write(", ".join(stack) + '\n')