У меня есть html-документ, и я хочу вытащить таблицы из этого документа и вернуть их как массивы. Я представляю две функции, которые обнаруживают все html-таблицы в документе, а вторую, которые превращают html-таблицы в двумерные массивы.
Что-то вроде этого:
htmltables = get_tables(htmldocument)
for table in htmltables:
array=make_array(table)
Там 2 уловы: 1. Таблицы номеров меняются день ото дня 2. В таблицах есть все виды сверхъестественного форматирования, например, смелые и мигающие теги, случайным образом вбрасываемые.
Спасибо!