Сейчас я использую множество регулярных выражений для "разбора" данных в разметке mediawiki в списках/словарях, чтобы можно было использовать элементы в статье.
Это вряд ли лучший метод, поскольку количество дел, которые необходимо сделать, велико.
Как можно разобрать статью mediawiki разметки на различные объекты python, чтобы можно было использовать данные внутри?
Пример:
- Извлечь все заголовки в словарь, хешируя его своим раздел.
- Захватите все ссылки interwiki и
вставьте их в список (я знаю,
это можно сделать из API, но я бы
скорее всего, есть один вызов API для
уменьшить использование полосы пропускания). - Извлечение всех имен изображений и их удаление с помощью их разделы
Множество регулярных выражений может достичь вышеуказанного, но я нахожу номер, который я должен сделать довольно большим.
Здесь неофициальная спецификация средств массовой информации (я не вижу их официальных спецификация как полезная).