Я рассматриваю возможность создания простого веб-приложения для очистки, чтобы извлечь информацию с веб-сайта, который, как представляется, не запрещает это.
Я проверил другие альтернативы (например, RSS, веб-сервис), чтобы получить эту информацию, но на данном этапе их нет.
Несмотря на это, я также разработал/поддерживал несколько веб-сайтов самостоятельно, и поэтому я понимаю, что если веб-скребок делается наивно/жадно, это может замедлить работу других пользователей и, как правило, становится неприятностью.
Итак, какой этикет участвует в терминах:
- Количество запросов в секунду/минуту/час.
- Содержимое HTTP-агента пользователя.
- Содержимое HTTP-ссылки.
- Настройки кэша HTTP.
- Размер буфера для больших файлов/ресурсов.
- Правовые вопросы и вопросы лицензирования.
- Хорошие инструменты или подходы к разработке.
- Robots.txt, это важно для веб-соскабливания или просто сканеров/пауков?
- Сжатие, такое как GZip в запросах.
Обновление
Нашел этот актуальный вопрос о Meta: Этикет Screen StapOverflow. Ответ Джеффа Этвуда содержит несколько полезных рекомендаций.
Другие связанные вопросы StackOverflow: