Можно ли очистить данные от результатов Google?

Я хотел бы получить результаты от Google, используя curl для обнаружения потенциального дублированного контента. Существует ли высокий риск быть заблокированным Google?

Ответ 1

Google в конечном итоге заблокирует ваш IP-адрес, если вы превысите определенное количество запросов.

Ответ 2

Google запрещает автоматический доступ к своим TOS, поэтому, если вы согласны с их условиями, вы можете их разбить.

Тем не менее, я не знаю никаких иска от Google против скребка. Даже Microsoft соскоблила Google, они использовали свою поисковую систему Bing. Они попали в 2011 году в красный цвет:)

Есть два варианта очистки результатов Google:

1) Используйте API

Вы можете выпустить около 40 запросов в час. Вы ограничены тем, что они вам дают, это не очень полезно, если вы хотите отслеживать рейтинг позиции или то, что увидит настоящий пользователь. Что-то вы не разрешено собирать.
Если вам требуется большее количество запросов API, которые вам нужно заплатить.
60 запросов в час стоят 2000 долларов США в год, больше запросов требуют изготовленный под заказ сделка.

2) Очистите страницы с нормальным результатом

Вот сложная часть. Можно очистить страницы нормального результата. Google не разрешает это.
Если вы очистите со скоростью выше 8 (обновлено с 15) запросов ключевых слов в час, вы обнаружите риск, выше 10/ч (обновлено с 20), вы будете заблокированы из моего опыта.
Используя несколько IP-адресов, вы можете повысить скорость, поэтому при 100 IP-адресах вы можете очистить до 1000 запросов в час. (24k в день) (обновлено)
Скребок поисковой системы с открытым исходным кодом написан на PHP http://scraping.compunect.com Это позволяет надежно очищать Google, правильно анализирует результаты и управляет IP-адресами, задержками и т.д. Поэтому, если вы можете использовать PHP, это хороший kickstart, иначе код будет по-прежнему полезен, чтобы узнать, как это делается.

3) Альтернативно используйте службу очистки (обновлено)

Недавно у моего клиента была огромная потребность в поисковой системе, но она не была "текущей", это больше похоже на одно огромное обновление в месяц.
В этом случае я не мог найти самодельное решение, "экономическое".
Вместо этого я использовал службу http://scraping.services. Они также предоставляют код с открытым исходным кодом, и пока он работает хорошо (несколько тысяч результирующих страниц в час во время обновления)
Недостатком является то, что такая услуга означает, что ваше решение "привязано" к одному профессиональному поставщику, а вверху является то, что он был намного дешевле других опций, которые я оценивал (и быстрее в нашем случае).
Одним из вариантов снижения зависимости от одной компании является одновременное выполнение двух подходов. Использование службы очистки в качестве основного источника данных и возврат к решению на основе прокси, как описано в пункте 2), когда это необходимо.

Ответ 3

Google процветает на соскабливании веб-сайтов мира... так что, если это было "настолько незаконно", то даже Google не выживет. Конечно, в других ответах упоминаются способы смягчения IP-блоков Google. Еще один способ исследовать, избегая капчей, можно соскабливать в случайные моменты времени (попытка dint). Более того, у меня есть ощущение, что если мы обеспечим новизну или какую-то значительную обработку данных, тогда это звучит, по крайней мере, для меня... если мы просто копируют веб-сайт.. или каким-то образом мешают его бизнесу/бренду... тогда это плохо, и его следует избегать... в верхней части всего этого... если вы стартап, тогда никто не будет сражаться с вами, как там не приносит пользы. Но если ваше помещение полностью очищается, даже когда вы финансируетесь, тогда вам следует подумать о более сложных способах... альтернативных API.... В то же время Google продолжает выпускать (или лишать) поля для своего API, так что вы хотите сейчас отказаться, может быть в "дорожной карте" новых выпусков Google API.