Как я могу предотвратить, чтобы мой сайт asp.net не был очищен экраном?

Как я могу предотвратить, чтобы мой сайт asp.net 3.5 был экранизирован моим конкурентом? В идеале я хочу, чтобы ни один веб-сайт или скриншоты не могли извлекать данные с моего сайта.

Есть ли способ обнаружить, что работает webbot или скребок экрана?

Ответ 1

Можно попытаться обнаружить скребки экрана:

Используйте файлы cookie и время, это усложнит для тех, кто выходит из окна скребок экрана. Также проверьте поддержку javascript, у большинства скреперов этого нет. Проверьте данные Meta браузера, чтобы убедиться, что это действительно веб-браузер.

Вы также можете проверить запросы в минуту, пользователь, управляющий браузером, может делать только небольшое количество запросов в минуту, поэтому логика на сервере, которая обнаруживает слишком много запросов в минуту, может предполагать, что происходит очистка экрана и предотвращать доступ с нарушающего IP-адреса в течение некоторого периода времени. Если это начинает сказываться на сканерах, зарегистрируйте заблокированный IP-адрес пользователей и начните разрешать их IP-адреса по мере необходимости.

Вы также можете использовать http://www.copyscape.com/, чтобы определить ваш контент, это, по крайней мере, скажет вам, кто повторно использует ваши данные.

Смотрите также этот вопрос:

Защита от очистки экрана

Также посмотрите

http://blockscraping.com/

Хороший документ о скрипинге экрана:

http://www.realtor.org/wps/wcm/connect/5f81390048be35a9b1bbff0c8bc1f2ed/scraping_sum_jun_04.pdf?MOD=AJPERES&CACHEID=5f81390048be35a9b1bbff0c8bc1f2ed

Как предотвратить скрипинг экрана:

http://mvark.blogspot.com/2007/02/how-to-prevent-screen-scraping.html

Ответ 2

Отключите сетевой кабель от сервера.

Парафраз: если публика увидит его, его можно очистить.

update: при втором взгляде кажется, что я не отвечаю на вопрос. Сожалею. Vecdid предложил хороший ответ.

Но любая наполовину достойная кодировка может победить перечисленные меры. В этом контексте мой ответ можно считать действительным.

Ответ 3

Я не думаю, что это возможно без аутентификации пользователей на вашем сайте.

Ответ 4

В конечном счете вы не можете остановить это.

Вы можете сделать это сложнее для людей, установив файл robots.txt и т.д. Но вам нужно получить информацию на экранах законных пользователей, чтобы его нужно было как-то обслуживать, и если это ваши конкуренты может добраться до него.

Если вы заставляете пользователей входить в систему, вы можете постоянно останавливать роботов, но в любом случае вам не удастся остановить регистрацию конкурента на вашем сайте. Это может также привести потенциальных клиентов, если они не смогут получить доступ к некоторой информации для "бесплатного".

Ответ 5

Если ваш конкурент находится в той же стране, что и вы, допустим политику использования и условия обслуживания, четко размещенные на вашем сайте. Упомяните тот факт, что вы не разрешаете какие-либо роботы/скрипит на экране и т.д. Если это будет продолжаться, попросите адвоката отправить им дружеское прекращение и письмо с просьбой.

Ответ 6

Вы можете использовать CAPTCHA.

Кроме того, вы можете уменьшить его, регулируя их соединение. Он не будет полностью предотвращать их очистку экрана, но это, вероятно, не позволит им получить достаточно данных, чтобы быть полезным.

Во-первых, для файлов cookie с дроссельной заслонкой вы можете видеть не более одного просмотра страниц в секунду, но как только ваш односекундный таймер будет работать, вы не будете дросселировать вообще. Никакое влияние на обычных пользователей, большое влияние на экранные скребки (по крайней мере, если у вас много страниц, на которые они нацелены).

Затем для просмотра страниц, чувствительных к данным, требуются файлы cookie.

Они смогут войти, но пока вы не принимаете фальшивые куки файлы, они не смогут сильно скринировать экран с любой реальной скоростью.

Ответ 7

Я не думаю, что это возможно. Но что бы вы ни придумали, это будет так же плохо для поисковой оптимизации, как и для конкуренции. Это действительно желательно?

Ответ 8

Как использовать каждый бит текста в качестве изображения? Как только это будет сделано, либо ваши конкуренты будут вынуждены инвестировать технологии OCR, либо вы обнаружите, что у вас нет пользователей, поэтому вопрос будет спорным.