Я пытаюсь выполнить обход веб-сайта, а именно Google Site с помощью ManifoldCF, который имеет аутентификацию SAML и индексирует обходные данные в Apache Solr. Но когда я просматриваю URL-адрес, он передает мне 302 перенаправление на страницу входа, а затем говорит RESPONSECODENOTINDEXABLE.
Я не уверен, правильно ли я аутентифицирован. В многокомпонентном CF есть опции для проверки подлинности HTTP basic, NTLM authentication и Session-based метода аутентификации учетных данных доступа. Я использовал метод проверки Session based, который больше похож на аутентификацию на основе формы, а не на SAML проверку подлинности.
Кто-нибудь сканировал веб-сайт с использованием multicCF, у которого есть SAML аутентификация? И если не ManifoldCF, смог ли кто-нибудь выполнить это через Apache Nutch, потому что я боюсь, он также обеспечивает только аутентификацию HTTP, Digest и NTLM.
Любое понимание было бы полезно. Можете предоставить дополнительную информацию о проблеме, если кто-то здесь думает, что ее можно легко выполнить. В основном, когда я сканирую https://sites.google.com/a/my-sub-domain.com, он перенаправляется на страницу входа в систему SSO, а искатель отказывается от сканирования, давая 302 ошибку. Это веб-сайт, основанный на интрасети.