PHP: как очистить содержимое веб-сайта на основе Javascript

Я пытаюсь получить содержимое этого сайта с помощью библиотеки PHP simplehtmldom.

http://www.immigration.govt.nz/migrant/stream/work/workingholiday/czechwhs.htm"

Он не работает, поэтому я попытался использовать CURL:

function curl_get_file_contents($URL)
{
    $c = curl_init();
    curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($c, CURLOPT_URL, $URL);
    $contents = curl_exec($c);
    curl_close($c);

    if ($contents) return $contents;
    else return FALSE;
}

Но всегда получайте только повторение с некоторым кодом и содержимым JS:

<noscript>Please enable JavaScript to view the page content.</noscript>

Есть ли возможность решить это с помощью PHP? Я должен использовать PHP в этом случае, поэтому мне нужно смоделировать браузер на основе JS.

Большое спасибо за любой совет.

Ответ 1

В этом случае я должен использовать PHP, поэтому мне нужно смоделировать браузер на основе JS.

Я бы порекомендовал вам два пути:

  • Кредитное плечо v8js php plugin для работы с сайтом js при скребке. См. здесь пример использования.
  • Имитировать браузер на базе JS через Selenium, iMacros или webRobots.io Chrome ext. Но в этом случае вы работаете с PHP-скриптами.