Я использую nutch 1.3 для сканирования веб-сайта. Я хочу получить список просканированных URL-адресов и URL-адреса, исходящие из страницы.
Я получаю список обследований URL-адресов, используя команду readdb.
bin/nutch readdb crawl/crawldb -dump file
Есть ли способ узнать URL-адреса, которые находятся на странице, путем чтения crawldb или linkdb?
в org.apache.nutch.parse.html.HtmlParser
Я вижу массив исходящих ссылок, мне интересно, есть ли у него быстрый доступ к нему из командной строки.