Я очень новичок в этом веб-обходе. Я использую crawler4j для сканирования веб-сайтов. Я собираю необходимую информацию, просматривая эти сайты. Моя проблема здесь в том, что я не смог выполнить сканирование содержимого для следующего сайта. http://www.sciencedirect.com/science/article/pii/S1568494612005741. Я хочу сканировать следующую информацию с вышеупомянутого сайта (см. Скриншот).
Если вы видите прикрепленный скриншот, у него есть три имени (выделено красным цветом). Если вы щелкните по одной из ссылок, вы увидите всплывающее окно, и всплывающее окно содержит всю информацию об этом авторе. Я хочу обходить информацию, которая есть в этом всплывающем окне.
Я использую следующий код для обхода содержимого.
public class WebContentDownloader {
private Parser parser;
private PageFetcher pageFetcher;
public WebContentDownloader() {
CrawlConfig config = new CrawlConfig();
parser = new Parser(config);
pageFetcher = new PageFetcher(config);
}
private Page download(String url) {
WebURL curURL = new WebURL();
curURL.setURL(url);
PageFetchResult fetchResult = null;
try {
fetchResult = pageFetcher.fetchHeader(curURL);
if (fetchResult.getStatusCode() == HttpStatus.SC_OK) {
try {
Page page = new Page(curURL);
fetchResult.fetchContent(page);
if (parser.parse(page, curURL.getURL())) {
return page;
}
} catch (Exception e) {
e.printStackTrace();
}
}
} finally {
if (fetchResult != null) {
fetchResult.discardContentIfNotConsumed();
}
}
return null;
}
private String processUrl(String url) {
System.out.println("Processing: " + url);
Page page = download(url);
if (page != null) {
ParseData parseData = page.getParseData();
if (parseData != null) {
if (parseData instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) parseData;
return htmlParseData.getHtml();
}
} else {
System.out.println("Couldn't parse the content of the page.");
}
} else {
System.out.println("Couldn't fetch the content of the page.");
}
return null;
}
public String getHtmlContent(String argUrl) {
return this.processUrl(argUrl);
}
}
Мне удалось выполнить сканирование содержимого из вышеупомянутой ссылки/сайта. Но у него нет информации, которую я обозначил в красных ящиках. Я думаю, что это динамические ссылки.
- Мой вопрос: как я могу сканировать контент из вышеупомянутой ссылки/веб-сайта...???
- Как сканировать контент с веб-сайтов на основе Ajax/JavaScript...???
Пожалуйста, помогите мне в этом.
Спасибо и с уважением, Амар