Функция readLines отображает все содержимое исходной страницы в одной строке.
con = url("target_url_here")
htmlcode = readLines(con)
Функция readLines объединила все строки исходной страницы в одной строке. Таким образом, я не могу перейти к 15-й строке на исходной исходной странице html.
Следующий подход - попытаться разобрать его с помощью пакета XML или пакета httr.
library("httr")
html <- GET("target_url_here")
content2 = content(html,as="text")
parsedHtml = htmlParse(content2,asText=TRUE)
Распечатав файл parsedHtml, он сохраняет html-формат и отображает все содержимое, как это видно на исходной странице. Теперь предположим, что хочу извлечь заголовок, поэтому функция
xpathSApply(parsedHtml,"//title",xmlValue)
даст название.
Но мой вопрос: как мне перейти к любой строке, скажем, 15-й строке html? Другими словами, как я могу рассматривать html как вектор строк, где каждый элемент вектора является отдельной строкой в html-странице/анализированном html-объекте.