имеют два файла pdf и html, считывая файлы в виде строк простого текста (после извлечения текста из pdf) и html и теперь, пытаясь сделать обычный текст, те же теги html, что и html string. Затем, чтобы сравнить их, чтобы найти различия
Final Редактировать простой пример, который в настоящее время не работает
var text1="here is example text";
var text2="<html><body><div>here is another <span>example</span> text</div></body></html>";
var div = document.createElement("div");
div.innerHTML = text2;
var text = div.textContent || div.innerText || "";
var content= text.split(" ");
var alltags=text2.match(/<.+?>/g);
var pdfwords=text1.split(" ");
var output="";
for(var j=0; j<alltags.length; j++){
for(i=0; i<pdfwords.length; i++){
if(pdfwords[i]===content[j]){
output+=alltags[i]+pdfwords[i];
}
}
}
document.write(output);
вывод должен быть
"<html><body><div>here is another<span>example</span> text</div></body></html>"
diff эти две строки выводятся, а text2 показывает разницу, поскольку "другой" вставлен