У меня есть простой веб-искатель, который начинается с root (данный url) загружает html корневой страницы, затем сканирует гиперссылки и обходит их. В настоящее время я храню html-страницы в базе данных SQL. В настоящее время я столкнулся с двумя проблемами:
-
Похоже, что обход достигает узкого места и не способен быстрее сканировать, я где-то читал, что создание многопоточных HTTP-запросов на страницы может заставить сканер сканировать быстрее, но я не уверен в как это сделать.
-
Вторая проблема: мне нужна эффективная структура данных для хранения html-страниц и возможность запуска их операций с данными (в настоящее время с использованием базы данных SQL хотелось бы услышать другие рекомендации)
Я использую .Net framework, С# и MS SQL