Я ищу код С# для преобразования HTML-документа в обычный текст.
Я не ищу простой дескриптор тега, но что-то, что выведет обычный текст с разумным сохранением исходного макета.
Результат должен выглядеть следующим образом:
Я просмотрел HTML Agility Pack, но я не думаю, что мне нужно. Есть ли у кого-нибудь другие предложения?
EDIT: Я просто загружаю пакет Agility Pack из CodePlex и запускал проект Html2Txt. Какое разочарование (по крайней мере модуль, который делает html для преобразования текста)! Все, что было сделано, это разбить теги, свернуть таблицы и т.д. Выход не выглядел так, как Html2Txt @W3C. Слишком плохо, что источник кажется недоступным. Я смотрел, есть ли доступ к более "консервированным" решениям.
РЕДАКТИРОВАТЬ 2: Спасибо всем за ваши предложения. FlySwat подскакивал мне в направлении, в котором я хотел идти. Я могу использовать класс System.Diagnostics.Process
для запуска lynx.exe с помощью переключателя "-dump", чтобы отправить текст на стандартный вывод и захватить stdout с помощью ProcessStartInfo.UseShellExecute = false
и ProcessStartInfo.RedirectStandardOutput = true
. Я завершу все это в класс С#. Этот код будет называться только случайным образом, поэтому я не слишком обеспокоен появлением нового процесса и его выполнением в коде. Кроме того, Lynx FAST!!