Мой вопрос похож на на этот вопрос, но у меня больше ограничений:
- Я знаю, что документ разумно нормальный.
- они очень регулярные (все они происходили из одного источника
- Я хочу около 99% видимого текста
- около 99% того, что является жизнеспособным вообще, - это текст (они более или менее RTF конвертированы в HTML)
- Мне не нужны форматирование или даже абзацы.
Есть ли какие-либо инструменты, созданные для этого, или мне лучше просто вырвать RegexBuddy и С#?
Я открыт для инструментов командной строки или пакетной обработки, а также для библиотек C/С#/D.