Есть ли хороший способ удалить HTML из строки Java? Простое регулярное выражение типа
replaceAll("\\<.*?>","")
будет работать, но такие вещи, как &
, не будут правильно преобразованы, а не HTML между двумя угловыми скобками будут удалены (т.е. .*?
в регулярном выражении исчезнет).