去除Html文档中的Html标签

前言 在爬虫爬取网页的Html代码来做简单搜索引擎,需要获取网站标题以及网站内容,其中爬取的网站内容为Html文档格式,可通过以下代码转为纯文本。 代码 import java.io.ByteArrayInputStream; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamRead...
阅读更多