2021-04-29发表2026-03-28更新Java / 代码2 分钟读完 (大约225个字)

去除Html文档中的Html标签

前言

在爬虫爬取网页的Html代码来做简单搜索引擎，需要获取网站标题以及网站内容，其中爬取的网站内容为Html文档格式，可通过以下代码转为纯文本。

代码

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;

import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

/**
 * @author: sadboy
 **/
public class Html2Text extends HTMLEditorKit.ParserCallback{
    private static Html2Text h2t = new Html2Text();
    private Html2Text(){};
    private StringBuffer s;
    private void parse(String str) throws IOException {
        InputStream iin = new ByteArrayInputStream(str.getBytes());
        Reader in = new InputStreamReader(iin);
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
        iin.close();
        in.close();
    }
    public void handleText(char[] text, int pos) {
        s.append(text);
    }
    public String getText() {
        return s.toString();
    }
    public static String getContent(String str) {
        try {
            h2t.parse(str);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return h2t.getText();
    }
    public static void main (String[] args) {
        System.out.println(Html2Text.getContent("<h2 id=\"md2x-hello-world\">Hello,World</h2>"));
    }
}

去除Html文档中的Html标签

https://blog.sadboy.cn/2021/04/29/2021-4-29-htmlParse/

作者

sadboy

发布于

2021-04-29

更新于

2026-03-28

许可协议

#code Java

支付宝

微信

去除Html文档中的Html标签

前言

代码

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

分类

标签

目录