开源Html分析器解析库对比

几乎所有已知的HTML解析器都是实现W3C DOM API(JAXP的API一部分,用于XML处理),并给你一个org.w3c.dom.Document,便于通过JAXP API直接使用。主要的区别通常是是否能分析有问题的html。大多数解析器是在一定程度上都宽容非结构非完整的HTML,如JTidy,NekoHTML,TagSoup和HtmlCleaner。您通常可以使用这种类型的HTML解析器对付比较“整洁”的HTML源,这样就可以使用W3C DOM和 JAXP API.

NekoHTML:


final DOMParser parser = new DOMParser();
try {
parser.parse(new InputSource(urlIS));
document = parser.getDocument();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}

TagSoup:


final Parser parser = new Parser();
SAX2DOM sax2dom = null;
try {
sax2dom = new SAX2DOM();
parser.setContentHandler(sax2dom);
parser.setFeature(Parser.namespacesFeature, false);
parser.parse(new InputSource(urlIS));
} catch (Exception e) {
e.printStackTrace();
}
document = sax2dom.getDOM();

jTidy:


final Tidy tidy = new Tidy();
tidy.setQuiet(true);
tidy.setShowWarnings(false);
tidy.setForceOutput(true);
document = tidy.parseDOM(urlIS, null);

HtmlCleaner:


final HtmlCleaner cleaner = new HtmlCleaner(urlIS);
try {
cleaner.clean();
document = cleaner.createDOM();
} catch (Exception e) {
e.printStackTrace();
}

用以上代码做测试抓取文档html中链接标签,赢家是HtmlCleaner,它快速和容易实现。一个缺点HtmlCleaner是,它不提供一个Maven仓库。


HtmlUnit

HtmlUnit使您能够像一个在WebBrowser里面编程。输入表单的值,单击按钮,调用JavaScript等等。它不只是一个HTML解析器。是一个真正的“图形界面的web浏览器”和HTML的单元测试工具。


Jsoup:
提供一个完全自己的API。它给你像使用jQuery般的CSS选择器,并提供了一个灵活的API来遍历HTML DOM树来获得感兴趣的内容。

HTML DOM树的遍历是Jsoup的主要特征。有过org.w3c.dom.Document打交道的人知道这是多么痛苦的地狱,可以使用jsoup详细的NodeList和节点API来遍历DOM。当然,XPath的使生活更轻松,但是它难以学习。

如果你想从通常的现实世界HTML中提取特定数据,Jsoup是选择。


String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select(
"a").first();

String text = doc.body().text();
// "An example link"
String linkHref = link.attr(
"href"); // "http://example.com/"
String linkText = link.text();
// "example""

String linkOuterH = link.outerHtml();
// "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html();
// "<b>example</b>"

详细见:http://jsoup.org/cookbook/extracting-data/attributes-text-html