Jsoup 是一个流行的开源 Java 库,用于处理 HTML。它有助于获取 URL 并提取其数据。它的主要优势之一是使用 HTML DOM 方法和 CSS 选择器从 URL 中抓取 HTML。
要开始使用 Jsoup,我们需要将其依赖项添加到我们的依赖项管理器中。让我们将Jsoup依赖项添加到pom.xml:
<dependency> |
以下是使用 Jsoup 下载网页的示例:
@Test |
在此示例中,我们创建了一个Document 实例,并使用 Jsoup.connect() 建立了到示例站点的连接。Jsoup.connect()有助于建立到 URL 的连接并将其内容检索为Document对象。
接下来,我们调用get() 方法,该方法向指定的 URL 发送 GET 请求。它将响应返回为Document。
最后,我们将提取出来的内容存入一个String类型的可变网页中。我们通过在Document对象上调用html()方法来完成此操作。
示例的完整示例源代码可在 GitHub 上获得