使用 Jsoup 下载网页


Jsoup 是一个流行的开源 Java 库,用于处理 HTML。它有助于获取 URL 并提取其数据。它的主要优势之一是使用 HTML DOM 方法和 CSS 选择器从 URL 中抓取 HTML。
要开始使用 Jsoup,我们需要将其依赖项添加到我们的依赖项管理器中。让我们将Jsoup依赖项添加到pom.xml:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.4</version>
</dependency>


以下是使用 Jsoup 下载网页的示例:

@Test
void givenJsoup_whenRetrievingWebpage_thenWebpageDocumentIsNotNullAndContainsHtmlTag() throws IOException {
        
    Document document = Jsoup.connect("https://www.example.com").get();
    String webpage = document.html();
        
    assertNotNull(webpage);
    assertTrue(webpage.contains("<html>"));
}

在此示例中,我们创建了一个Document 实例,并使用 Jsoup.connect() 建立了到示例站点的连接。Jsoup.connect()有助于建立到 URL 的连接并将其内容检索为Document对象。
接下来,我们调用get() 方法,该方法向指定的 URL 发送 GET 请求。它将响应返回为Document。
最后,我们将提取出来的内容存入一个String类型的可变网页中。我们通过在Document对象上调用html()方法来完成此操作。

示例的完整示例源代码可在 GitHub 上获得