Jsoup 入门

Jsoup 是一个用于 Java 的 HTML 解析和数据提取库,专注于灵活性和易用性。它可用于从 HTML 页面中提取特定数据,这通常称为“Web 抓取”,以及修改 HTML 页面的内容,并使用允许的标记和属性的白名单清理不受信任的 HTML。

JavaScript 支持

Jsoup 不支持 JavaScript ,因此,无法从页面中提取在页面加载后添加到页面的任何动态生成的内容或内容。如果你需要提取的内容被添加到使用 JavaScript 的页面,也几个备选方案:

  • 使用支持 JavaScript 的库,例如 Selenium,它使用实际的 Web 浏览器来加载页面,或者使用 HtmlUnit。

  • 反向设计页面加载数据的方式。通常,通过 AJAX 动态加载数据的网页会这样做,因此,你可以查看浏览器开发人员工具的网络选项卡,以查看数据的加载位置,然后在你自己的代码中使用这些 URL。了解更多详细信息,了解如何抓取 AJAX 页面

官方网站和文档

你可以在 jsoup.org 上 找到各种 Jsoup 相关资源,包括 JavadocJsoup cookbook用法示例和 JAR 下载 。请参阅 GitHub 存储库 以获取源代码,问题和请求。

下载

Jsoup 在 Maven 上可用作 org.jsoup.jsoup:jsoup,如果你正在使用 Gradle(例如,使用 Android Studio),你可以通过在 build.gradle 依赖项部分添加以下内容将其添加到项目中:

compile 'org.jsoup:jsoup:1.8.3'

如果你正在使用 Ant(Eclipse),请将以下内容添加到 POM 依赖项部分:

<dependency>
  <!-- jsoup HTML parser library @ http://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.8.3</version>
</dependency>

Jsoup 也可用作其他环境的可 下载 JAR