利用Jsoup创建属于自己的信息库


jsoup是一款JavaHTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOMCSS以及类似于jQuery的操作方法来取出和操作数据。今天小杨就以糗事百科为例,爬一爬糗事百科首页的小笑话。创建一个本地的笑话库。

一、下载JAR包

首先去官网下载相关的jar包,jsoup.jar。目前最新版本是1.10.2。

二、获取页面HTML代码

使用官方API获取糗事百科首页的代码

首页代码

是不是感觉非常简单,此处的doc就是我们获取的页面的源代码,而且jsoup会自动的根据获取的页面的编码格式来进行解码,以保证我们获取的是没有乱码的源代码。

三、解析

下面我们就来解析他首页的源代码吧。

通过小杨观察,糗事百科的笑话全部放在的一个class=content的div下面的span里面

源代码

然后我们根据API来解析吧

解析

小杨用的是图片红框里标注的两个方式,这些都是可以组合使用的。是不是感觉和jQuery选择器那么相似呢。

解析

然后就让我解析一下这个mastheads吧。我们在这里获取的class为content的div下面的span对象

mastheads

打印出来是不是感觉多了好多没有用的span标签呢,这是因为这是这个span对象,这是一个对象,不是内容呦。我们可以通过html()方法获取文本内容。

解析span源码

解析span结果

至此,我们就获取的糗事百科首页的小笑话集合,是不是感觉超简单呢。赶紧来试试吧。小杨把它封装到了List容器里面。贴上完整的代码。希望对大家有帮助。

笑话集合


  目录