利用Jsoup创建属于自己的信息库

Jsoup 爬虫

Java

发布日期: 2017-01-13

文章字数: 463

阅读时长: 1 分

jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。今天小杨就以糗事百科为例，爬一爬糗事百科首页的小笑话。创建一个本地的笑话库。

首先去官网下载相关的jar包，jsoup.jar。目前最新版本是1.10.2。

使用官方API获取糗事百科首页的代码

首页代码

是不是感觉非常简单，此处的doc就是我们获取的页面的源代码，而且jsoup会自动的根据获取的页面的编码格式来进行解码，以保证我们获取的是没有乱码的源代码。

下面我们就来解析他首页的源代码吧。

通过小杨观察，糗事百科的笑话全部放在的一个class=content的div下面的span里面

源代码

然后我们根据API来解析吧

小杨用的是图片红框里标注的两个方式，这些都是可以组合使用的。是不是感觉和jQuery选择器那么相似呢。

然后就让我解析一下这个mastheads吧。我们在这里获取的class为content的div下面的span对象

mastheads

打印出来是不是感觉多了好多没有用的span标签呢，这是因为这是这个span对象，这是一个对象，不是内容呦。我们可以通过html()方法获取文本内容。

解析span源码

解析span结果

至此，我们就获取的糗事百科首页的小笑话集合，是不是感觉超简单呢。赶紧来试试吧。小杨把它封装到了List容器里面。贴上完整的代码。希望对大家有帮助。

笑话集合

Jsoup 爬虫

2017-08-08 数据库

配置数据库 Redis config

2017-01-09 其他

阿里云 OSS 云储存