jsoup
是一款Java
的HTML
解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM
,CSS
以及类似于jQuery
的操作方法来取出和操作数据。今天小杨就以糗事百科为例,爬一爬糗事百科首页的小笑话。创建一个本地的笑话库。
一、下载JAR包
首先去官网下载相关的jar包,jsoup.jar。目前最新版本是1.10.2。
二、获取页面HTML代码
使用官方API获取糗事百科首页的代码
是不是感觉非常简单,此处的doc就是我们获取的页面的源代码,而且jsoup会自动的根据获取的页面的编码格式来进行解码,以保证我们获取的是没有乱码的源代码。
三、解析
下面我们就来解析他首页的源代码吧。
通过小杨观察,糗事百科的笑话全部放在的一个class=content的div下面的span里面
然后我们根据API来解析吧
小杨用的是图片红框里标注的两个方式,这些都是可以组合使用的。是不是感觉和jQuery选择器那么相似呢。
然后就让我解析一下这个mastheads
吧。我们在这里获取的class为content的div下面的span对象
打印出来是不是感觉多了好多没有用的span标签呢,这是因为这是这个span对象,这是一个对象,不是内容呦。我们可以通过html()方法获取文本内容。
至此,我们就获取的糗事百科首页的小笑话集合,是不是感觉超简单呢。赶紧来试试吧。小杨把它封装到了List容器里面。贴上完整的代码。希望对大家有帮助。