手机端小强原创文章,java小强个人博客站点
当前位置: 首页 >> 开源 >> jsoup入门示例程序

jsoup入门示例程序

17211 开源 | 2016-6-13

jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。


jsoup的主要功能如下:

1. 从一个URL,文件或字符串中解析HTML;

2. 使用DOM或CSS选择器来查找、取出数据;

3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。


解析XML和解析JSON大家都已经在程序中使用很多了,解析HTML也是一个意思,就是用法不同而已。

这里实用jsoup来解析我自己的博客,抓取博客首页的标题列表并打印,该程序为入门示例程序。


jsoup入门示例程序


如图,如果访问www.javacui.com网站,查看源码,会看到如上内容。

分析一下,ID为left的DIV里面就是文章列表,列表以dl进行划分,其中标题位于dl-dt-h2-a标签内。根据以上分析,编写如下代码。

package com.cui.test;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 * 获取www.javacui.com网站的文章列表
 * @author java小强
 */
public class JavacuiSpider {
	public static void main(String[] args) {
		try {
			Document doc = null;
			doc = Jsoup.connect("http://www.javacui.com/").get(); // 直接发送HTTP请求获得
			Element content = doc.getElementById("left"); // 根据ID获得文章列表DIV
			Elements elements = content.getElementsByTag("dl"); // DIV中每个dl都是一篇文章
			int i = 1; // 用于显示第几篇文章
			for (Element e : elements) {
				Elements as = e.getElementsByAttribute("target"); // 根据属性获取,一遍文章中有两个a,都有target属性,第一个是标题连接,第二个是点击详细
				Element a = as.get(0); // 获取第一个,既标题连接
				String title = a.text(); // 问的标签内的文本
				System.out.println("第【" + i + "】篇文章标题:" + title);
				i++;
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

程序会像爬虫一样读取博客源码,然后解析出文章标题并打印。

请用maven引用jsoup的jar包

<dependency>
	<groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.7.2</version>
</dependency>

结束。

推荐您阅读更多有关于“ 爬虫 jsoup html解析 网络抓取 ”的文章

上一篇:Jsoup加载HTML的三种方式 下一篇:Data truncation: Incorrect string value

猜你喜欢

发表评论:

评论:

回复 java小强 评论于 2016-06-13 17:19
运行打印:
第【1】篇文章标题:jsoup入门示例程序
第【2】篇文章标题:Data truncation: Incorrect string value
第【3】篇文章标题:Oracle导入导出 imp/exp 命令
第【4】篇文章标题:中文转拼音,pinyin4j实用示例
第【5】篇文章标题:Linux定时任务Crontab命令
第【6】篇文章标题:Win8配置VPN连接
第【7】篇文章标题:java读写Properties属性文件公用方法
第【8】篇文章标题:疫苗之殇
第【9】篇文章标题:Lucene入门之增删改查
第【10】篇文章标题:Log4J日志配置详解
第【11】篇文章标题:Solr-在Tomcat上安装Solr
个人资料
blogger

java小强
没有思考,人生的路会越走越难!

搜索
分类
最新微语
  • 今日北京再次沙尘暴来袭,吃了几年细粮,终于能来口粗粮了,不过大早上看见这场景,还是吓我一跳,不过随后就平静了,毕竟是老朋友了。进公司又发现一股烤糊的味道,真是祸不单行啊,例外都是污染。发了两个口罩,开启保护模式。

    2017-05-04 10:16

  • 今天同学问我,最近还在写代码吗?我想了想,这个问题怎么回答呢,我好像确实很长时间,虽然写了一些,但是主要内容已经不是写代码了。然后再想想,自己也7年多了,这么多年了,我收获了什么,我的目标到底是什么。眼看就奔三了,人生啊,开启感叹模式。

    2017-03-30 22:52

  • 也许大家都已经注意到了,今年的房价,好多地方都是翻了一番,跟着就是,各地房东开始变相涨租。今年之所以搬走,就是为此,这两天同学也是如此。很多房东只认钱,别谈感情,伤钱。而对于这个城市来说,你怎么定位自己,你真把自己当成她的一份子?你来此为何?将来何去何从?自己掂量清楚。

    2016-12-05 10:03

  • 为什么一直不写了呢?因为当爸爸了,没空了。今年的冬天,有些寒冷,除了这寒冬带来的不适,更有因乐视公司遇到危机,而带来的同事别离。送别同事,看着空旷的工位,心中有些悲凉。临近年关,此时此刻,该怎么做,似乎不再是脑子一热那么简单了。

    2016-11-24 11:28

  • 已经请假,加上国庆,要很长一段时间不在北京了。919加班,搞的现在有点心累,胸闷,身体不适。看来,我要好好休息一下了。这几天有些冷,2016的冬天,一步步来了,各位亲友,记得添衣加粗啊。

    2016-09-23 17:29

  • 更多»

最新文章
热门文章
随机文章