手机端小强原创文章,java小强个人博客站点
当前位置: 首页 >> 开源 >> Jsoup加载HTML的三种方式

Jsoup加载HTML的三种方式

25121 开源 | 2016-6-13

Jsoup加载HTML的三种方式,上一篇说的只是一种方式,直接从HTTP源网站获取。


从字符串解析

来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它。

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>from www.javacui.com</p></body></html>";
Document doc = Jsoup.parse(html);

只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少) 一个head和一个body元素。

一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

实用示例:

package com.cui.test;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 * 从字符串解析HTML
 * @author java小强
 */
public class StringHtmlSpider {
	public static void main(String[] args) {
		try {
			String html = "<html><head><title>First parse</title></head>"
					+ "<body><p>from www.javacui.com</p></body></html>";
			Document doc = Jsoup.parse(html);
			Elements elements = doc.getElementsByTag("p");// 根据标签获取
			Element e = elements.get(0);// 因为我知道只有一个p
			System.out.println(e.text());
			// 打印 from www.javacui.com
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}


从本地文件加载

在本机硬盘上有一个HTML文件,需要对它进行解析从中抽取数据或进行修改。本示例HTML文件内容和上面示例字符串内容一致。

File input = new File("D:\\javacui.html");
Document doc = Jsoup.parse(input, "UTF-8");

这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误,将抛出IOException,应作适当处理。

实用示例:

package com.cui.test;
import java.io.File;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 * 从本地文件解析HTML
 * @author java小强
 */
public class LocalDiskSpider {
	public static void main(String[] args) {
		try {
			File input = new File("D:\\javacui.html");
			Document doc = Jsoup.parse(input, "UTF-8");
			Elements elements = doc.getElementsByTag("p");// 根据标签获取
			Element e = elements.get(0);// 因为我知道只有一个p
			System.out.println(e.text());
			// 打印 from www.javacui.com
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}


来自网络

你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据。

Document doc = Jsoup.connect("http://www.javacui.com/").get();
String title = doc.title();

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。

Connection 接口还提供一个方法链来解决特殊请求,具体如下:

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

这个方法只支持Web URLs (http和https 协议)。

使用代码参考:http://www.javacui.com/opensource/463.html 


Jsoup加载HTML的三种方式


参考官网:https://jsoup.org/ 

推荐您阅读更多有关于“ 爬虫 jsoup html解析 网络抓取 ”的文章

上一篇:mysql参数max_allowed_packet 下一篇:jsoup入门示例程序

猜你喜欢

发表评论:

评论:

回复 放大爱育儿 评论于 2016-10-14 12:05
来看看,太深奥了,看不懂
个人资料
blogger

java小强
没有思考,人生的路会越走越难!

搜索
分类
最新微语
  • 又弄完一个项目,累成狗,但是感觉又进步不少,除了很多坑已经踩过,做起来也是轻车熟路。同时也认识到,程序不在于你多牛逼,而是在乎你的细节把控度,而细节的关注,是一个优秀程序员必须要注意的。另外,要相信自己,勇敢向前,没人生下来就是成功的,而且,成功的路,比成功本身更重要。

    2017-06-30 09:46

  • 今日北京再次沙尘暴来袭,吃了几年细粮,终于能来口粗粮了,不过大早上看见这场景,还是吓我一跳,不过随后就平静了,毕竟是老朋友了。进公司又发现一股烤糊的味道,真是祸不单行啊,例外都是污染。发了两个口罩,开启保护模式。

    2017-05-04 10:16

  • 今天同学问我,最近还在写代码吗?我想了想,这个问题怎么回答呢,我好像确实很长时间,虽然写了一些,但是主要内容已经不是写代码了。然后再想想,自己也7年多了,这么多年了,我收获了什么,我的目标到底是什么。眼看就奔三了,人生啊,开启感叹模式。

    2017-03-30 22:52

  • 也许大家都已经注意到了,今年的房价,好多地方都是翻了一番,跟着就是,各地房东开始变相涨租。今年之所以搬走,就是为此,这两天同学也是如此。很多房东只认钱,别谈感情,伤钱。而对于这个城市来说,你怎么定位自己,你真把自己当成她的一份子?你来此为何?将来何去何从?自己掂量清楚。

    2016-12-05 10:03

  • 为什么一直不写了呢?因为当爸爸了,没空了。今年的冬天,有些寒冷,除了这寒冬带来的不适,更有因乐视公司遇到危机,而带来的同事别离。送别同事,看着空旷的工位,心中有些悲凉。临近年关,此时此刻,该怎么做,似乎不再是脑子一热那么简单了。

    2016-11-24 11:28

  • 更多»

最新文章
热门文章
随机文章