Java小强个人技术博客站点    手机版
当前位置: 首页 >> 标签 爬虫

jsoup+正则,解析HTML并移除HTML标签

8170 开源 | 2021-4-27 8:24
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup实现html5规范,并将HTML解析为与现代浏览器相同的DOM1)从一个URL,文件或字符串中解析HTML2)使用DOM或CSS选择器来查找、取出数据3)可操作......查看详细

Jsoup加载HTML的三种方式

84541 开源 | 2016-6-13 20:28
Jsoup加载HTML的三种方式,上一篇说的只是一种方式,直接从HTTP源网站获取。从字符串解析来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它。String html = "<html><head><title>F......查看详细

jsoup入门示例程序(网络爬虫)

67952 开源 | 2016-6-13 17:09
jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。解析XML和解析JSON大家都已经在程序中使用很多了,解析HTML也是一个意思,就是用法不同而已。这里实用jsoup来解析我自己的博客,抓取博客首页的标题列表并打印,该程序为......查看详细

你不太关注的网站安全,JS植入

58910 站长 | 2014-11-22 10:03
有一件事,那就是我的一个论坛是抢注的一个域名,我发现百度快照上都是一些赌博信息,我还纳闷难道就是因为这事站长不干了?后来从网站得知,可能是站长不维护后,别人修改了他的网站,把快照修改了。综合来说,也许你觉得你的网站没事,可是事情可能不是你想的那样。比如快照修改,手机端跳转等,你不会去特别注意。阅读全文>>...查看详细