WebCrawler - HttpClient&Jsoup

最新推荐文章于 2024-03-27 13:15:56 发布

尘迦子

最新推荐文章于 2024-03-27 13:15:56 发布

阅读量1.7k

点赞数

分类专栏：工具及中间件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44373403/article/details/103844851

版权

工具及中间件专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.入门程序

网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本

1.1.环境准备

在这里插入图片描述

1.2.log4j.properties

在这里插入图片描述

1.3.程序

在这里插入图片描述

2.网络爬虫介绍

2.1.什么是网络爬虫？

网络爬虫（Web crawler）也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，可以自动采集所有其能够访问到的页面内容，以获取相关数据。

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。爬虫从一个或若干初始网页的 URL 开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL 放入队列,直到满足系统的一定停止条件。

2.2.为什么学网络爬虫？

可以实现搜索引擎
大数据时代，可以让我们获取更多的数据源。
可以更好地进行搜索引擎优化（SEO）。
有利于就业。

3.HttpClient抓取数据

网络爬虫就是用程序帮助我们访问网络上的资源，我们一直以来都是使用 HTTP 协议访问互联网的网页，网络爬虫需要编写程序，在这里使用同样的 HTTP 协议访问网页。

这里我们使用 Java 的 HTTP 协议客户端 HttpClient 这个技术，来实现抓取网页数据。

3.1.GET请求

在这里插入图片描述

3.2.带参数的GET请求

在这里插入图片描述

3.3.POST请求

在这里插入图片描述

3.4.带参数的POST请求

在这里插入图片描述

3.5.连接池

在这里插入图片描述

3.6.请求参数

在这里插入图片描述

4.Jsoup解析数据

我们抓取到页面之后，还需要对页面进行解析。可以使用字符串处理工具解析页面，也可以使用正则表达式，但是这些方法都会带来很大的开发成本，所以我们需要使用一款专门解析 html 页面的技术

4.1.Jsoup介绍

在这里插入图片描述
Jsoup的依赖：

4.2.解析URL

Jsoup 可以直接输入 url，它会发起请求并获取数据，封装为 Document 对象
在这里插入图片描述

虽然使用 Jsoup 可以替代 HttpClient 直接发起请求解析数据，但是往往不会这样用，因为实际的开发过程中，需要使用到多线程，连接池，代理等等方式，而 jsoup 对这些的支持并不是很好，所以我们一般把 jsoup 仅仅作为 Html解析工具使用

4.3.解析字符串

在这里插入图片描述

4.4.解析文件

在这里插入图片描述

4.5.使用dom方式遍历文档

元素获取

1.根据 id 查询元素 getElementById
2.根据标签获取元素 getElementsByTag
3.根据 class 获取元素 getElementsByClass
4.根据属性获取元素 getElementsByAttribute

元素中获取数据

1.从元素中获取 id
2.从元素中获取 className
3.从元素中获取属性的值 attr
4.从元素中获取所有属性 attributes
5.从元素中获取文本内容 text

4.6.Selector选择器概述

在这里插入图片描述

4.7.Selector选择器组合使用

在这里插入图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
WebCrawler - HttpClient&Jsoup

1.入门程序网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本1.1.环境准备1.2.log4j.properties1.3.程序2.网络爬虫介绍2.1.什么是网络爬虫？网络爬虫（Web crawler）也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，可...
复制链接

扫一扫

专栏目录

尘迦子 CSDN认证博客专家 CSDN认证企业博客

码龄5年

107: 原创

9万+: 周排名

195万+: 总排名

2万+: 访问

: 等级

1244: 积分

10: 粉丝

13: 获赞

17: 评论

53: 收藏

私信

关注

热门文章

分类专栏

最新评论

Class not found："Test"
孤星与影: 然后出现了这个：Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.12.4:test (default-test) on project mybatistest: Execution default-test of goal org.apache.maven.plugins:maven-surefire-plugin:2.12.4:test failed: The forked VM terminated without saying properly goodbye
Class not found："Test"
泛憨分析: 谢谢,有用
Class not found："Test"
小狗铂西: 双击test导入依赖
Class not found："Test"
weixin_45689774: 谢谢，有用，博主的意思是用maven里的test,选择test然后点上面绿色三角的运行就好了，会运行你的test
Class not found："Test"
一念执着灬: 兄弟，解决没有？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。