五分钟告诉你什么是爬虫？

最新推荐文章于 2024-03-19 17:46:39 发布

ScratKong

最新推荐文章于 2024-03-19 17:46:39 发布

阅读量1.5w

点赞数 4

分类专栏：爬虫文章标签：爬虫 Python

爬虫专栏收录该内容

8 篇文章 4 订阅

订阅专栏

1 什么是爬虫

把互联网比喻成一张网，那么爬虫就是网上爬行的蜘蛛，把网的节点比喻成一个个网页，爬虫爬取到就相当于访问了该页面，获取了其信息，爬虫可以通过一个节点之后，顺着节点连线（链接) 继续爬行到下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点就可以被爬虫全部爬到。

实际实现可理解为：网络爬虫（又称网页蜘蛛，网络机器人）模拟浏览器发送网络请求，接收请求响应，按照一定的规则，自动地抓取互联网信息的程序。

简而言之：爬虫就是获取网页并提取和保存信息的自动化程序。（原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。）

爬虫的应用：

12306抢票
网站上的投票
短信轰炸

2. 爬虫的分类

根据被爬网站的数量的不同，我们把爬虫分为：

通用爬虫：通常指搜索引擎的爬虫（https://www.baidu.com）
聚焦爬虫：针对特定网站的爬虫

3. 爬虫的流程

向起始url发送请求，并获取响应
对响应进行提取
如果提取url，则继续发送请求获取响应
如果提取数据，则将数据进行保存

关于获取网页：

爬虫的首要工作就是获取网页，即获取网页源代码，python提供了很多库来帮助我们实现发请求、获取网页响应的操作，如urllib、requests（会在后续文章中进行介绍)。我们可用这些库来帮助我们实现HTTP操作。

关于提取信息：

网页中信息冗杂，我们不会全都需要，就要把获得的数据进行提取筛选，网页的结构有一定的规则，还有一些可以根据网页节点属性、CSS选择器、XPath来提取网页信息的库，如Beautiful Soup、 pyquery、lxml等，使用这些库可以快速高效的从中提取网页信息。

关于保存数据：

提取信息后就需要对提取到的数据保存到某处方便后续使用，保存的形式多种多样，TXT、JSON or in DB , such as MySQL and MongoDB 。

4. robots协议

在百度搜索中，不能搜索到淘宝网中某一个具体的商品的详情页面，这就是robots协议在起作用

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是互联网中的一般约定

例如：淘宝的robots协议

小结

数据的来源：
- 去第三方的公司购买数据
- 去免费的数据网站下载数据(比如国家统计局)
- 通过爬虫爬取数据
- 人工收集数据(比如问卷调查)
爬虫的概念：模拟浏览器发送网络请求，接收请求响应
爬虫分类：通用爬虫、聚焦爬虫
爬虫的流程：
- 向起始url发送请求，并获取响应
- 对响应进行提取
- 如果提取url，则继续发送请求获取响应
- 如果提取数据，则将数据进行保存
robots协议：无需遵守该协议

进一步了解爬虫：请看爬虫（一）爬虫入门

Scrat 一个热爱坚果的松鼠哦~

关注

4
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
五分钟告诉你什么是爬虫？

1 什么是爬虫把互联网比喻成一张网，那么爬虫就是网上爬行的蜘蛛，把网的节点比喻成一个个网页，爬虫爬取到就相当于访问了该页面，获取了其信息，爬虫可以通过一个节点之后，顺着节点连线（链接) 继续爬行到下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点就可以被爬虫全部爬到。实际实现可理解为：网络爬虫（又称网页蜘蛛，网络机器人）模拟浏览器发送网络请求，接...
复制链接

扫一扫

专栏目录

ScratKong CSDN认证博客专家 CSDN认证企业博客

码龄7年

64: 原创

5万+: 周排名

182万+: 总排名

55万+: 访问

: 等级

5740: 积分

529: 粉丝

709: 获赞

74: 评论

2356: 收藏

私信

关注

热门文章

分类专栏

Python 84篇
计算机基础 52篇
数据库 45篇
Linux 24篇
Web框架 21篇
数据结构 16篇
性能优化 7篇
网络安全 10篇
前端开发 12篇
工具 19篇
爬虫 8篇
架构、运维 19篇
LeetCode 3篇
前后端交互 5篇
各种BUG 9篇
数据处理 6篇
机器学习 4篇
云计算 7篇
程序人生 15篇
其他 4篇

最新评论

ETL讲解（很详细！！！）
月哥说了算: 感觉没有存在的必要
什么是脚本，脚本语言？
TT_RJB: 少侠好理解，多谢！
两句话掌握 Python 最难知识点——元类
浮云骑士飞: 它跟据类的名字，创建了一个类方法。比如我们由元类创建的类叫“Hello”，那创建时就自动有了一个叫“say_Hello”的类方法，然后又将类的名字“Hello”作为默认参数saying，传到了方法里面。然后把hello方法调用时的传参作为value传进去，最终打印出来。这句话有问题呀，name到saying，入参到value，为什么name不到value，偏偏要映射到saying，saying和value不都是你自定义的变量吗？
前后端数据交互的方式与过程
m0_74181525: 需求评审
什么是脚本，脚本语言？
千丈茑: 谢谢，可太喜欢这种通俗的解释啦，请老师多多更新～

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。