常见反爬机制

爬虫三大步骤:

抓取(requests,scrapy,Selunium):
BeautifulSoup：方法选择器find()和find_all()或CSS选择器
lxml：XPath
pyquery：CSS选择器正则表达式

分析

存储

1.常见反爬机制

1.headers反爬虫:User-Agent Cookie Referer Origin
2.访问频率,IP限制 : 构造代理池,降低爬取速度
3.图片验证码,滑块验证码,短信验证码,点触验证码: OCR识别技术(PIL 利用python第三方库–tesserocr selenium技术来模拟人的拖动顺序 ,打码平台(超级鹰 / 云打码)
4.登录限制,增加一些请求参数：模拟登录
5.AJAX动态加载 :Selenium无头模式 js2py解密JavaScript代码
6.提高数据获取成本，如代码混淆，css数据偏移、动态加密方案、假数据，混淆数据，js加密查看源代码
7.通过蜜罐（陷阱）进行反爬:
在爬虫获取链接进行请求的过程中，爬虫会根据正则，xpath，css等方式进行后续链接的提取。此时服务器端可以设置一个陷阱url，会被提取规则获取，但是正常用户无法获取，这样就能有效的区分爬虫和正常用户。
8.根据http2.0请求头协议版本 reqeusts Httpx

![anti-spider]]anti_spider

anti-anti-spider

常见反爬机制

https://centyuan.github.io/2023/11/06/爬虫/常见反爬机制/

作者

hlyuan

发布于

2023年11月6日

许可协议

Linux source命令的四种用法下一篇