常见反爬机制

爬虫三大步骤:

抓取(requests,scrapy,Selunium):
BeautifulSoup:方法选择器find()和find_all()或CSS选择器
lxml:XPath
pyquery:CSS选择器正则表达式

分析

存储

1.常见反爬机制

1.headers反爬虫:User-Agent Cookie Referer Origin
2.访问频率,IP限制 : 构造代理池,降低爬取速度
3.图片验证码,滑块验证码,短信验证码,点触验证码: OCR识别技术(PIL 利用python第三方库–tesserocr selenium技术来模拟人的拖动顺序 ,打码平台(超级鹰 / 云打码)
4.登录限制,增加一些请求参数:模拟登录
5.AJAX动态加载 :Selenium无头模式 js2py解密JavaScript代码
6.提高数据获取成本,如代码混淆,css数据偏移、动态加密方案、假数据,混淆数据,js加密 查看源代码
7.通过蜜罐(陷阱)进行反爬:
在爬虫获取链接进行请求的过程中,爬虫会根据正则,xpath,css等方式进行后续链接的提取。此时服务器端可以设置一个陷阱url,会被提取规则获取,但是正常用户无法获取,这样就能有效的区分爬虫和正常用户。
8.根据http2.0请求头协议版本 reqeusts Httpx

![anti-spider]]anti_spider

anti-anti-spider


常见反爬机制
https://centyuan.github.io/2023/11/06/爬虫/常见反爬机制/
作者
hlyuan
发布于
2023年11月6日
许可协议