国外虚拟主机 两个网站,企业网站申请流程,网站活动策划方案,吉林省城乡建设厅网站1.1 爬虫的一些知识#xff08;大模型提供语料#xff09; 网页资源#xff1a; 资源组织方式#xff1a;列表分页,搜索引擎#xff0c;推荐 发送请求的文档类型#xff1a;html ,js 响应请求的文档类型#xff1a;html,js,json 请求方式#xff1a;同步和异步 页面形式…1.1 爬虫的一些知识大模型提供语料 网页资源 资源组织方式列表分页,搜索引擎推荐 发送请求的文档类型html ,js 响应请求的文档类型html,js,json 请求方式同步和异步 页面形式单页面非单页面 抓取流程requests直接请求 # 抓取入口(穷举或者探索方式) # 遍历 # 解析清洗 # 入库 # 遍历结束 需要关注的点 内容反爬抓取内容投毒、混淆等反抓取 请求反爬返回403等或者跳转或者返回到一个人工校验页面 资源覆盖率穷举所有要抓取的资源 增量抓取如何保证更新能跟上 抓取速率要友好 关于反爬策略 加上header 不使用requests 加上IP代理池 关于模拟抓取 重量级:selenium 轻量级其他 解析bs4和xpath 一个是擅长筛选器一个擅长路径定位 清洗 内容部分乱码、硬断行。 后续继续补充。。。