做网站的公司叫什么,wordpress主板不显示内容,动态小网站,一个专门做标题的网站文章目录 1. 图片爬取流程分析2. 实现代码—爬取家常菜图片 1. 图片爬取流程分析
先获取网址#xff0c;URL#xff1a;https://www.xiachufang.com/category/40076/ 定位想要爬取的内容使用正则表达式爬取导入模块指定URLUA伪装#xff08;模拟浏览器#xff09;发起请求… 文章目录 1. 图片爬取流程分析2. 实现代码—爬取家常菜图片 1. 图片爬取流程分析
先获取网址URLhttps://www.xiachufang.com/category/40076/ 定位想要爬取的内容使用正则表达式爬取导入模块指定URLUA伪装模拟浏览器发起请求使用通过爬虫爬取整个页面编译正则表达式提取想要的内容解析请求内容指定图片存储路径持久化存储
2. 实现代码—爬取家常菜图片
# 导入模块
import ssl
import os
import re
import requests
if __name__ __main__:# 创建一个文件夹保存所有的图片if not os.path.exists(./caipu/):os.mkdir(./caipu/)# 指定URLurl https://www.xiachufang.com/category/40076/# 模拟浏览器headers {User-Agent : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36}# 使用通用爬虫对URL对应的一整个页面进行爬取并获取响应数据page_text requests.get(urlurl, headersheaders).text# 编译正则表达式# re.compile()方法将正则表达式编译成一个对象可以通过调用它的方法来对文本进行匹配操作。data_src_list re.compile(data-src(.*?) width)# 解析图片链接# findall()查找字符串中所有满足正则表达式的字符串以列表的形式返回。data_src_url data_src_list.findall(page_text)# print(data_src_url)for src in data_src_url:# 请求到图片的二进制数据img_data requests.get(urlsrc,headersheaders).content# 生成图片名称# 由于http://xxxx.jsp后面带有问号所以将其进行切片img_name src.split(/)[-10].split(?)[0]# print(img_name)# 指定图片存储的路径imgPath ./caipu/img_name# 持久化存储with open(imgPath,wb) as fp:fp.write(img_data)print(img_name, 下载成功)