Python 网页爬虫

zz/2024/3/2 2:31:11
import re  #匹配的库
import requests
headers = {'Cookie':'UM_distinctid=16828a999356ee-01dbffc4bd71a8-33504275-144000-16828a99936840; CNZZDATA1255357127=1573548009-1546867979-%7C1546921578','Host':'m.网站名称.com','User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
}url = 'https://网站名称.com/t/faye/'#访问网站
#pattern = re.compile('<a href="(.*?)"><img src=".*?" alt="(.*?)" width=".*?" height=".*?"/></a><p>(.*?)</p>',re.S)
pattern = re.compile('<a href="(.*?)"><img src=".*?" alt="(.*?)" width=".*?" height=".*?"/></a>')
response = requests.get(url,headers = headers)
response.encoding = 'utf-8'urlstart = 'https://mtl.ttsqgs.com/images/img/'header = {'Host':'mtl.ttsqgs.com','User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'
}li = re.findall(pattern,response.text)#匹配部分
for content in li:    num = re.match('https://m.网站名称.com/item/(.*?).html',content[0]).group(1)referer = 'https://m.网站名称.com/item/' + str(num) +'.html'header['Referer'] = referer'''p = re.compile('[.*?].*?[(.*?)]')picnum = re.match(p,content[1].groupprint(picnum)#不知道为什么不对...'''picnum = re.findall('\d+',content[1])[-1]#print(content[1],picnum)for i in range(1,int(picnum)+1):u = urlstart + str(num) + '/' + str(i) +'.jpg'print(content[1],'正在下载第{}张'.format(i),u)with open('E:\文件夹名称\%s%s.jpg'%(content[1],i) ,'wb') as f:f.write(requests.get(u,headers = header).content)

http://www.ngui.cc/zz/2641757.html

相关文章

将文件数据读入结构体

将文件数据读入结构体 #include <stdio.h> #include <string.h> #include <stdlib.h> struct infostu {char no[20]; //学号 char name[20]; char sex[4];int age;char major[20]; //专业班级 }; int main() {int i0,j;struct infostu student[5…

CNN——卷积、池化与误差反向传播

卷积神经网络&#xff08;CNN&#xff09; 组成&#xff1a;输入层、卷积层、激活函数、池化层、全连接层 卷积神经网络中重要概念就&#xff1a; 深度&#xff1a;深度大小就等于所用的filter的个数[卷积层]&#xff0c;也可以理解为提取的层数。 权值共享&#xff1a;给一张…

iOS H5交互 -MUI

最近公司要求以后的项目要用iOS原生框架和h5页面结合完成,发现网上这方面的资料好少(js交互的资料是挺多的&#xff0c;我的h5页面是用MUI完成的&#xff0c;这方面的资料真的好少) 把我最近的进度做个总结 去MUI官网下载SDK 点击这里查看官方文档&#xff0c;下载SDK 下图是SD…

Hibernate配置异常

Orders和OrderItem配置 错误如图&#xff1a; 找了很久&#xff0c;才发现是因为和数据库对应的字段不同。 实体类&#xff1a; orders OrderItem xxx.hbm.xml 由于数据库对应的字段不存在itemid&#xff0c;所以图片上蓝色这一段代码应不要 数据库表格&#xff1a;

ssh+filter+cookie实现自动登陆

在ssh中&#xff0c;filter的web.xml没有正确配置的话&#xff0c;就会出现空指针异常&#xff0c;因为他执行的时候没有去找bean。也就是说filter和spring没有结合起来 实现用户自动登陆就是把用户信息保存在cookie里&#xff0c;当用户第二次访问的时候无需登陆。 实现自动…

hql语句中使用占位符:xx 的时候,查询所有查询查不出来

在hql语中&#xff0c;我们可以使用&#xff1f;也可以使用占位符&#xff1a;xx&#xff0c; 其中&#xff1f;可以使用query.setParameter(0,"%%"); 但是占位符使用query.setParameter("xx","%%")&#xff1b;的时候查询不出来所有的记录&am…

计算时间,指定时间的多少个月后

/*计算时间日期 */ function DateAdd(interval,number,date) { switch(interval){ case "m" : { if(date.getMonth()number>12){ date.setMonth(date.getMonth()number-12); date.s…

如何在js中判断是否包含某个字符串

var vkind$("#vkind").val(); var flag1vkind.indexOf("次卡"); //如果flag1不为-1的话&#xff0c;说明指定字符串中包含“次卡”两个字&#xff0c; if(-1!flag1){ //次卡 $("#ubksj").val(""); $("…

SSH阶段常见的异常系列(15条)

异常一 异常一 异常描述: Sax解析异常&#xff1a;cvc-复杂的类型&#xff0c;发现了以元素maping开头的无效内容&#xff0c;应该是以 ‘{“http://www.hibernate.org/xsd/orm/cfg“:property, “http://www.hibernate.org/xsd/orm/cfg“:mapping, “http://www.hibernate.o…

singleton=”false”

webwork的Action不是线程安全的,要求在多线程环境下必须是一个线程对应一个独立的实例,不能使用singleton。所以,我们在Spring配置Webwork Action Bean时,需要加上属性scope=”prototype”或singleton=”false”。 经试验确认,singleton模式指的是对某个对象的完全共享,包…