博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
素材脚本
阅读量:6857 次
发布时间:2019-06-26

本文共 1857 字,大约阅读时间需要 6 分钟。

import requests
import os
import time
import threading
from bs4 import BeautifulSoup
def download_page(url):
'''
用于下载页面
'''
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
r = requests.get(url, headers=headers)
r.encoding = 'gb2312'
return r.text
def get_pic_list(html):
'''
获取每个页面的套图列表,之后循环调用get_pic函数获取图片
'''
soup = BeautifulSoup(html, 'html.parser')
pic_list = soup.find_all('li', class_='wp-item')
for i in pic_list:
a_tag = i.find('h3', class_='tit').find('a')
link = a_tag.get('href')
text = a_tag.get_text()
get_pic(link, text)
def get_pic(link, text):
'''
获取当前页面的图片,并保存
'''
html = download_page(link) # 下载界面
soup = BeautifulSoup(html, 'html.parser')
pic_list = soup.find('div', id="picture").find_all('img') # 找到界面所有图片
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
create_dir('pic/{}'.format(text))
for i in pic_list:
pic_link = i.get('src') # 拿到图片的具体 url
r = requests.get(pic_link, headers=headers) # 下载图片,之后保存到文件
with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
f.write(r.content)
time.sleep(1) # 休息一下,不要给网站太大压力,避免被封
def create_dir(name):
if not os.path.exists(name):
os.makedirs(name)
def execute(url):
page_html = download_page(url)
get_pic_list(page_html)
def main():
create_dir('pic')
queue = [i for i in range(1, 72)] # 构造 url 链接 页码。
threads = []
while len(queue) > 0:
for thread in threads:
if not thread.is_alive():
threads.remove(thread)
while len(threads) < 5 and len(queue) > 0: # 最大线程数设置为 5
cur_page = queue.pop(0)
url = 'http://meizitu.com/a/more_{}.html'.format(cur_page)
thread = threading.Thread(target=execute, args=(url,))
thread.setDaemon(True)
thread.start()
print('{}正在下载{}页'.format(threading.current_thread().name, cur_page))
threads.append(thread)
if __name__ == '__main__':
main()

转载地址:http://imiyl.baihongyu.com/

你可能感兴趣的文章
Plycom CX话机版本升级
查看>>
RHCS+Conga+GFS+cLVM共享存储的高可用性web集群
查看>>
Vmware vsphere 5.5之网络配置
查看>>
设置SVN,Git忽略MAC的.DS_Store文件的方法
查看>>
电信光纤接入的交换机怎样与无线路由器连接设置
查看>>
用Spring4.04来管理Servlet
查看>>
centos6 配置外发邮件
查看>>
代码大全的总结
查看>>
find 递归删除某文件结尾的
查看>>
linux系统开机过程描述
查看>>
基于Django1.11和Python3开发一个简单的投票系统
查看>>
Linus Torvalds 将重新负责内核开发
查看>>
小蓝杯跌破发行价
查看>>
虚拟化--047 用命令行给VCSC加域
查看>>
我的友情链接
查看>>
dubbo参数调优
查看>>
实验4 利用单臂路由实现VLAN间路由
查看>>
2、前端总线FSB和南桥与北桥
查看>>
SpringMVC 之@ModelAttribute
查看>>
java.lang.OutOfMemoryError: PermGen space及其解决方法
查看>>