python爬虫能够开多少线程
小编给大家分享一下python爬虫能够开多少线程,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨吧!
十余年的三山网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。营销型网站的优势是能够根据用户设备显示端的尺寸不同,自动调整三山建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。成都创新互联公司从事“三山网站设计”,“三山网站推广”以来,每个客户项目都认真落实执行。
1、爬虫环境
Pycharm+python3.7.0
2、进程和线程的关系:
一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。
资源分配给进程,同一进程的所有线程共享该进程的所有资源。
CPU 分给线程,即真正在 CPU 上运行的是线程。
3、多线程通信实例
因为全局变量并不是线程安全的,比如说全局变量里(列表类型)只有一个 url 了,线程 B 判断了一下全局变量非空,在还没有取出该 url 之前,cpu 把时间片给了线程 C,线程 C 将最后一个url 取走了,这时 cpu 时间片又轮到了 B,B 就会因为在一个空的列表里取数据而报错,而 queue 模块实现了多生产者、多消费者队列,在放值取值时是线程安全的。
4、实例代码
import threading # 导入 threading 模块 from queue import Queue #导入 queue 模块 import time #导入 time 模块 # 爬取文章详情页 def get_detail_html(detail_url_list, id): while True: url = detail_url_list.get() #Queue 队列的 get 方法用于从队列中提取元素 time.sleep(2) # 延时 2s,模拟网络请求和爬取文章详情的过程 print("thread {id}: get {url} detail finished".format(id=id,url=url)) #打印线程 id 和被爬取了文章内容的 url # 爬取文章列表页 def get_detail_url(queue): for i in range(10000): time.sleep(1) # 延时 1s,模拟比爬取文章详情要快 queue.put("http://testedu.com/{id}".format(id=i))#Queue 队列的 put 方法用于向 Queue 队列中放置元素,由于 Queue 是先进先出队列,所以先被 Put 的 URL 也就会被先 get 出来。 print("get detail url {id} end".format(id=i))#打印出得到了哪些文章的 url #主函数 if __name__ == "__main__": detail_url_queue = Queue(maxsize=1000) #用 Queue 构造一个大小为 1000 的线程安全的先进先出队列 # 先创造四个线程 thread = threading.Thread(target=get_detail_url, args=(detail_url_queue,)) #A 线程负责抓取列表 url html_thread= [] for i in range(3): thread2 = threading.Thread(target=get_detail_html, args=(detail_url_queue,i)) html_thread.append(thread2)#B C D 线程抓取文章详情 start_time = time.time() # 启动四个线程 thread.start() for i in range(3): html_thread[i].start() # 等待所有线程结束,thread.join()函数代表子线程完成之前,其父进程一直处于阻塞状态。 thread.join() for i in range(3): html_thread[i].join() print("last time: {} s".format(time.time()-start_time)) #等 ABCD 四个线程都结束后,在主进程中计算总爬取时间。
看完了这篇文章,相信你对python爬虫能够开多少线程有了一定的了解,想了解更多相关知识,欢迎关注创新互联行业资讯频道,感谢各位的阅读!
分享题目:python爬虫能够开多少线程
URL分享:http://scpingwu.com/article/iiejcg.html