爬虫python入门 如何优化Python爬虫的速度?
如何优化Python爬虫的速度?
您可以评估爬虫是Io密集型还是CPU密集型。
IO密集型:程序将大部分时间用于等待IO,如网络IO,即HTTP请求、磁盘IO,即文件读写等
CPU密集型:程序将大部分时间用于CPU计算,如文本处理、数值计算等
如果是IO密集型,然后您可以通过线程池或协程池来使用函数的这一部分来实现并发,从而提高了速度。
但是,这里的网络IO有一个前提。你的带宽不是你的爬虫的瓶颈。
如果这是CPU密集型的,那么这部分工作可以通过进程池(多进程)并行处理,从而提高速度。多处理意味着你的机器是多核的。
不过,还是有一些地方值得优化,比如一些库的选择,比如靓汤。虽然它非常方便,但是有更快的实现方法,比如selectolax,它要快得多。
如果你不能判断,先多线程,然后多进程。
如果单台机器无法解决,请使用工作队列,例如cell。多机并行,当然可以提高速度,而且是横向扩展,当然这也要让你的任务可以分布。
Python爬虫好学吗?
关于Python爬虫,有很多第三方库,比如scratch等,我们写了一系列关于爬虫的文章,可以参考学习https://m.toutiaocdn.com/i6612149341303865859/?app=newsuarticle&timestamp=1599008220&useuunewustyle=1&reqid=202009020857002103422021488be6&groupid=6612149341303865859&ttfrom=copylink&utmsource=copylink&utmmedium=toutiaoios&utmcampaign=client在许多情况下,性能不是瓶颈。大约80%的应用程序不需要高性能。
爬虫python入门 python爬虫接单网 python爬虫教程
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。