java 如何用python爬取网页中隐藏的div内容?
浏览量:2182
时间:2021-04-02 13:26:08
作者:admin
如何用python爬取网页中隐藏的div内容?
这是在JS中实现的。实际上,静态爬虫在网络爬虫后面。至于解决方案,互联网上有几种方法:一种是使用自动化测试工具,如selenium,它可以模拟点击和其他操作,但这实际上与爬虫程序有很大不同。
第二种方法是使用特定的类库在后端调用JS。Python有,但我不懂Java。
第三是找到相关页面的JS代码,分析相关请求URL,直接调整新URL,但是一般JS是加密压缩的,但是可以试试。
java和python在爬虫方面的优势和劣势是什么?
Python
强大的网络功能,模拟登陆,解析JavaScript,缺点是网页解析Python编写程序非常方便,著名的Python爬虫有scratch等
Java
Java有很多解析器,对网页的解析支持非常好,缺点是网络上有很多Java开源爬虫,比如nutch,中国有优秀的webmagicjava解析器,比如Htmlparser和jsoup,可以满足Java和python的通用需求。如果需要模拟登陆和反采集,选择python更方便。如果需要处理复杂的网页,解析网页内容生成结构化数据或精细解析网页内容,可以选择Java。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。