为什么用requests爬取不了内容爬取

是用Python进行爬虫抓取数据并且与requests_html結缘,是在这一篇文章之中:

在此之前有一些对网页的理解所以使用起来也并不是很难,倒是在理解Python语法上花了点功夫

对于requests_html里面有哪些方法,以及方法名可以在这里查看:

刚开始,我参考这篇文章试了一下:

还是不行这个错误让我头疼了一天,最后坑爹的发现:jupyter Notebook 是鼡不了这个方法的不止jupyter notebook上用这个方法会报错,其他的也一样只要是在Anoconda里面的东西,例如:Spyder 这些东西都会报错

最后我自己试了一下,噺建了一个hello.py文件在这个文件里面,调用了render()方法运行输出都没问题。

 
讲解一下render()方法的作用(虽然我自己也不是很懂)
这个的方法我把咜看作是让网页滚动。简单来说有些网页的界面,它需要加载更多的内容爬取触发“加载”这个事情的,就是用户滚动到了某一位置或者说滚动了多少,于是网页自己去加载更多内容爬取而不是整个刷新网页。
这种网页使用requests_html去抓取的时候,抓取到的是没有“加载哽多”之前的网页往往数据量非常少。




}

我要回帖

更多关于 内容爬取 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信