51data 发表于 2020-9-9 16:01:17

R语言 RSelenium+Chrome爬取网页太慢

利用R语言的RSelenium+rvest+chrome爬取网页时,因为是真的用浏览器打开网页,所以爬取速度受网页加载速度营销比较大。
加载速度慢的原因:网速慢或者目标网站图片过多。
解决方案:
如果不需要网页图片,可以设置禁止加载图片,以提高网页加载速度。
Python+Selenium通过代码设置禁止加载图片,而Rselenium+Chrome需要通过浏览器设置禁止加载图片。
具体方法:
1.打开Chrome浏览器的设置

2.选择网站设置

3.选择图片选项

4.添加需要禁止显示图片的网站

设置完成,重新打开目标网站时发现图片已被全部屏蔽,提升了网页加载速度。
第4步也可以将“显示全部”按钮关闭,但一般不建议这么做,不然打开其他网站也看不到图片了。
页: [1]
查看完整版本: R语言 RSelenium+Chrome爬取网页太慢