51data 发表于 2021-1-7 10:55:00

R语言rvest包read_html函数读取网页时卡住

在用R语言rvest包read_html函数读取网页时卡住,很久都没反应。
原因:网页内容太多
解决办法:先通过RSelenium包调用浏览器打开网页,再读取其中的部分内容。
详细操作方法见:http://idata8.com/portal.php?mod=view&aid=49

在这个解决方法之前,尝试过设置read_html()函数的参数n来扩大单次读取数据上限,但效果不理想。
也尝试过通过withTimeout函数设置允许的最长运行时间,如果花费的时间太长则中断,但数据量太大导致中断后回滚也很耗时。
最后发现先用浏览器渲染,再读取部分内容能够很好的解决这个问题。


页: [1]
查看完整版本: R语言rvest包read_html函数读取网页时卡住