20180227抓取技术讲解

1.怎么解决被封的问题:用nginx做正向代理

在网上获取免费ip资源;

量大的时候隔一段时间换一批ip;

把ip资源写入共享内存,nginx获取共享内存中的ip list

2.怎么解决交互式网页:

用ODP/Selenium做网页抽取(需要自己写python)

用PA平台

3.分布式抓取:

用一致性哈希选下游抓取程序

4.其他:

ES存种子

zk做选链

comments powered by Disqus