20180227抓取技术讲解
1.怎么解决被封的问题:用nginx做正向代理
在网上获取免费ip资源;
量大的时候隔一段时间换一批ip;
把ip资源写入共享内存,nginx获取共享内存中的ip list
2.怎么解决交互式网页:
用ODP/Selenium做网页抽取(需要自己写python)
用PA平台
3.分布式抓取:
用一致性哈希选下游抓取程序
4.其他:
ES存种子
zk做选链
1.怎么解决被封的问题:用nginx做正向代理
在网上获取免费ip资源;
量大的时候隔一段时间换一批ip;
把ip资源写入共享内存,nginx获取共享内存中的ip list
2.怎么解决交互式网页:
用ODP/Selenium做网页抽取(需要自己写python)
用PA平台
3.分布式抓取:
用一致性哈希选下游抓取程序
4.其他:
ES存种子
zk做选链