月份:2018年3月

使用hadoop进行数据集求交

背景 之前业务里面遇到一个问题,就是有两批url,都是亿级的,里面有一些相同的url,我们需要找出这些相同的u…


Hadoop Streaming

背景 业务里面由于涉及到的数据量比较大,所以很多任务不可避免的必须要用分布式集群来处理,由于工程方面都是用的C…