求职（非面经）

海外求职

讨论一个10K机器web crawler的问题

webcrawler这个系统设计到处都有，比如这个就讲的很好

不过具体设计到机器分配上，又是个难题。
请问如果具体到给10K 机器, 1b URL, 每个URL 100KB。 (1b * 100Kb = 一共是100TB的data). 要求不能重复爬，和尽量利用所有机器资源。

该如何分