讨论一个10K机器web crawler的问题

avatar 177366
The8023
3089
4
webcrawler这个系统设计到处都有,比如这个就讲的很好medium.com

不过具体设计到机器分配上,又是个难题。
请问如果具体到给10K 机器, 1b URL, 每个URL 100KB。 (1b * 100Kb = 一共是100TB的data). 要求不能重复爬,和尽量利用所有机器资源。

该如何分配资源呢? 多少做worker node, 多少做DB, 多少做service, 多少做storage.
因为算的时候不知道考虑到底哪里是Bottlenect, 有点迷茫。有没有大神指导一下分配机器应该从什么角度出发。
  • 5
4条回复