求解如何在TB级别数据中找到top 100高频词 加米!

avatar 257265
caitlin
1105
3
已经两次在面试中遇到了,感觉这也是实际工业界常碰到的问题?
感觉自己每次都没答好, 用minHeap,对于稀有单词直接清除啥的,还有MapReduce应该也可?
求地里大牛们指教!真心想知道该怎么做!

  • 1
3条回复