我正在创建一个类似twitter的应用程序。
我陷入了困境。
我把所有的推文都储存在用户档案里。
现在,我必须创建一个算法,以便在性能方面更好地计算所有用户中整个应用程序中最流行的单词。
当我的外行走近:
点击完整的数据库
搜索重复出现的单词
为有重复出现的单词创建记录
记录1000个最经常出现的单词
但在一个大的应用程序中,这对我来说似乎很沉重
有人能推荐一些更好的方法吗?

最佳答案

您可能只想从最后一个小时或一天左右检索文章,而不是从整个数据库中检索
你应该过滤掉一些非常常见的词,比如100 most common English words-你不想让“the”成为一个流行词
同样的,我建议你每一篇文章只计算一个单词,所以一篇带有“booger booger booger”的文章和一篇带有“booger”的文章都被认为只有一个单词的实例
如果你不需要知道确切的字数,那么你可以扫描最近文章的随机样本,例如10%
如果你能使用分而治之的方法,那么这将有助于加快速度

09-25 18:30