0x00 背景

今天下午看新闻时,无意看到一条关于facebook虚假帐号(fake account)消息:

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

一下子就被这标题吸引了眼球,因为作为一个第三方机构,能够对facebook这样如此海量的帐号中的fake account进行测量,并得出这样一个比较具体的结果。非常非常好奇是怎么做到的,数据都是怎么来的。于是,在CCN原文中找到了这份75页的研究报告,地址:https://www.plainsite.org/realitycheck/fb.pdf

0x01 探索

等待下载报告的时候,脑海中已经很兴奋,想着到底会是什么渠道获取到的数据,会是爬虫吗?如果是爬虫,会是怎么样牛逼的爬虫,判断虚假帐号的模型是怎么样的?

报告下载完成后,看到这样75页的长度报告还是很畏惧的:

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

虽然每天都阅读不少的英文,不过大多都是推文和简短的新闻,最多十分钟就可以看完一篇。这种论文风格的文章看起来还是比较费劲的。

坚持看完前几页后,隐约觉得事情有一点不对,怎么是在说作者自己的创业史以及扎克伯格的facebook创业史??

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

此时有点看不下去了,便看了看报告的目录,以及在文章中寻找50%或者fifth(y)的字眼,然后找到了关键段落了。此时报告已经来到了54页了!

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

0x02 结论

对此时的上下文进行了阅读后,我发现了这作者简直是个逻辑鬼才!!!其得出facebook 20亿月活用户中有一半是假的的结论,有一个很关键的点:

facebook中存在多个同名并且头像和简介相同的帐号,所以存在的虚假账号比facebook官方公布的多。其举的一个例子是" jack nicas"这个名字,给出了下图:

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

可是我去搜索这个人,得出的结果是这样的:
Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

难道我们不是用的同一个facebook???

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

当然facebook中的确存在这样的帐号,比如搜索"Jack Mark",会出来一堆同姓名的人:

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

但是他们的头像和信息并不相同啊!!!

依靠这个观点,作者神逻辑来了!

Facebook月活用户和处理掉的虚假帐号数量是公开的,下图是facebook每个季度处理的虚假账号数量,其中2017 Q4是694m(m指的是百万),2018 Q1是583m。

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

所以从2017 Q4到2018 Q3,facebook处理掉的虚假账号数量为694m+583m+800m+754m=2.841 bilion。

Facebook在2018 Q3的月活用户为2.271 bilion。

然后神奇的算法出来了!!!

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

2.841 / (2.841+2.271) = 55%

得到这个55%后,作者手动减了5%作为误差,然后就是标题中50%了。

Facebook 50%用户是虚假账号?我觉得可以更高!-LMLPHP

Facebook中的确存在还没有处理掉的虚假用户,但是你这个算法也真是太牛逼了!!!你为什么不把facebook之前处理的虚假用户都给算上???这样完全得出一个更高的比列,60%?70%?或者直接99%吧??

0x03 后记

最近看了不少这样的标题党,不光是这样的报告,还有一些华而不实的工具,就是介绍和命令行看起来很炫酷的那种!

吐槽归吐槽,但是老外这包装能力真是让人跪了,熟话说,"打不过就加入",教练我想学这个!!!

by:会飞的猫

转载请注明:http://www.cnblogs.com/flycat-2016

05-06 01:46