云锦书屋 > 综合其他 > 我的1999 > 第797章 敲打

第797章 敲打(3 / 4)

ass=contentadv因为,统计是有随机性的,也是有误差的。

仅仅上千人的数据得不到这样准确的结论。

统计除了要求数据量必须充分之外,还要求采样的数据必须有代表性。

有些时候不是数据量足够大,同阶级过就一定准确。

一个很简单的例子,一个爱情影片和一个战争影片,它的受众并不相同。

所以如果我们只采集爱情影片上映当月的观影人群,就不具有普遍的代表性。

那么怎么避免这种情况,获得准确的结论呢?

19世纪的俄国数学家切比雪夫对这个问题给出了他的结论,即切比雪夫不等式。

p(|x-e(x)|≥e)≤var(x)/e^2。

这个公式的含义是,当样本数足够多时,一个随机变量和他的数学期望值之间的误差,可以任意小。

把切比雪夫不等式应用到我们了解电影院观众年龄分布的问题中。

随机变量就是:观察到的各个年龄段观众的比例。

数学期望值就是:真实情况下所有看电影观众中不同年龄段的比例。

当我们把样本数据带入后,大致可以得出以下结论。

15岁以下观众占20%,16~25岁占27%,26~40岁占24%,40岁以上占29%,误差小于5%。

但如果我们要将四个年龄段观众的准确率,提高到小数点后一位数,那么我们大致需要10倍的数据,即两万个左右的样本。

如果我们把这个问题放大。

我们想知道一部电影在全世界的观影人群年龄分布,而且必须具体到更细致的年龄段人数。

比如18~20岁,21~24岁等等。

又或者更具体的地域。

华夏、东瀛、南韩等等。

在一个更大,更详细的范围内,为了获得更准确的结果,我们需要的数据量,将千百倍的提升。

当我们获得了超级数据。

普通的计算机已经很难完成计算。

而且就算能完成,也需要大量的时间。

时间就是金钱,在商业上,这显然是不可接受的。

因此。

为了尽可能在短时间内得到结果,我们要一台或几台超级计算机来计算。

但动用超级计算机的费用非常昂贵。

想要了解电影院观众年龄的企业,显然不愿意在这个问题上花费这么大的代价。

那么怎么办呢?”

徐良操作了一下电脑。

最新小说: 队魂 江南裁缝日志 假面骑士之前辈聊天群 心怀不轨 这个战锤游戏可太棒了!! 疯批病娇男主?拿来吧你! 不入爱河 柯南:工藤新一家的养子 无限穿越:我认识的女神有点多 快穿之复活路漫漫