统计决策方法经常在文章里面看到,什么p-value, significance, confidence level. 虽说这些当年也学过,但是只是为了应付考试,也没有好好学,没有思考问题,内容算是已经全部忘记了。杜克大学的统计决策的课程好像不是非常偏向数学,但刚好适合我把那些概念补起来。这一系列博文将对课程内容进行总结。

统计决策中的数据与实验

统计决策与统计学习密切相关,最根本的内容还是数据的产生(来源)以及实验设计是否科学。这个让我想起了心理学的实验好像就是以统计决策为基础的。

研究类型

这个问题以前也没有仔细想过,只是考虑直接把数据拿过来用。但研究类型可以分为两种:

  • observational
  • experimental

第一种称为观察型的研究,数据的来源就是给大家发一些调查问卷,根据调查问卷收集的信息手机相关数据,一个比较严格的词来表述这种研究方法叫做"random sampling". 我们现在那些数据分析领域的数据很多都是随机采样得到的。

实验方式的研究则是通过人工地控制一些条件,来获取数据。比如说,现在想要研究运动对身体健康的影响,实验方法就是选取一些健康程度差不多的人,随机制定其是否运动,过一段时间后收集其健康数据。好像心理学里面经常做这种实验,比如“从众心理”的实验。

这两种研究方法带来的研究结果也是不一样的。观察型的研究最后得到的结论只能是两个变量直接是否相关,因为有很多其它因素是没办法控制的。但是实验型的研究则不一样,实验中可以严格控制其它条件,所以可能得到因果关系的结论。

数据采样

采样方法

因为总体的数据量很大,我们没有办法获得(或者)处理所有的数据,所以只有进行采样。当然,信号处理里面也有采样的概念,对连续信号进行采样,使用的方法是周期采样,因为信号与时间密切相关。这里,一般地采样可以分为三种:

  • 简单随机采样
  • 分层采样
  • 聚类采样

简单随机采样很简单,就是从箱子里面摸小球,至于放不放回看情况(一般考虑不重复的话都不放回)。分层采样就是说先将对象按照一定的属性分个层次,然后在每个层次里面进行采样。一个简单的例子就是根据年龄将研究对象分成青年,中年和老年,然后再这几个不同层次的人群中进行抽样。聚类采样则有点区别,我想可能是先将总体数据进行聚类,将比较相似的数据聚成一类,然后形成几个簇。由于可以想象这些簇的情况可能比较接近,所以可以只在一部分促里面进行采样。

下面是聚类采样的图示(来自课程):

cluster sampling

采样偏差(bias)

由于人类的局限性,采样偏差经常发生。这里,课上将其分为三类:

  • convenience sample
  • non-response sample
  • voluntary response

第一种情形大家讨论地最多,意思就是说我们只采样那些容易获取信息的人,而忽略了其它人。本课程,以及机器学习基石课程里面都举过美国总统大选的例子,但好像不是同一个总体。故事是说,在总统大选之前,媒体进行民调想要预测哪个总统会获选,于是他们就打电话随机调查美国民众的意向,结果显示A候选人的民望更高,好像还高不少。但是,最后总统却是B。为什么会发生这种情况呢?原来,媒体陷入了convenience sample的误区。在那个年代,电话还是非常稀有的。虽然媒体进行了随机采样,但(为了方便)针对的人群只是那些富有的有电话的人群,忽略了广大的普通群众。

第二种和第三种是相对的情形,一个是说采样数据中有很多人没有回答,那么这个样本就不能代表整个人群。第三种则是由很多有特定倾向的人在采样数据中,这样也会导致采样偏差。

实验设计的原则

1.control: 严格区分控制实验组与控制组

2.randomize: 随机分配实验对象(实验组,对照组, 安慰剂组等)

3.replicate: 大量的重复实验(采样)才能避免实验的随机性

4.block: 控制好变量,避免未知因素对实验的影响