统计上有什么方法可以推断因果关系？

介绍几种比较简单的因果推断的方法。

原文传送门

Yao L, Chu Z, Li S, et al. A survey on causal inference[J]. arXiv preprint arXiv:2002.02770, 2020.

特色

一篇比较新的综述，但是感觉写的不是特别清楚，这里只讲里面涉及到的一些因果推断方法。

内容

一、Potential Outcome Framework

1.1 概念定义

这篇文章主要基于这个框架来做因果推断，另外一个常用的框架是 structural causal model (SCM)。先把这个框架下的一些定义贴过来，然后来举例解释。

下面以一个医疗的例子来说明：

Unit：每个病人都可以看做是一个 unit，假设他们之间没有相互关联。
Treatment：假设我们研究不同治疗方法对于糖尿病的影响，假设有两种可能的治疗方案——方案 A 和方案 B，那么 A 和 B 就是相应的 treatment。
Potential Outcome：比如这里可能的结果有两种——“治愈” 和 “未治愈”。
Observed Outcome：对于某个病人采取了某种治疗手段（比如方案 A）后实际观察到的结果。我们能观察到的结果被记做 $Y^{F}$
Y^F 。
Counterfactual Outcome：假设对该病人采取一种本没有采取的治疗手段（比如方案 B ）后产生的结果。对于某个病人采取了某种治疗手段（比如方案 A）后其实就无法观察到另一种治疗手段（比如方案 B）对应的结果了，因此对于反事实结果（counterfactual outcome）的估计是比较难的。反事实的结果是无法被直接观察到的，记做 $Y^{C F}$
Y^{CF} 。
Pre-treatment variable：不受相应治疗方案影响的变量，比如病人的年龄、性别等。
Post-treatment variable：受相应治疗方案影响的变量，比如接受某种治疗手段后面测试病人的血压。

1.2 Treatment Effect

该框架下最关键的希望测量 treatment effect，即采取了把某种 treatment 替换为另一种后对于结果产生的变化。因此目标就是根据可观察的数据 ${X_{i}, W_{i}, Y_{i}^{F}}_{i = 1}^{N}$

{Xi,Wi,YiF}i=1N{ X_i, W_i, Y_i^F }_{i=1}^N 来估计 treatment effect，其中 N 为数据总量，X 为 background variable（描述个体的一些特征），它可能包括 pre-treatment variable（比如病人的年龄、性别）也可能包括一些 post-treatment variable（比如一些医学测试）， W 表示相应采取的 treatment，Y 为观察到的结果。Treatment Effect 可以在 population、treated group、subgroup 和 individual 等不同的层次上进行定义：

在 population 层次上，可以定义 Average Treatment Effect（ATE）。其中 W 表示不同的 treatment，这里暂时只考虑两种 treatment，分别用 0 和 1 表示；Y 表示相应的结果。这里对于可能遇到的每个 unit 来取期望，相应的困难是如果对于某个 unit 采取了 W=0，那么就很难估计到 Y(W=1)，即进行反事实估计。

在 treated group 层次上，可以定义 Average Treatment effect on Treated group （ATT）。类似地，前一项是比较好估计的，但是后一项的估计仍然需要反事实估计。

在 subgroup 层次上，可以定义 Conditional Average Treatment Effect (CATE）。其中 X 表示个体的特征。这个指标衡量了不同分组下的 treatment effect，即 heterogeneous treatment effect。

在 individual 层次上，可以定义 Individual Treatment Effect（ITE），对于第 i 个个体，它可以被写为：

1.3 假设

不同层次的 treatment effect 的估计都依赖于反事实估计，而反事实的估计一般只能用代价很高的随机实验来完成。因此，从可观测的数据中来估计 treatment effect 必须依赖以下一些假设。

假设一：Stable Unit Treatment Value Assumption (SUTVA). The potential outcomes for any unit do not vary with the treatment assigned to other units, and, for each unit, there are no different forms or versions of each treatment level, which lead to different potential outcomes.

看起来这个假设还是比较好满足的。翻译一下：首先，不同个体间不相互影响，比如给患者 1 施加了某种治疗方案不会影响到患者 2 的病情；其次，每个个体施加的相同 treatment 得实际上一样，比如不能说给患者 1 采取方案 A 治疗时是用了 10ml 某药物，但是给患者 2 采取方案 A 治疗时却用了 100ml 某药物。

假设二：Ignorability. Given the background variable, X, treatment assignment W is independent to the potential outcomes, i.e., W ⊥ Y(W = 0),Y(W = 1)|X.

这个有点不好理解，我解释一下。我一开始想成了 W ⊥ Y | X 就会觉得很奇怪，Y 肯定是和 W 相关的嘛。所以应该区分一下 Y 和 Y(W = 0),Y(W = 1)。我们可以把上面的条件独立性写成两种不同的形式：第一种形式是

即，不管选择什么 W，其对应的 observable outcome 和 counterfactual outcome （虽然我们没观察到）都不会变。比如，如果选了 W=1，但是也不会影响到潜在的 Y(W=0) 的分布。另一种形式是

即，不管可能的结果是啥，我们给相应的样本分配 treatment 的概率都不会变。因此这个假设又被称作 unconfoundedness assumption，即除了 X 之外不存在其他 confounders。注意，容易看出，如果存在某个 confounder Z→X 且 Z→Y 那么上式不成立。

假设三：Positivity. For any value of X, treatment assignment is not deterministic:

这一点也比较好理解，对于某类样本 X=x，如果有些 treatment 都没见过，那么就没法获取相应 treatment 在这类样本的知识，也就没法做 treatment effect 的估计。

假设二和假设三可以并合并，称作 strong ignorability。

1.4 假设下的 treatment effect

有了上述假设，我们就可以把前面定义的 treatment effect 的定义进行一次化简。主要的根据是

当我们考虑对不同个体取期望的时候，如果 X=x 的某个个体没有采取 W=w 的 treatment，那么我们是无法得到相应的 Y(W=w) 的。但是根据我们的假设，我们可以只在 X=x 并且 W=w 的样本上来计算这个数值。根据这个定义，我们可以把前面定义的 treatment effect 进行如下的化简：

以第一个个体层次的 ITE 为例，如果该个体接受的 treatment 为 W=1，那么 $ITE=YF$

统计上有什么方法可以推断因果关系？

原文传送门

特色

内容

一、Potential Outcome Framework

相关推荐