1

IID(如使用基准数据集的图像识别),要么被人工处理为 IID,如为给定的应用问题精心收集合适的训练数据集,或者使用类似 DeepMind「经验回放」(experience replay)的方法,即强化学习智能体存储观测结果稍后再打乱以便后续训练。
互信息:二者对我的影响是同等程度的
例如使拥有笔记本电脑的顾客想要购买电脑包。推荐待购买物品构成了对系统的干预,超出了 IID 设置。我们不再处理观测数据分布,而是某些变量或机制已经发生改变了的分布。这就属于因果关系的范畴了。
因为这类问题中存在因果结构暗含的非平凡条件独立性(nontrivial conditional independence)属性。这类属性可以通过因果图或结构因果模型来描述,它们集成了概率图模型和干预(intervention)概念,最好使用直接的函数式父子(parent-child)关系来描述,而不是使用条件句(conditional)。

任何一本初级统计学课本都会提到,基于观测的统计模型无法可靠地识别
介入主义(interventionism)因果观:
所有的系统U,接入方式T,状态函数Y,y=Yt(u).要有一个不介入的接入方式c,很难找到不受干预的自然状态,因此需要一个默认的不介入方式c。当Yt(u)!=Yc(u)。问题就是t与c的区别是什么
虚拟事实模型Rubin causal model(RCM).
果是E[g(u)]=E[Yt(u)]-E[Yc(u)]
需要几个假设:个体处理效应稳定等等
缺点是一个改变一个变量,指数级。因果之间的黑箱
贝叶斯网络。有了pa(x)增加了变量之间条件独立的先验信息,加快。注意这里是parameter learning 不是structure learning(chow-liu算法)
是否独立:d分割
优点:即使有大量缺失,未知变量值,也能用边缘化操作,进行概率推断。但无法却别方向。
SEM:
image.png
马尔可夫性质,当且仅当这个SCM不包含任何的有向环,且所有外生变量均相互独立

image.png
介入后:
image.png
当满足一些其他比如后门准入时,还可以进一步简化计算
过程性因果:因果环路图CLD

以上来自:https://zhuanlan.zhihu.com/p/...

从simpson's paradox说起:一个治疗对男性统计负相关,对女性统计负相关,对整体人群正相关。即X,Y在边缘上正相关,在给定Z的每一个水平上都负相关。所以导致,在不能做随机试验的情况下,观察数据即使是正相关,也无法断言是否存在一些未观测的因素,影响二者使得机制没有A也会得到B,
下一篇证明了RCM可以通过随机试验可以作为预测平均因果作用,虽然一个个体无法进行单独的两个试验,即个体的因果作用是不可识别的。

image.png

假设只有在给定协变量X后,处理的分配机制才是完全随机化的,比如男女性别努力中必须要提前接受处理的比例不同。当满足可忽略性时,ACE是可识别的
image.png
以上应用于simpson's paradox在给不给X这个性别时结果是不一样的。

因果图:

image.png
image.png
image.png
image.png
困难:很难得到DAG

工具变量
线性模型估计因果作用,最小二乘解是矩估计
image.png

image.png
条件是
image.png
但很多时候第二个是不成立的,因此是完全的随机化试验,但是可以假设是鼓励性实验。Z->D

image.png
image.png
详细的计算过程:https://cosx.org/2013/08/caus...

https://cosx.org/2013/09/caus...
这里说了一个没有采用潜在分析(没有意识到对照组,没有对对照组做假设等导致的悖论)。预测同学在食堂进食是否会导致体重增加,记录初始体重和结果体重。第一个科学家起始上是假定不去食堂体重不变。第二个是假设的不去也一样会影响体重。

confield条件/不等式
若存在HIDDEN common cause U.
image.png
image.png


梦想家
107 声望76 粉丝