贝叶斯新归纳之谜(贝叶斯归纳模型)
贝叶斯新归纳之谜。本发明涉及一种电子设备,包括。更具体地,本发明涉及一种用于控制多媒体播放器的方法,该多媒体播放器具有一个显示器,该显示器置为接收来自用户的输入,并根据输入生成一个或多个控制信号。在一个实施例中,控制信号包括至少一个指令,该指令用于调节多媒体设备中的显示器的操作。在另一个实施例中,控制信号包括至少一个指令,该指令用于调节多媒体设备中的显示器的操作。
虽然人类天生就有探究事物原因的好奇心,但事物因果关系的确认决非易事。周知,牛顿力学第二定律f = ma具有对称性(物理定律都具有对称性),利用简单代数变换就知道,该定律亦可表为f /m = a,或f /a = m;物理学家都认为加速度是由力的变化引起的而非相反,f /a 的作用是用来确定m而非f /a是m的原因;遗憾的是,这种区别在牛顿力学第二定律中并不能得到明示。不过,这丝毫未能阻挡物理学家灵活运用物理定律去进行发明创造。如果一味专注于厘清何者为因、何者为果,物理学恐怕很难取得迄今为止它引以为荣的那些巨大成就。
可是,在医学、流行病学、经济学及其他社会科学领域,情况有所不同,由于显见的理由,研究人员对因果关系特别感兴趣;而当代统计学研究中的一个基本要求就是厘清变量之间的因果关系。所以统计学自然就成了这些领域研究人员热切希望能从中得到帮助的学科,因为“一切判断,究其原理,都非统计学莫属”(“All judgments are, in theirrational, statistics”, see Statistics and Truth by C. R. Rao, 2nd Edition, 1999,World Scientific Publishing Co. Pte. Ltd.)。
本文旨在介绍自列联表发明以来统计推断研究所取得的若干成果,特别是美籍犹太裔科学家珀尔(Judea Pearl)提出的“有向无环图”(Directed Acyclic Graph,DAG)并作简要评价,以期引起读者对当代统计推断的关注,了解“有向无环图”对于从相关分析迈向因果分析很有帮助。
一、 列联表的发明及其重要作用
现代统计学奠基人之一、英国统计学大师皮尔逊(Karl Pearson, 1857-1936)…,发明列联表的故事简述…关键之点是列联表之发明建立在“相关”概念上。
在统计学中,“相关”概念的重要性众所周知,,,…
不过,皮尔逊的思想有些僵化(对大师的评介需慎重),他对因果推断坚决反对…在其1911年出版的《科学的语法》第三版第13章“列联与相关——不完全之因果关系”中写到“当代科学迷恋的一个不可思议的神秘物即为因果关系”,而他为破解这个神秘物所提出的办法就是列联表(contingency tables)。在他看来“列联表之所以被赋予这种称谓,盖因对两种事物彼此间关系的终极科学描述,毫无例外地均可通过列联表实现…,读者一旦读懂此表,他就掌握了因果概念的精髓。”他认为超越事物之间的相关关系而单独提出因果关系纯属多余。
皮尔逊在其后续的一系列论著中不再使用任何关于“因果关系”的表述,态度坚定,毫不含糊。事实上,回避“因果关系”也是他那个时代(甚至当代)不少统计学论著的一个特点。
二、随机实验设计三原则
因果推断研究历史简要回顾
虽然西方哲学史可将因果关系研究上溯至亚里士多德时代,但由于休谟①是自亚里士多德以来对因果关系理论第一个做详细论证的哲学家,本文讨论因果推断就从休谟开始。
“休谟问题”主要是指因果问题和归纳问题。在休谟看来,因果机制是是人类感官永远不能发现的,人类不可能超出感性知觉去解决知觉的来源问题…这段应加强。
这难免使人若有所失。不过,他能在牛顿力学鼎盛时代对人类的认识能力提出怀疑,应该说还是很有启发意义的。
解决休谟所提“因果问题”的方案无外乎有两种(1)将其下放为纯粹经验概念,(2)将其上升为纯粹理论概念②。现代统计学奠基人之一、英国统计学大师皮尔逊,就是根据(1)而提出用相关分析代替因果概念的在其1911年出版的《科学的语法》第三版第13章“列联与相关——不完全之因果关系”中,皮尔逊写到“当代科学迷恋的一个不可思议的神秘物即为因果关系”,而他为破解这个神秘物所提出的办法就是列联表(contingency tables)。在他看来“列联表之所以被赋予这种称谓,盖因对两种事物彼此间关系的终极科学描述,毫无例外地均可通过列联表实现…,读者一旦读懂此表,他就掌握了因果概念的精髓。”他认为超越事物之间的相关关系而单独提出因果关系纯属多余。
皮尔逊在其后续的一系列论著中不再使用任何关于“因果关系”的表述,态度坚定,毫不含糊。事实上,回避“因果关系”也是他那个时代(甚至当代)不少统计学论著的一个特点。
历史在等待突破。
1935年,另一位英国统计学大师费舍(Ronald Aylmer Fisher, 1890-1962)在其著作《实验设计》中提出随机实验设计三原则,即“即重复、随机化和分区组”;这些原则经受住了实践的检验,是科学界公认的根据实验数据进行因果推断的可靠方法,也是目前唯一被主流统计学承认的因果概念①。
,皮尔逊的影响依然十分强大而持久。据珀尔的统计②,在由Samuel Kotz等人主编、初版于1997年的多卷本“统计学百科全书”中,论述“相关”专题的文字已达12页之多,其中还有1页专门阐述“相关并不蕴含因果”(“Correlation dose not implycausation”);而论及“因果”专题的文字则少的可怜,只有区区2页。
在珀尔(Judea Pearl)看来,这种局面并非仅由皮尔逊一人造成,还有更深层的原因,那就是比起相关分析来,因果分析要困难得多…
列联表之发明建立在“相关”概念上,有向无环图之发明则建立在“因果”概念上(图之极端重要性的简要论述,依Judea Pearl,图乃世界第八大奇迹,关键之点在于图可以在circumscription条件下确定因果,而代数、逻辑运算乃至概率计算都做不到这一点,Pearl的电子工程学背景,esp.工程图,帮了他大忙。这件事相当有启发,即多学科边缘研究对创新善莫大焉!中国学者这方面佼佼者不多,急需改变)。而在经典概率论中,根本就不存在“原因”(cause)这一概念。这一惊人发现是珀尔(Judea Pearl)于1990年?做出的。显然,杰弗里的概率观?(更确切些是贝叶斯统计学)深刻影响了珀尔。
周知,英国统计学大师皮尔逊依据“相关”概念于19世纪末发明列联表,为统计方法宝库添加了一件利器。但经典统计学中的相关分析不能代替严格科学意义上的因果分析,考虑到这一点,另一位英国统计学大师费舍于1935年发表专著《实验设计》,在书中提出“重复、随机化和分区组”的随机实验设计三原则,影响深远。这些原则经受住了实践的检验,是科学界公认的根据实验数据进行因果推断的可靠方法,也是目前唯一被主流统计学承认的因果概念。
…
幸运的是,因果概念并没有被现代科学所摒弃。因为科学知识不仅来源于经验感官,还需要理论抽象。“科学研究的终极目标是理论解释,对现象的描述和分类是前科学阶段。所谓科学理论,是关于超脱具体现象的一般性概念和命题系统,不仅能够说明是什么,还能够说明为什么③”。自然科学如此,社会科学同样如此,只不过社会科学的因果分析比自然科学的因果分析更为微妙复杂罢了。
即使在经济研究乃至日常生活中,因果概念也不可缺少。如计量经济学家构建单方程及联立计量经济学方程对有关经济变量进行单向影响(单向因果)、双向影响(互为因果)分析;对时间序列进行“格兰杰因果关系检验”;医生诊治病人需对症下药;法官定罪量刑需不枉不纵,等等,这些都离不开因果关系分析。
我们不否认卡尔·皮尔逊对统计学特别是统计推断做出的划时代贡献(列联表及卡方统计量的提出即开统计推断研究之先河),但如果完全依了他的观点,在统计学中根本就没有“因果推断”生根、成长的空间,经济学及其他社会科学诸多领域研究人员对统计学所报有的热切希望,恐怕都会落空。
突破来自朱迪·珀尔(Judea Pearl),他于1995年发表在Biometrika上的论文Causaldiagrams for empirical research(ithdiscussion)…,事实上,他已多年潜心研究该课题。
类比功莫大焉。,Judea Pearl具有电子工程专业背景,比照逻辑电路图中输入的改变将引起输出的相应改变、以及电子工程技术人员更关心控制输入以获得理想的输出这一事实,他联想到在大多数的科学研究中,科学家总是要将其感兴趣的现象人为地“划分”出(carve)被研究对象和研究背景(或称边界条件),亦即通过人为干预制造出某种非对称性(asymmetry)而对“原因的结果”进行讨论;,Judea Pearl也是电子计算机专家,比照代数运算规则,他提出了do(·)算子运算规则,开创了对试验数据进行“干预”的运算方法,据以进行因果关系演算。
了解朱迪·珀尔的这两个类比,对读懂他的专著、理解他的GAG G,具有根本的重要性。
古老的贝叶斯定理与人工智能图表示法的结合依杰弗里的观点,贝叶斯定理“后验概率∝先验概率×似然”对于概率论的意义,一如毕达哥拉斯定理之于几何学,这实际意味着关注因果推断乃是概率论之重心,从而使概率论与科学推断自然地发生了联系。杰弗里眼中的概率论就是建立在贝叶斯定理之上的归纳推理理论。换言之,在贝叶斯定理中,“cause”这概念天然存在后验概率的改变源于先验概率与似然的结合,从而改进了人们关于知识的接受程度,且随着经验的增加人们对这种改变可以进行不断的修正。另一方面,图的引进…
Judea Pearl的贡献,他为此荣获了2011年图灵大奖。突破的实质乃是创建一种正式语言(在Judea Pearl看来,在统计学的语言“概率论”中,根本就没有“cause”这个概念,也不可能有建立在这一概念上的科学推理;罗素爵士也早就警告“因果关系”和物理学方程之间不存在可比性。)借助于这种语言,科学概念在不同知识间实现“转移”(transfer)的任务,即可准确地、计算能行地加以完成。伽利略约400年前就提出了这一主张。
天将降大任于图灵奖得主Judea Pearl,绝非偶然…程序设计能力(N. Wirth教授的著名定义“算法 + 数据结构= 程序”已经清楚地阐明了这一点。在计算机科学中,解决问题的方案称为“算法”,亦即决定如何操作数据;而为了方便对数据的操作,就需要决定使用何种数据结构),已成为统计学研究走向深入的必备能力,图的好处也无可替代。Cf.工程图——世界第八大奇迹!呼应前文,深刻论述之。
A Bayesian ork such as Smoking -->Cancer fails to capture causal information; indeed, it is mathematicallyequivalent to the ork Cancer --> Smoking. The key characteristic of acausal ork is the ay in hich it captures the potential effect ofexogenous intervention. In a causal ork X --> Y, intervening to set thevalue of Y should leave one’s prior belief in X unchanged and simply breaks thelink from X to Y; thus, Smoking --> Cancer as a causal ork captures ourbeliefs about ho the orld orks (inducing cancer in a subject does not changeone’s belief in hether the subject is a smoker), hereas Cancer --> Smokingdoes not (inducing a subject to smoke does change one’s belief that the subjectill develop cancer). This simple analysis, hich Pearl calls the do-calculus,leads to a plete mathematical frameork for formulating causal models andfor analyzing data to determine causal relationships. This ork has overturnedthe long-held belief in statistics that causality can be determined only fromcontrolled random trials – hich are impossible in areas such as the biologicaland social sciences. Referring to this ork, Phil Daid (Professor ofStatistics at Cambridge) remarks that Pearl is “the most original andinfluential thinker in statistics today.” Chris Winship (Professor of Sociologyat Harvard) rites that, “Social science ill be forever in his debt.”
http://cos.name/author/dingpeng/(统计之都丁鹏的网页,其中有介绍DAG的系列文章,值得阅读)
http://.columbia.edu/itc/hs/pubhealth/epiville/pdfs/causal.pdf(介绍Sufficient Cause Model,SCM, 值得一读)
除Fisher的随机试验外,讨论因果关系还应对RCM, PCM and SCM这三种因果推断新近的发展(特别是对PCM)相当熟悉才行。
A sufficient causebased approach to the assessment of mediation by Danella M. Hafeman
Abstract
The minimal sufficient cause (MSC) model,also knon as the sufficient ponent cause model, has been used to facilitateunderstanding of several key concepts in epidemiology. To improve the understandingof mediation, e introduce a causal model for mediation that is grounded in theMSC approach. First, e describe an unbiased model for mediation; to clarifythe causal meaning of previously described indirect effects. Through the use ofpotential outes and response types, e express each indirect (and direct)effect in terms of ponent causes ithin the MSC model. Second, e use anMSC-based model to illustrate a mon cause of the mediator and oute, i.e.a confounder of the mediator–oute relationship. By describing this potentialsource of bias ithin the MSC-based model, important plexities are notedthat impact the magnitude of plausible confounding. In conclusion, an MSC-basedapproach leads to several important insights concerning the interpretation ofindirect and direct effects, as ell as the potential sources of bias inmediation analysis.
备注该文写于2014年9月,是一篇未完成论文。
①大卫·休谟(David Hume, 1711-1776),苏格兰哲学家、经济学家和历史学家。
②彭玉生. 社会科学中的因果分析. 社会学研究. 2011年第三期.
①读者应予注意,费舍的随机化试验在许多研究中是被禁止使用的,仅能进行观察性研究,如在吸烟与肺癌的研究中,如果采用随机化试验,将导致伦理学问题。
②Causality: Models, Reasoning,and Inference by Judea Pearl, Cambridge UniversityPress, 2000.
③参见上1页注①。