袁岚峰:现在统计学特别火,就是因为人工智能特别火,所以统计学跟人工智能是什么关系?还是说三个各自都是不一样的。
刘军:着重点(不同)。它们有很多技术上还是非常相通的,人工智能更着重于预测和把所谓pattern(模式)给它复制出来,学会人做的很多事情。但它里面用的其实是把很多统计的,像刚才提到的regression(回归分析)这些东西推到了极致。Regression(回归分析)推到极致就是深度学习,而density estimation(密度估计)推到极致就是生成式模型。
另外一个就是所谓强化学习,也是非常传统的概率统计,它其实偏概率和统计。最早可能Robbins-Monro(罗宾斯-门罗算法),stochastic approximation(随机近似)等,这个实际上是对现在最常用的一个机器学习的手段叫stochastic gradient descent,随机梯度下降方法。这个最早一九五几年统计学家做的stochastic approximation(随机逼近),然后到后来强化学习这一套,强化学习是一九七几年提的一套概率理论,然后统计学家也去做。强化学习最早马尔可夫决策论,现在那个领域也扩得很大了,怎么去学value function(价值函数)等。所以你看这几个核心的手段都有非常深,非常直接的统计方法对应。
袁岚峰:那么(统计学)跟数据科学有什么关系,那数据科学跟人工智能算是同义词吗?
刘军:吴建福先生十五年前还是二十年前,他就提出我们应该换成数据科学。它其实更像统计学的一个广义的(名称),我觉得如果说同义词,它可能跟统计学更像同义词,但好像数据科学更大一点。它包含更多,它现在比较关心的一些问题是关于数据架构本身的一些特点,数据储藏,数据传输,数据怎么处理,重点稍微不一样一点。但是我觉得广义上来讲,区别真的是不大。
袁岚峰:怪不得我看您讲课的时候,您说统计学家和数据科学家能做几乎所有领域的事情。在这个意义上,统计学家跟数据科学家几乎是同义词了。
刘军:我认为这次人工智能革命成功的一个很大的因素,是对统计思想和方法的全面拥抱,我觉得这一点非常重要。
统计学是干什么的?所有人应该都听说过这个学科,还知道有统计局这样的机构。但对统计学的内容,大多数人可能就所知甚少了,大概能知道对数据求和、求平均,而知道方差和中位数的就已经上一层次了。
但实际上,统计学可做的事远多于此。例如当你打开任何一个软件,它展示给你的内容是经过排序的,为什么这么排,就有统计学的算法来决定。基于统计学,我们可以对很多东西做出预测,包括天气、股票和蛋白质结构。更广而言之,统计学对哲学都有巨大的影响。学过贝叶斯统计、辛普森悖论的人才会理解,我们是怎么认识世界的,在认识世界的过程中又有多少陷阱。
今天,我们就来访问美国科学院院士、清华大学统计与数据科学系主任、兴华卓越讲席教授刘军博士。看这位世界级的统计学家,如何向我们展示统计学的魅力。
《锚点》节目中国科学技术大学科技传播系副主任袁岚峰对话清华大学刘军教授,东方卫视2026年3月11日播出。本片为精彩片段一,25分钟的全片可见于上海广播电视台“看看新闻”网站(https://www.kankanews.com/detail/1W2v546KdwA)、app以及视频号。