科学研究的范式


最近在备课的过程中,发现一个很有趣的知识,这个知识在很多大数据相关的科普性质的读物中出现过,但我之前一直忽略的一个问题,即到底什么是科学?

关于什么是科学的研究,理论框架是科学的范式。

牛津百科全书中对范式的定义是:一种科学学派或学科的哲学或理论框架,在这个框架内来制定理论(theories)、规律(laws)、概括(generalizations)以及为支持它们而进行的实验。广义上说:任何种类的哲学或理论框架。

我们举个例子:十八世纪的科学家认为,水和酒精的混合会形成一种化合物,因为它们不会自动地分离,蒸馏过程也不能完全分离(它们是共沸混合的),并且水和酒精能以任何比例混合。

基于对水和酒精的观察,科学家得出结论:化学反应并不需要固定的比例就可发生。

这个结论对吗?不对,今天的我们已经知道答案,化学反应必然伴随着新分子的产生。那我们换一个问法:这个结论科学吗?

事实上,这个结论是一个100%符合科学的结论。因为在那个年代,科学意味着:观察现象->分析、比较和分类->概括归纳事实和关系->接受检验。水和酒精的实验完全符合现象观察和重复试验,过程是OK的,结果不正确的原因在于那个时候人类还不知道分子的存在。

我们把这种通过某一种固定的模式得到科学结论的方式称之为范式,现在这部分知识属于哲学领域的《科学哲学》所研究的内容。

在人们专门研究科学范式前,范式经历了两轮演变:

  • 1、早期的范式(第一范式)的套路是:观察现象->定性、定量实验->结论->验证。
  • 2、后来随着数学的发展,人们逐渐发现了一套新的打法(第二范式):观察现象->提出猜想->建立数学模型->用模型预测某种现象->观察预测结果是否达到。

第二范式中典型的例子就是水星近日点进动问题,证明了爱因斯坦相对论中预测的光线会在引力场下弯曲的预测,进而提升了相对论的可信度。

第二范式的一个不准确的认识是使用数学工具解决自然科学问题,科学就发生了进步。实际情况是科学家将自然科学纳入了数学理论体系中,而不是把数学仅仅作为计算工具。自然科学被数学化的原因在于数学是最严格区分这两个问题的理论体系:

  • 1、哪些我们无法证明但可以先假设正确的
  • 2、如果1的假设都准确,那么在完全符合逻辑学的论证方式下,哪些是一定准确的

在第一范式的研究中,最大的问题是不确定性难以被隔离。在第二范式的研究中,通过隔离理论中的不确定性,科学能够更好地被接受和传播。

但范式到这一步就停了吗?
我们先思考一下科学的本意:科学的全部价值在于其预测性。假如我有一只叫旺财的小狗,旺财能预测未来1万年内所有的事情,准确率100%,那旺财就是世界上最准确的科学。

我们之所以出现范式,一个原因是预测结果对不对,必须在这个事情发生以后才知道,在此之前我们需要一套令人信服的方法来说服自己和说服他人。另一个原因在于现实世界中充满了各种各样的对未来的预测方法,我们需要一种东西来认识这些五花八门的预测方法。

所以说,只要预测对象能让绝大多数人信服,就是有效的。从这一点来说,20世纪最伟大的发明——计算机——是否像数学一样也对科学理论有所促进?

第三范式:以计算机模拟复杂现象为基础的研究模式。研究方式是:观察现象->建立数学模型->计算机模拟->验证模拟和事实是否一致。

严格来说,第三范式并没有像第二范式一样有本质的变化,第三范式只不过使用计算机来支持我们可以建立极端复杂的数学模型,而这在第二范式的时候是不可想象的。

第三范式持续发展,有一个自然的结果,即数学模型复杂到一定程度,是否会变得不仅人类无法计算,人类也无法理解?对,就是我们说的各种有隐特征的学习算法。

2007年,图灵奖得主、微软研究员Jim Gray在NRC-CSTB会议上,提出说我们通过数据挖掘得到的不可描述不可理解的模型,只要其数据源准确,计算方法合理,预测结果在测试集上运行OK,就是科学的,这就是第四范式,全称叫“数据密集型科学发现(Data-Intensive Scientific Discovery)”。

Jim Gray演讲17天后独自驾驶帆船在海上失踪,演讲的ppt在其博客上至今还能下载:
http://jimgray.azurewebsites.net/


第四范式真正的突破在于,用于预测的模型可以是“不可解释”的。(注意这里模型的“非解释性”是说模型本身不可以解释,但是当前一般要求模型的生成过程是要能够解释的。)

模型“不可解释”的好处是我们对更多复杂问题有了解决方案。坏处是:

  • 1、很多解决方案都会变得“一次性”:你很难在一个不可解释的模型后面展开新的研究
  • 2、数据托拉斯:谁有数据谁就有好模型
  • 3、没有赢家:因为你没法在模型结构上横向比较各种模型,只能换个数据集换个结果,不同模型在不同的数据集上结果又不一样,难以比较优劣

照着这个思路,还会不会有第五范式?
我们试着删掉人类手工建立数学模型的步骤,那么原有的步骤就只剩下数据->预测了。那时也许模型都不会有了,我们只需要保证给计算机准确且足量的数据,剩下的计算机自己来做就可以了。

那这个东西还是科学吗?

正确的问题也许是:如果对于所有的问题都有了答案,我们还需要科学吗?