大数据与AI:带来了什么机会、解决了什么问题?

未分类6个月前更新
91 0 0

来自微信公众号“智能制造IM”

以下文章来源于蝈蝈创新随笔,作者郭朝晖

我认为,AI(神经网络学派)的本质进展是解决了三类问题:是什么、要什么、为什么。而这一切的机会都来源于大数据和算。大数据带来本质机会,是解决了困扰科学哲学的验证问题。下面是我的思考。这个困扰解决之后,新一轮科学发展的机会来了。这个机会是基于大数据的,却不一定是基于AI的。

大数据与AI:带来了什么机会、解决了什么问题?

在维纳看来,智能就是系统的应变能力。比如,人或动物看到一头老虎来了,就赶紧逃命。如果希望让机器拥有人或者动物的这种能力,就需要让机器能够自动地获得信息、然后才是自动地应对。控制论就是基于这个思想发展起来的。比如,液位控制时需要实时测量水位的高低:如果水位下降,就增大阀门的开度、进来更多的水;反之,就减小阀门开度。

但是,人造的机器可否真的具有“看见老虎就逃跑”的能力呢?传统的机器是没有的:因为机器不认识老虎。我们注意到:机器获得的信息,都是传感器传来的物理信号。比如亮度、温度、压力、水位等。没有哪个传感器能直接测量出“这是一只老虎”的信息。换句话说,机器缺少一种能力,把光学信号转化成“老虎”的概念。这种技术传统上叫做“模式识别”或者模式分类,其实质就是从信息中抓住实质、去除非本质的干扰。我给这种技术取了个名字,叫做“感知到认知”:也就是从传感器的信号转化成某个概念。

有些“感知到认知”问题很好办(比如检测值超标)、人也说得清楚。人说得清楚,就可以写出代码,让机器去判断。但有些就说不清楚,比如“什么老虎”就说不清楚。这类说不清楚的知识一般称为“默会知识”:人明白但说不清楚,也就无法写成计算机代码,机器的智能化也就无法实现。而神经网络技术的发展,能让机器自己去识别,而不用人去编码了。这就是AI中的图像识别和机器学习。所以,人说不清楚也就无所谓了。

所以,AI解决的一个重要问题,就是解决了让计算机知道“是什么”的问题。当然,“是什么”的内涵非常多。对商业活动来说,潜在用户是谁、可能的诈骗犯是谁对都很重要。

下面再谈“要什么”的问题。谷歌在成立之初,天使投资人问创立者:现在有这么多搜索引擎了,你们为什么还要搞呢?创始人回答说:我们研究的不是搜索引擎,我们搞的是人工智能啊。

为什么有这样一种说法呢?很早之前有人就意识到人和机器的差别:人面对组合爆炸问题(如下棋)有办法,机器就没招了。所以,有个观点认为:“智能就是在一个巨大的搜索空间中找到较优的解的能力”。谷歌解决了巨大搜索空间的搜索问题,其实就是人工智能问题。

谷歌解决了搜索问题,其实就是解决了“要什么”的问题。

在美国国会的一场听证会上,有位共和党议员询问谷歌CEO:搜索“白痴”的时候,怎么会出现特朗普总统的照片?CEO淡然地回答道:因为我们的用户在搜索“白痴”时,就是想看特朗普总统的照片。

解决“要什么”的问题也很重要。人类的语言能力是有限的、见识也是有限的。我们往往不知道、说不清楚自己的需要。这些说不清楚的东西,AI能帮助你说清楚。如果我们的企业能够更好地理解用户,也就更容易取得商业的成功。如果我们有个系统,能够帮助我们更深入地理解用户,也就能帮助我们更好地服务用户、更好研制出新产品。对研发人员来说,如果机器能够理解我们想要什么,研发的效率也会大大提高。

在我看来,OpenAI采用的Transformer回答了“为什么”的问题。因为它成功地模拟了人们的思维逻辑。在数学和科学领域,人类有一套非常严格的思维逻辑。但是,我很早就发现:有些数学很好的同志,在现实中的逻辑并不是那么严密。后来我意识到:日常生活的逻辑,其实并不是严格的数理逻辑。这些逻辑并不严密,故而往往也说不太清楚。现实中的逻辑只是概率比较大的逻辑,类似模糊逻辑。Transformer其实就是模拟了这套逻辑。

在我看来,AI解决“是什么”、“要什么”、“为什么”的问题,都是解决了“说不清楚”的问题。为什么AI能解决这些问题呢?根本的原因是大数据时代给我们带来新的机会。

知识的本质作用是减少不确定性的;我们可以通过减少不确定性的角度,理解知识。要理解大数据的机会,就要理解它评估和处理不确定性的能力。评估不确定性时,我们经常用到“概率”的概念。但我意识到:在大数据的背景下,传统的概率概念其实已经不合适了。但我也不想造新词,权且继续用概率吧。

90年,我曾经用神经网络做了一个模式分类问题。当时,有师兄把分类的正确率做到了65%,而我很快做到了100%。我其实是用了很简单的办法,设法为隐含层提供一个比较理想的初值。按照我的办法:只要隐含层的节点足够多、同一个样本不被分到两个类中,几乎一定能够做到100%正确。我为什么提出这种方法呢?我提出这种做法的真实目的,是想证明神经网络方法没用!

我思考了这样一种情况:假设有两组样本、各包含N+1个样本、属性都是一样的。唯一的不同是:在第一组中,第N+1个样本属于第一类模式,在第二组中属于第二类模式。用前面N个样本进行训练一个网络,可以得到正确率100%。那么,对第N+1个的预测结果是什么呢?显然,这个网络在两组样本中不可能同时正确。由此可以说明:训练的正确率100%,也不能证明模型的预测是正确的、不能证明模型是有用的。

我本科是数学系毕业的,所以会有这种思维。这种思维也受到波普科学哲学的影响:总能自圆其说的理论,其实不是科学。同样,什么都能逼近的网络,其实没有真正的科学预测。

总之,如果神经网络足够复杂、训练样本的数据量又不够多,预测结果是没有用的。这个观点可以归结为一个哲学认知:规律是信息的压缩(数据的压缩)。如果一个理论不存在压缩,就不能体现规律。打个比方:我把爱因斯坦的演讲报告都背下来,并不能说明我和爱因斯坦的水平是一样的。怎么办呢?数据足够多、多到不合适的网络会产生矛盾时,网络才会有意义。也就是说:背不下来的时候,才是真学问。我写硕士论文的时候,专门一章讨论了这个问题。

写硕士论文时,我特别赞同“投票方法”:如果有若干子网络进行独立的预测,然后根据子网络的投票确定最终结果。显然,如果每个独立预测的准确率超过50%,只要预测的数目足够多、独立性足够强,就可以逼近正确的预测。这其实是一种概率思维。我当时还找到一个案例,说明人的智能很可能就是概率的计算。我在博士班的哲学课上还提出这个想法,但似乎没有说清楚。同学们笑笑就算了。当时,我向《人工智能与模式识别》投稿。结果,审了一年退稿了。当然主要的原因还是我没有把想法说清楚。我当时看不到这类研究的希望,博士阶段就转了专业。

97年我到宝钢工作后,对概率的概念有了更深刻的认识。我们在大学里面学习的概率理论产生于实验设计时代,在现实中(大数据时代)其实是不合适的:因为概率理论所依赖的许多假设条件(如独立同分布假设)根本就是不存在的。这会导致许多统计学方法失效。比如,最小二乘法有效(无偏估计)的前提,是自变量的检测误差可以忽略不计。现实中,这个条件往往不满足。我从理论上独立地推导出(结论其实早就有),在自变量存在误差的前提下,“误差最小的模型”是有偏的。这意味着,一切以误差最小为目标的建模方法,都可能存在问题。我后面研究数据建模,就是基于这个思想的。

我的想法是这样的:传统的概率统计理论是一个数学分支,有严格的数据基础。但这些理论依赖于某些假设。我们遇到的困难是,这些理论上常见的假设在现实中不成立。怎么办呢?在大数据条件下,我们可以创造条件、通过原始数据构造出一些数据,让它们符合经典统计理论的研究。对这个思路,解决问题的理论关键点转移了,转移到如何创造条件。所谓的创造条件,其实就是尽量消除随机干扰和系统干扰。后来,我花了12年的时间,用这个思路解决了一个困扰钢铁领域70年的难题。

但遗憾的是:我把这件事做完以后,自己却遇到了难题:有人有意或者无意地打压或贬低。集团评奖时仅仅给了一个三等奖。我当时的感觉,就像献出和氏璧却被砍了脚的汴和。这是我后来决定从宝钢辞职的深层次原因:我努力得越多,别人越是不明白、对我的评价就越低。不过,想起当时的情景,我依然感觉特别幸运:宝钢有大数据的条件,在全世界都是罕见的。领导有耐心让我做了12年、让我衣食无忧、能把一件事情做完,这已经是非常不容易了。说句得罪人的话:在中国的钢铁行业,真正有独立深刻思想的专家其实没有多少个,多数人还是人云亦云,他们往往只认可国外做出来的东西,从内心就不相信中国人自己做的工作。让他们对创新有共识也是很难的。

大数据为什么会带来人工智能、会带来新的科学研究方法?从本质上说,大数据解决的不仅是获得知识的问题,更是验证知识的问题。所以,我觉得:科学哲学的观点应该修正了。

我前面的文章中讲过多次,传统的科学研究大体上属于波普科学哲学定义的范畴。也就是证伪主义的观点。所谓证伪主义,其实就是要有合理的验证方法。传统的科学验证,往往是通过抑制其他的干扰来进行实验、实验要有可重复性。但是,对于复杂的系统往往是无法抑制干扰的、也难以有可重复性。打个比方,传统中医强调每个人的情况不同。如果基于这样的思想,怎么进行可重复性的验证?所以,按照波普的标准,中医基本上不属于科学。

但是,在大数据背景下,经常有“样本等于全体”的优势。我们可以通过多个维度、多组数据去分析问题,就会使得验证能力大大提升。大数据时代的验证有特点:每个验证都有一定的道理,但每一个都不是特别严格。或者说,不是绝对的科学验证。打个比方:假如有个老中医,给每个人开的方子都不一样,但每个人都治好了。这时,能不能说他的方法是科学的呢?在大数据时代,“验证”的手段和方法不一样了,“科学”的内涵也可能会上升。

其实,对“理论正确”判断,不同学科的标准是不一样的。有这么一个段子:

数学家认定一个结论正确的标准是:见过的都是对的、没有见过的也是对的。比如,三角形内角之和等于180度。不仅是测量过的三角形是对的,没有测量过的也是对的。

物理学家对真理的标准是:见过的都是对的。

生物学家的标准是:80%的结论是对的

经济学家的标准是:50%的结论是对的。

政客的标准是:领导说的就是对的。

一般来说,大数据时代的验证标准,比物理学家的要求要低一点。

基于大数据的研究,到底能解决什么问题呢?我觉得:主要是解决(多元)复杂性问题。生物学是这样,复杂材料理论也是这样。从这种意义上说,主流科学研究可能从微观(量子力学)、宏观(相对论)走向复杂性。

不久前我发了一个小视频,最后说到Transformer是科学。我说这句话的原因,是认为这个技术解释了人的思维逻辑。其中,这个观点用到的标准,就是大数据时代的标准。意外的是:这段视频刚刚发出几个小时,辛頓等人就获得了诺贝尔物理学奖。当然,这件事争议很大。但至少可以说明,他们的研究可以被认定为科学了。

另外说一下:即便是按照放宽的标准,许多中国学者的研究仍然不是科学,甚至“既不是科学也不是技术”。

再强调一件事情:针对复杂性的科学研究不一定用AI、不一定用神经网络。我前面讲到的、直接用大数据的思路其实更加简单(也就是用大数创造条件、使之适合传统的统计理论)。我想,国内很多人一定会觉得这个思想太LOW了。因为他们只会跟风、只关心高大上的办法。但我觉得, 简单的思想在工程领域可能更合适。

最后再谈个观点:我对一些专家院士很反感。听他们讲话的感觉是:他的特长就是收集信息、至多是归纳信息。在思维上,最多只是人云亦云。没有思想的学者,才是真正的LOW。这些人,往往是靠当官成了专家院士。他们的观点,不值一提。在AI和大数据时代需要有哲学思维的高度。否则,明天就可能会被AI替代。

© 版权声明

相关文章

暂无评论

暂无评论...