谈到人工智能,大家马上想到的可能是自动驾驶、人脸识别等场景。但接下来,传统科学领域将成为人工智能主战场。AI for Science 将带动生物、化学、材料、工程等领域进入新发展模式。
近日,由百图生科与播禾创新主办,《医健AI掘金志》协办的 “首届中国生物计算大会” 在苏州闭幕。
作为主论坛报告的开场嘉宾,北京大数据研究院院长鄂维南,以《机器学习与科学计算》为题,在大会做了开场报告。
鄂维南表示:“从50年代开始,科学计算领域发展了差分方法、有限元方法、谱方法等基本方法来处理基础的物理模型,并且在工程和技术上得到了广泛应用。但依然还有很多问题没有解决。
例如:材料的性质与设计;分子、药物的性质及设计;基于基本原理的控制论方法;燃烧问题(内燃机的模拟、设计与控制)。
这些因素也导致理论研究场景与实际问题距离甚远。
鄂维南认为,解决这些问题的新的出路就是机器学习和物理模型的结合。以经典的物理模型提供数据,在此基础上通过机器学习产生更有效且同样可靠的模型。
以今天的生物计算为例,药物设计最重要的环节之一就是自由能计算。如果没有自由能计算,基于基本原理的设计药物可能就是一句空话。
为此,鄂维南的团队用上述方法研发了高维空间的高效采样和自由能计算的有效方案RiD。
最后,鄂维南发表了自己对AI和科学计算的展望:“谈到人工智能,大家马上想到的可能是自动驾驶、人脸识别等场景。但接下来,传统的科学领域将成为人工智能的主战场。AI for Science 将带动生物、化学、材料、工程等领域进入新的发展模式。”
以下为鄂维南院士的演讲内容,雷锋网《医健AI掘金志》做了不改变原意的编辑和整理
鄂维南:讨论生物计算之前,首先谈一谈科学计算。
我是在2015年,开始利用深度学习做生物数据分析的,当时开发出一种被作称为Define的软件。
自那时起,我们就发现生物计算的潜力,AI从数据分析,到科学模型,都在创造新机会。
今天,科学计算主要涉及两大主题:物理模型和数据处理。
首先,过去大家一直强调数学、计算机、统计学,但却忽略了物理学。
事实上,科学计算的主要模型都是基于物理学,虽然还有观点认为,纳米、生物会衍生出新的科学模型。
但就目前情况而言,新的科学模型,都基本源于这些物理模型,例如牛顿方程、空气动力学、弹性力学、电磁场理论、量子力学等等。
但过去很多年里,科学计算模型一直无法满足解决实际问题的算力需求,即使一小部分物理学家找到基本原理,也无法将其应用于实际。
为此,绝大多数科学家的工作都是简化模型。
这种现象一直延续到上世纪50年代,电子计算机出现后才根本改变。
随后,科学计算领域陆续发展出差分方法、有限元方法、谱方法等一些系列科学计算方法,让人类首次实现利用基本原理来解决实际的需求。
像桥梁设计、大楼设计、飞机设计都已经利用科学计算,实现了基本目标。
从数学角度而言,所有函数、高等数学里的微积分等所有函数,也都实现了多项式逼近。
这一下解决了结构力学、航空航天、天气预报、石油勘探与开采等多个工科问题,组成现代工业技术的基础。
但电子计算机,并没有解决所有问题,像生物计算就没有解决利用基本原理实现药物设计的需求。
其中本质原因在于,药物设计目前还没有完全找到基本原理。
但生物设计又是非常经验化的学科,其中涵盖材料、反应等多个问题,这些因素导致理论研究场景与实际问题相距甚远。
究其更根本原因,就在于维数灾难,即内在变量太多,导致维数增加,复杂度也呈指数增加。
例如,大家熟知的薛定谔方程,其中的波函数自由度是变量的100倍。
其次,生物计算的数据处理,生物计算在数据种类上,就包含了DNA和基因组学、蛋白组学、图像等多种数据。
从任务角度来看,数据处理主要包括三个步骤:
第一、imaging(反演),通过实验仪器和数据反演出内在结构。
第二、image processing,如何去掉图像中的多种噪音,并完成图像分割、修补等步骤。
第三、image recognition(图像识别)。图像识别和前两大任务有较大区别。
例如,在一系列图像中,分别存在狗和猫图像,如何分辨出究竟是狗还是猫,就涉及到图像识别问题。
图像识别本质就是在图像空间找到一个函数,并告知图像内容,其中图像间维度信息大概有3000多维。
而且以前处理的都是单张照片,现在处理则是带有变量的函数,二者有本质区别。
从我的经验来看,数学其实一直都是非常保守的领域,从未想过数据会完成图像识别任务。
这其中最大变量就是深度学习,经过计算机人多年努力之后,终于找到深度学习这一工具,使图像识别得到有效解决。
例如AlphaGo,从图像识别,到图像生成,再到AlphaGo,三个过程在数学角度就是高维问题。
第一个问题是解决高维函数逼近,第二高维概率密度,第三解决高维超大空间bellman方程。
深度学习解决这个问题的本质,就是提供了高维函数逼近方法,而科学计算最大的影响,就是将数学计算方法和物理数据两类方法相结合。
过去模型和数据都是割裂的,两者结合之后,就可以从模型得到数据,而后从数据得到更有效的模型。
另外,从分子动力学角度而言,药物设计作为分子动力学最主要的应用场景,涵盖了基因组学、蛋白组学等多个维度信息。
而且,分子动力学也是基本药物设计最不可或缺的工具,其中主要的困难点就是测算原子之间的相互作用,这些都需要遵循量子力学原理。
1985年出现了一个划时代的工作,即通过量子力学计算原子之间相互作用力,使分子动力学成为可靠工具,但因为这种方法效率有限,当时只能处理几百个原子。
所以,人们还是只能通过猜测的方法来解决实际问题,但猜测设计药品并不可行。
于是通过机器学习,以经典物理模型提供数据,在此基础上再进行训练得到更有效模型的方式,开始被大规模使用。
同时,各种小分子、大分子药物和复杂材料也都达到与量子力学同样的精度,且比量子力学更有效的体系。
通过机器学习方法+高性能计算得出结果,首次将机器学习和科学计算、高性能计算结合在一起,并带来几个数量级的展现。
目前,我们团队也发展出一系列新方法,为药物研发提供帮助。
例如,具有量子化学精度的密度泛函模型DeePKS。
过去密度泛函主要是针对于量子力学,在大分子方面还有诸多限制,DeePKS主要希望像量子力学一样,做到满足小分子,以及一部分相对小一点的大分子的需求。
除此之外,我们还研发了高维空间高效采样和自由能计算的有效方案RiD。
在药物设计当中,最重要工具就是自由能计算,如果无法实现自由能计算,那药物设计就是一句空话。
RiD主要作用就是通过强化学习方法,做一些粗略化分子动力学运算。
这个概念最早源自开源社区,即将深度学习与物理模型相结合。
近期,我们还发布开源社区DeepModeling,希望将大家的力量整合到一起,推动事情向前发展。
最后讲一下对AI和科学计算的展望。
谈到人工智能,大家马上想到可能是自动驾驶、人脸识别等场景。但接下来,传统的科学领域将成为人工智能的主战场。
AI for Science 将带动生物、化学、材料、工程等领域进入新的发展模式。
另外还有新一代科学软件落地问题,过去科学软件、工业软件都有卡脖子问题。
随着新模式出现,会推动新一代科学软件加速落地,为我们的科学软件建设提供绝佳的机会。
此外,科学研究也将从“小农作坊”转变到“安卓”模式。
过去各大科学实验室普遍都是自给自足的小农作坊,在大平台出现之后,大家可以对应开发出自己感兴趣的应用、平台和科研,并衍生出巨大的科学研究辩论社区。
更多大数据和人工智能信息请加入全国大数据人工智能专业交流群,只需加一个群即可,重复加群将会被清理,多谢支持。
如果无法入群,请添加微信下面的微信号,备注“姓名+单位+职位”。