探讨：如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？-静雅生活网

导读：导语　　什么是 AI+Science? 有哪些重要的未解决的 AI for Science 问题？哪些是潜在可能瓶颈以及中期解决方案？斯坦福大学计算机科学系博士后研究员吴泰

探讨：如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？

　　导语

　　什么是 AI+Science? 有哪些重要的未解决的 AI for Science 问题？哪些是潜在可能瓶颈以及中期解决方案？斯坦福大学计算机科学系博士后研究员吴泰霖将综述性地介绍 AI+Science 的领域图景，看 AI+Science 的范式如何赋能科学和技术，最重要的是，作为一个该领域的科研工作者，希望借集智俱乐部的平台，跟大家共同探讨一些「重要问题」，互相激发，去找到「AI+Science」领域中类似于 Alphafold 和 ChatGPT 这样跨时代的想法和工具。

　　AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以 "AI+Science" 为主题的读书会，从 2023 年 3 月 26 日开始，每周日早上 10:00-12:00 线上举行，持续时间预计 10 周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

　　分享内容简介

　　对于从事 AI、机器学习等研究的人来说，他们可能希望了解不同学科领域中存在哪些重要的科学问题，如量子物理、分子动力学、材料学、生命科学、等离子体物理、机械工程、能源与环境等。这些科学领域的问题为 AI 带来全新的挑战和机会，对模型的泛化性、鲁棒性等提出了全新的要求，其解决也可以极大扩展 AI 方法的影响力。

　　对于从事科学和工程学科领域研究的人来说，他们对领域中的重要问题有深刻的理解，也可能希望利用最新的 AI 技术结合自己的领域知识来解决这些问题。将 AI 技术用于这些问题，可能可以有效推进领域内这些重要问题的解决。

　　在本次分享中，我将重点与这两类科研工作者进行交流，阐述为什么要将 AI 与 Science 结合，并介绍 AI 在 Science 领域（如量子物理、分子动力学、材料学、生命科学、等离子体物理、机械工程、能源与环境等）中可应用的技术手段，以及这些技术手段已经解决了哪些重要问题以及还有哪些亟待解决的问题。此外，我们还将探讨基于物理学、神经科学等基本原理能够为 AI 带来哪些全新的概念和架构。

　　最重要的是，我会在最后发起一个讨论环节，抛出一些「不成熟」的想法，希望跟大家交流，这些问题都是在做相关研究和从业者都关心的问题，且目前没有答案，但是希望能够通过讨论，集思广益，激发大家的思考和碰撞。即使这些问题短期内也不会有答案，如果我们能够一直带着问题去学习接下来的话题，相信大家会有更多收获。

　　一个好的问题是研究成功的一半，如果大家到时候愿意一起来讨论，我也希望你可以先思考：" 在你所在的领域，最重要的研究问题是什么？"

　　分享大纲

　　为什么要研究「AI + Science」

　　从微观到宏观跨尺度视角看「AI+Science」

　　AI for Science 重要问题、进展以及与各机器学习分支的关系

　　Science for AI 重要问题、进展和挑战

　　探讨：有哪些未解决的重要问题

　　下一个 AlphaFold：有哪些重要的未解决的 AI for Science 问题，它的解决能够开辟一个全新的领域，促进上百个问题的解决？

　　AI for Science 的可能瓶颈以及中期解决方案：数据、模型、算力、领域知识

　　其他社区成员抛出来的更多的问题。

　　主讲人

　　吴泰霖是斯坦福大学计算机科学系的博士后研究员，由 Jure Leskovec 教授指导。他从麻省理工物理学博士毕业，其毕业论文主题为 AI for Physics and Physics for AI，本科毕业于北京大学。他的研究兴趣为 AI+Science，包括开发机器学习方法用于大规模科学和工程模拟，开发神经符号方法用于科学发现，以及由科学问题启发的表示学习（运用图神经网络、信息理论和物理等方法）。他的工作发表在 NeurIPS、ICLR、UAI 等顶级机器学习会议以及物理学顶级期刊上，并被 MIT Technology Review 报道。他是美国国家科学院院刊（PNAS）、Nature Communications、Nature Machine Intelligence、Science Advances 等综合期刊的审稿人。

　　个人主页：https://tailin.org/

　　直播信息

　　直播时间：

　　2022 年 3 月 26 日（周日）上午 10:00-12:00

　　参与方式：

　　扫码参与读书会，加入群聊获取本系列读书会的视频回放权限、资料权限，与社区的一线科研工作者和企业实践者沟通交流。

　　为了帮助大家更好地了解这个领域，接下来我会介绍 AI + Science 领域的一些背景知识和基本概念。主要围绕以下三个问题展开：

　　什么是 AI +Science ？

　　AI + Science 领域取得了哪些令人兴奋的进展？

　　AI + Science 领域里面有哪些令人激动的研究问题？

　　什么是 AI +Science ？

　　数据驱动的方法能够帮助我们在缺乏明确原理的场景下解决具体问题，但是可解释性较弱，就像我们现在的遍地开花的各类 AI 技术，不要求可解释性，只求预测准确。而基于第一性原理的方法虽然能够帮助我们发现物理世界的基本原理，但是在应用到真实场景的复杂物理模型时往往需要处理巨大的计算量，就像科学家长期以来的思考范式，致力于发现科学原理。

　　AI+Science 是近年兴起的一个前沿而激动人心的研究方向。它一方面通过开发新的 AI 和机器学习方法，解决上述科学中的重要问题（AI for Science）。另一方面，在科学（尤其是物理学）中长期积累的重要概念，也能为机器学习提供全新的视角和方法（Science for AI ) 。

　　AI + Science 领域取得了哪些振奋人心的进展？

探讨：如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？

　　@Deepmind

　　自 2020 年以来，AI+Science 的发展迎来了爆炸性增长阶段，其中比较有影响力的技术发展里程碑如下：

　　AlphaFold 2：成功预测了 98.5％的人类蛋白质结构，具有原子级准确度，与复杂实验（如低温电子显微镜）的结果相媲美。

　　DeePMD-kit：结合了机器学习、高性能计算和物理建模，将分子动力学推向了 10 亿个原子的极限，同时保持高精度。

　　FourCastNet：基于新型算子学习的神经网络模型，将天气预报加速了 45,000 倍。

　　用 AI 解决物理问题：在工业领域，将数据和物理机制相结合，解决复杂高维物理问题，如流体和结构 PDE 方程求解。

　　AI + Science 领域里面有哪些令人激动的研究问题？

　　AI+Science 是科学研究的第五范式，正处于科研发展的最前沿，也正是如此，所以其实学术界和工业界都处于探索的早期，还没有公认的定义和边界，而集智俱乐部的 AI+Science 读书会其目的之一就是为了聚集在该领域的前沿学者，大家通过共同学习和探讨，能够对领域定义和边界尝试达成共识，并细化领域的研究主题。

　　正是百家争鸣之际，我们也给大家梳理了几种不同的研究问题的视角，来自不同的机构或者个人，可能均会有一些偏颇，仅供大家参考。

　　集智俱乐部读书会视角

　　集智俱乐部的 AI+Science 读书会在 AI for Science 下，我们将着重探讨以下三个分支：AI 用于科学设计，AI 用于科学模拟，以及 AI 用于科学发现。在 Science for AI，我们将着重探讨物理启发下的生成模型，以及物理启发下的学习理论。

探讨：如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？

　　AI for scientific simulation

　　科学仿真（scientific simulation）是科学中的核心任务之一。在 AI 用于科学仿真中，无论是微观还是宏观，以下的几点是核心问题：

　　对称性和守恒律：如何设计机器学习的模型架构使得物理系统的对称性和守恒律能被严格遵守？

　　多尺度和多分辨率：很多系统的时空动力学横跨多个尺度和分辨率，往往某些部分非常动态，需要非常精细的分辨率来准确模拟，而其他部分则比较静态。如何设计机器学习的模型架构能够达到准确度和计算量的合理权衡？

　　大规模特性：当需要模拟系统的自由度有上百万甚至上亿时，如何设计模型以降低计算量，或者让机器学习的架构能够适应这样大规模的特性？

　　长时预测的准确性：很多系统的模拟需要用相同的模型自回归地预测几十步甚至上千步，在这个过程中，模型的预测误差会累积，导致在自回归中机器学习模型的输入会来自分布外 ( out-of-distribution ) 。如何降低长时预测的误差，提高准确性？

　　由于任务的复杂度，AI 用于科学模拟也能为机器学习和计算机科学提供全新的挑战，在如何设计全新的结合对称性的神经网络、表示学习、泛化理论、高性能计算、不确定性量化（uncertainty quantification）等方面有很多全新的机会。

　　AI for scientific design

　　设计和控制是科学和工程中的另一个核心任务。这个领域目前刚刚起步，其复杂性和难度为 AI 提供了一个极佳的施展空间，能够极大促进强化学习、扩散模型、图神经网络、泛化等机器学习领域新算法的开发。一些可能性如下：

　　如何优化可控核聚变的托克马克装置的形状，或者设计新的托克马克装置？

　　如何通过机器学习设计政策（比如碳市场）或者设计大气工程以减缓全球变暖？

　　如何通过 model-free 的方式设计高鲁棒性的量子操控方案，实现高保真度多比特量子门？是否可以通过强化学习的方式来设计新的量子纠错码，帮助实验实现可纠错量子计算？

　　AI for scientific discovery

　　科学发现是科学中最激动人心的过程。而 AI 可以极大地加速这一过程。在 AI 用于科学发现中，有以下一些重要问题：

　　如何识别复杂系统中重要的自由度？比如虽然一团物质有很多微观自由度，但仍可以很好地被少数几个宏观自由度描述，如压强，体积，温度等。

　　如何发现观测数据所遵循的理论（theory）？比如发现万有引力定律，发现麦克斯韦方程等。

　　如何发现系统中的重要概念，比如对称性和守恒律？

　　如何发现系统各个组成部分之间的关系？

　　如何预测系统在外界微扰下产生的变化（比如细胞对于基因的敲除的反应）？

　　如何构建 AI Scientists？科学中哪些问题可以被 AI 自动化？

　　以上的这些问题，也与机器学习中的神经符号模型（neurosymbolic models）、不变学习（invariant learning）、因果学习、世界模型（world models）、主动学习（active learning）等有深刻联系。

　　Physics-inspired generative models

　　概率生成模型，简称生成模型（Generative Model），是概率统计和机器学习中的一类用于随机生成可观测数据的模型。生成模型的应用十分广泛，可以对不同类型数据进行建模，包括图像、文本、声音。目前有许多非常成功的生成模型源自某些经典的物理学模型 / 理论，比如 Stable Diffusion 借鉴扩散思想、受限玻尔兹曼机（RBM）借鉴统计力学中的玻尔兹曼分布、自组织映射（SOM）借鉴复杂系统的自组织概念 ... 物理学和生成模型的交叉已经 / 可能给出以下问题的答案：

　　如何利用量子计算的巨大潜力，构建量子生成模型算法？

　　如何矫正对实验的数值建模和实际实验之间的误差 ( Deconvolution ) ？

　　如何从已经建立的物理学理论中挖掘出可以迁移为生成算法的理论框架 ( DMP,RBM,SOM... ) ？

　　如何建立一个大型数值模拟系统（e.g. 一个大型的基于 PDE 的流体系统）的快速响应的版本？

　　Physics-inspired learning theory

　　物理学启发的机器学习（physics-inspired mahine learning，简称 PIML，注意区别于 physics-informed machine learning）是一种结合了物理学理论和机器学习技术的新兴领域。PIML 的目标是利用物理学中的基本原理来设计新的机器学习算法和模型。PIML 通常涉及到在机器学习模型中引入物理学中的概念，如对称性、能量、熵、自组织、重整化群等，并利用它们来设计、约束、优化机器学习模型。以下是一些 PIML 已经 / 可能解决的问题：

　　如何借鉴物理理论以提高 ML 算法效率、设计可解释性更好的算法？

　　是否可以从物理的角度，解释某些算法为什么对特定问题 / 场景非常有效？

　　如何针对问题 / 应用场景利用相应的物理知识来减少训练所需的数据量？

　　怎样利用最小作用量原理（包括能量最低原理）、粒子群优化等等来设计新的优化算法？

　　《科学智能（AI4S）全球发展观察与展望》报告视角

　　来自北京科学智能研究院、深势科技以及高瓴创投联合出品的《科学智能（AI4S）全球发展观察与展望》报告中提到，实现 AI4S 的发展在总体上会沿着 3 条主要途径：数据驱动（处理数据的新方法）；模型驱动（处理物理模型的新方法）；模型驱动与数据融合方法的深度融合。科学数据、AI 技术和科学计算的发展，最终汇聚在 AI+Science 框架中。

探讨：如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？

　　@《科学智能（AI4S）全球发展观察与展望 2022》

　　Advancing Scientific Discovery with Artificial Intelligence

　　最近，一篇即将在 Nature 上发表的文章《Advancing Scientific Discovery with Artificial Intelligence》，讨论了人工智能和机器学习技术在各种应用中的使用，如粒子碰撞中的事件选择、细胞类型发现和注释、合成健康数据生成、遗传序列的统计计算、超分辨率的三维活细胞成像以及大数据的降维。该论文还强调了捕获序列数据中的结构语义以获得更好的人工智能表现的重要性。本文的总体目标是为各种应用提供人工智能和机器学习领域的见解和进步。主要分为三个大的主题：AI 辅助生成科学假设 +AI 引导测量和提取表征 +AI 辅助实验和仿真，以及列出了每个主题下的前沿进展和方向，大家可以在图中查看。

　　后续我们也会对该文章进行更多的解读，敬请期待。

　　图注 @Advancing Scientific Discovery with Artificial Intelligence

　　Hanchen Wang*, et al.

　　AI+Science 读书会启动

　　AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的 " 第五范式 "。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

　　集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以"AI+Science" 为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从 2023 年 3 月 26 日开始，每周日早上 10:00-12:00 线上举行，持续时间预计 10 周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

　　详情请见：

　　人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动