探索化学空间:人工智能可以带我们去人类从未去过的地方吗?
导读: 探索化学空间:人工智能可以带我们去人类从未去过的地方吗?以下文章来源于 ScienceAI ,作者 ScienceAI编译 / 文龙从计算机视觉到蛋白质结构预
网友提问:
探索化学空间:人工智能可以带我们去人类从未去过的地方吗?
优质回答:
以下文章来源于 ScienceAI ,作者 ScienceAI
编译 / 文龙
从计算机视觉到蛋白质结构预测,机器学习已经在广泛学科的各个研究领域中取得了不俗的成绩,但都难以避免运用大量数据进行训练。在最近的一项工作中,研究人员发现,在某些情况下,机器学习并不需要大量数据即可探索化学空间。
来自不列颠哥伦比亚大学和阿尔伯塔大学的一个联合研究小组系统地评估和优化基于 RNN 在低数据环境中的分子生成模型,发现可以从比广泛假设的少得多的例子中学习到健壮的模型,为从化学空间的稀疏区域直接学习生成模型提供了基础。
研究成果于 7 月 19 日以「Chemical language models enable navigation in sparsely populated chemical space」为题发表在《Nature Machine Intelligence》杂志上。
深度生成模型是探索化学空间的强大工具,能够按需生成具有所需物理、化学或生物特性的分子。然而,这些模型通常被认为需要包含数十万甚至数百万个分子的训练数据集,这限制了深度生成模型在化学空间区域中的应用。
理想情况下,可以直接从少量示例中学习生成模型。然而,目前尚不清楚学习稳健模型所需的分子数量的下限是多少。因此,该团队创建了 8500 个模型用于评估化学语言模型从有限的训练数据中学习的能力,评估了超 40 亿个生成的分子。
从有限的训练示例中学习分子的生成模型。(来源:论文)
实验发现,有很多模型在有限的数据集上工作得很好,并且大多数在仅获得 10,000 到 20,000 条数据记录后,其预测能力就开始趋于平稳。当研究人员使用性能最佳的模型进行进一步研究时,发现大约有 50% 的结果是正确的。
研究人员还表示:「数据,而不是架构,决定了低数据模式下的模型性能。」他们系统地改变了六个模型超参数中的每一个,比较发现,与训练数据集的大小相比,超参数调整的影响很小。
低数据模式下的模型优化。(来源:论文)
「外面有什么?」这是人类一直在问自己的问题。我们的祖先穿越大陆和海洋,让未知的事物为人所知。现在,我们正在使用望远镜和机器人来探索太阳系之外的宇宙,也正在使用显微镜探索物质的构成以及微观世界。
化学空间包含所有可能的化合物。它包括我们知道的每一种药物和材料,以及我们将来会发现的每一种。搜索化学空间绝非易事,因为化学空间实际上是无限的,并且可能非常复杂。
人工智能可以比人类更快地探索化学空间,并且它可能能够找到甚至专家都无法找到的分子。因此,一些化学家开始转向人工智能。但在化学空间中数据稀疏的部分,仍需要更多的手动操作,这也是该团队展开这项工作的原因。
研究人员最初是在寻找预测设计药物结构的方法时意识到,如果他们可以使用机器学习的方法,他们的工作会容易得多。不幸的是,只有 1700 种已知的设计药物可用于训练。这让他们想弄清楚训练这样一个系统需要多少数据才能有效,或者是否有办法修改算法或用于训练它的数据以允许使用较少的数据。
随着众多专家努力构建和完善这些 AI 工具,关于使用人工智能的最佳方式的争论也一直持续存在。
是否应该允许 AI 探索者在化学荒野中自由漫游?化学家是否应该严格控制他们的算法,将他们限制在人类认为会发现有希望的分子的化学空间区域?人工智能算法应该自己学习,还是需要学习宇宙的物理定律才能有效地搜索?人类化学家和人工智能如何有效地协同工作?
一个统一的声音是:AI 工具将增强人类化学家的能力,但是,搜索化学空间的通用的人工智能方法是不太可能出现的。
论文链接:https://doi.org/10.1038/s42256-021-00368-1
参考内容:
https://techxplore.com/news/2021-07-machine-applications-assumed.amp
https://cen.acs.org/physical-chemistry/computational-chemistry/Exploring-chemical-space-AI-take/98/i13
人工智能 × [ 生物 神经科学 数学 物理 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/16702.html,如需转载,请注明出处!