发展阶段层面,《展望》指出,按照行业整体需要解决的问题,可以把 AI for Science 的历史和未来十年可预见的发展大致分为三个时期:以科学家为主导的“概念导入期”(2016-2021)、以科学家和工程师协作为标志的“大规模基础设施建设期”(2021-2026),和以工程师为主导的“成熟应用期”(2026 年及以后),三个时期的演进也是人们对 AI for Science 开发程度不断加深、使用范围不断扩大的过程。
AI for Science 的发展不仅取决于 AI 算法的应用,还取决于大量经典算法的改进和提升。算法迭代层面会经历从“简单模拟”到“智能化搜索”3 个阶段:1.0 阶段的关键词是“模仿”,即基于实验的思路,在实验基础上进行简单的外推和扩大;2.0 阶段的关键词是“预测”,即有边界地预测,有明确、可验证的置信区间;3.0 阶段的关键词是“搜索”,即算法可以非常准确的对真实场景进行建模,并在此基础上根据特定需求设计并返回所需结果。
《展望》指出,目前正处于 2.0 阶段,未来几年内 AI for Science 的相关领域都将会完成 2.0 阶段的算法升级,而后将逐渐进入到智能化设计的 3.0 阶段,最终实现 AI for Science 广泛普及。
图|AI for Science 的相关要素(来源:2023 版《AI4S 全球发展观察与展望》)
AI for Science 的发展既包含 AI 行业的要素,也包含科学领域的要素,更需要来自产业和公共管理侧的发展要素,所有这些要素相互交织影响,共同促成 AI for Science 发展的正反馈。
近十年来,AI 的强大之处大家有目共睹,但其“黑箱”属性也向来被学界诟病,即能知其然却不能知其所以然。《展望》指出,由于 Science 本身的客观存在性,将 Science 与 AI 融合为 AI 提供了绝佳的“验证”步骤,让 AI 在特定领域内能产出“可解释”的成果,而这不亚于为人类发现新的科学原理。
而在科学领域,从“数据”中可以提炼出经验性“原理”,亦可以使用“原理”来仿真模拟出“数据”,因此“数据”和“原理”在一定程度上能够接近无损转化。
图|AI for Science 系统工程(来源:深势科技)
AI for Science 在模型驱动和数据驱动深度融合的过程更像是一个系统化的工程,不仅需要原理层面的创新,也需要从基础设施、产品、场景交互的全方面变革,各个场景可能都需要庞大的团队来支撑和完成,同时这也意味着巨大的空间和机会。
AI4S 在多个领域的产研实践
新版《展望》着重介绍了 AI for Science 在生命科学、材料科学、能源、半导体、地球与环境等众多领域及细分领域的产研实践。整体而言,在具体的实践中,如何更好地构建 AI-Science 之间的纽带是核心的创新点,而这在不同的科学场景中其思路也不尽相同。
生命科学领域,在过去的十余年间,大量基于机器学习和深度学习的理解基因调控的方法被开发出来,AI 在驱动药物研发和个性化医疗中取得新突破。如今,AI 正在药物研发、疾病筛查、生物学机制研究等方面发挥着越来越重要的作用,未来,随着 AI 的渗透,很多疾病的通路和影响因素将不再神秘,最终有望介导人类健康乃至整个生命科学领域的系统进步和重大突破。
图|药物研发的主要环节(来源:2023 版《AI4S 全球发展观察与展望》)
以药物研发为例,新药开发过程是个多环节、漫长且昂贵的流程,每个环节的效率提高都有巨大的商业价值。如今,将 AI 与底层生物机制结合的新范式(AI for Life Science),正在从底层技术的突破为整个行业注入崭新活力,带来更多机会。
在 AI for Life Science 范式下,药物研发过程中的大部分实验可以像汽车、飞机等工业领域实现仿真模拟,通过计算手段进行测试和筛选,再通过真实实验进一步的验证和筛选,能够大幅减少真实实验带来的时间和经济成本的消耗。
AI for Life Science 的其他应用,比如,当今比较热门的 CAR-T 细胞疗法,CAR 分子的胞外结构域中识别抗原的单链抗体片段十分重要 ,AI 技术可被应用于学习抗体片段规律,对抗体亲和力或人源化性质进行预测和推荐;再比如,Cas9 是 CRISPR-Cas9 基因编辑技术的重要组成部分,AI 算法可用于寻找毒性更弱的 Cas9 酶,同时还可以借助 AI 在酶设计中的应用,尝试对已知的 Cas9 酶进行优化和改造。
合成生物学领域,AI for Science 的设计与合成生物学的工程模式相辅相成,共同打造“假设、构建、测试、学习”的闭环(DBTL),并且还有可能基于自动化实验室利用 AI 对于实验的定量设计来反向补充数据库,以及探索更多的规律,突破理性设计的瓶颈。