爱游戏登录

中文|English

010-51581369/82113221

产品信息

爱游戏大厅app下载

北京总部

电话:010-51581369

上海办事处

电话:13917930412

广州办事处

电话:18911603738

青岛办事处

电话:18669721765

天津办事处

电话:18920376175

武汉办事处

电话:13476191662

成都办事处

电话:17313116388

南京办事处

电话:13641800054

西安办事处

电话:13201540808

石家庄办事处

电话:13693073503

合肥办事处

电话:18905696823

杭州办事处

电话:18106759709

重庆办事处

电话:15340558405

  • 再造一个英伟达?黄仁勋如何看待生物学与AI大模型的

  • 发布时间:2024-02-28 05:00:08
    来源:爱游戏登录入口 作者:爱游戏大厅app下载

      在他的描绘中,未来生物学(或者说以生物学为基础的学科)会像传统行业(比如汽车和软件)那样高度工程化。

      为了避免误解,我们先统一认识。生物学不是没有工程,本文不讨论原有工程,只聚焦科学转变为工程。

      蛋白质结构是决定其功能的关键因素,了解蛋白质结构以便理解蛋白质功能,或者反过来,已知蛋白质功能设计蛋白质。

      比如,药物筛选,了解蛋白质结构可以帮助筛选出更有效的药物候选物,缩短药物研发周期。再比如,抗体药物设计,已知抗原结构特征,设计能和该抗原稳定结合的抗体。

      这些“已知信息”主要来自于实验室,方法包括X射线晶体学、电子显微镜和核磁共振等成像技术。AlphaFold是谷歌DeepMind团队开发的一种蛋白质结构预测系统。根据蛋白质的氨基酸序列预测其三维结构。

      AlphaFold软件用到当时很新且很厉害的算法(MSA)。重点是对这些序列进行比对,找到氨基酸序列相似的蛋白质;进而推测未知结构蛋白质的结构。

      打个比方,一个蛋白质和它结构相似的蛋白质多,好比“兄弟姐妹”多,这时候MSA算法的效果就好。这样一种“靠亲戚”的算法,对孤儿蛋白(orphan proteins)的预测准确度就比较低。

      早在2020年,AlphaFold2展现出优秀的预测能力,预测精度达到与实验方法相当的水平。AlphaFold2一顿猛干,从问世之时一直干到2022年7月,就把地球上几乎所有的2.14亿种蛋白质结构都做了预测,这18个月的成果是人类历史工作量的好几百倍。

      第三个台阶是David Baker(大卫·贝克)实验室的成果ProteinMPNN迈上去的。

      这位生于1962年的老教授,想必头发也有些花白了吧,我欣赏那种用尽毕生精力只为做成一件事的科学家。

      David Baker(大卫·贝克)开创了预测和设计蛋白质三维结构的方法,称赞其为“蛋白质设计”领域的行业领军人物,实至名归。

      我断断续续地观察他们团队好几年了,每每写这个领域,就不得不感慨,这团队又为行业做了不少好事。

      再反观David Baker(大卫·贝克)团队,论文高产似母鸡,专利收割机。仅仅是一个实验室的成果,完全可以拿出来和谷歌内部这个方向的团队PK,我相信这种良性竞争是“推动行业进步的催化剂”。

      于是,2022年9月,David Baker(大卫·贝克)实验室拿出来一种蛋白质设计方法ProteinMPNN。

      教授的自我点评很关键,他说:“AlphaFold是预测蛋白质结构,而ProteinMPNN的作用是设计蛋白质。”

      第二,ProGen可跨越不同蛋白质家族生成功能性蛋白质序列。这意味着它们可以用于开发新的药物和治疗方法。

      AlphaFold 2证明大语言模型常用的Transformer架构在蛋白质结构预测中很有效,ProGen则证明了大语言模型在蛋白质设计任务中也可以承担重要角色。

      在MindSpore软件上,部署有计算生物领域套件,这个名为MindSpore SPONGE的是生物计算的分子模拟工具。

      基于此工具,他们团队联合昌平实验室等科研机构完成了蛋白质折叠的训练与推理全流程(MEGA-Fold),同时还通过算法创新(MEGA-EvoGen)解决了孤儿序列结构预测的问题,并在全球持续蛋白质结构预测竞赛CAMEO中取得连续三次霸榜的好成绩。

      可以换个角度这么想,几十个氨基酸或者几千个氨基酸可以组成一个蛋白质,蛋白质有几亿种。英文字母组成单词,英语语言表达的意思也有上亿种。

      大语言模型生成的原理是预测下一个词,简单点说就是成语接龙,只要不断电,机器能一直接下去。当你理解了大语言模型预测下一个词的方法,再把蛋白质看成一种语言。

      第一,将蛋白质结构表示为一个序列,蛋白质结构可以表示为一个氨基酸序列,这与文本中的单词序列类似;

      第二,大语言模型学习语言中的上下文关系,并预测下一个单词,这与预测蛋白质结构中的下一个氨基酸原理类似。”

      简单讲,ProGen算法的大致步骤如下:1.将蛋白质表示为一个氨基酸序列;2.用模型来预测下一个氨基酸;3.重复步骤2,直到生成完整的蛋白质。

      2023年初的ProGen作为一个语言模型,参数规模并不大,只有12亿。对比2022年末,元宇宙公司Meta的模型(ESM-2)有150亿参数,参数大了10倍。紧接着2023中,百图生科也推出了一个又大一个数量级的蛋白质语言模型(xTrimoPGLM),具备1000亿参数。

      第五个台阶还是David Baker(大卫·贝克)实验室的成果迈上去的,他们团队线月,他们实验室拿出了成果RFdiffusion,该模型能够定制化设计蛋白质。这一重要进展,既有潜力,也有挑战。

      于璠博士的观点认为,大模型的威力并没有完全释放,随着模型通用性能力的提升,生物领域也会受益。

      他谈道:“从技术角度,可以把AlphaFold2理解为专有模型,擅长蛋白质结构预测这种单一任务,就好比机器翻译模型,擅长翻译;引入语言模型的成功,代表着一种呼之欲出的趋势,把预训练大模型做好,下游很多生命科学方向的任务都能被统一解决。”

      未来,生物领域的科学发现转变为工程,比如蛋白质发现,变成蛋白质工程。他这种观点,在小范围内引起了一些讨论,但尚未引起广泛关注。

      比起同学科的博士,她在专注于脑启发式计算、类脑计算之外,又投身于大语言模型事业。她目前在研究将类脑的原理用于创新大模型结构。

      她这样告诉我:“今天的计算机产业,规模大,分工细,从芯片到计算机体系结构,从硬件到软件。计算机产业依靠扎实的基础性发明奠定基础。那些半导体奠基人或者说诺贝尔物理学奖获得者的工作居功至伟,是典型的科学工作。而大部分软件从业者所做的相关工作是工程。

      黄仁勋迪拜对话中这一小段话的意思是说,生命科学还处在发现生物世界本身规律的阶段,人类还没有进入生命科学蓬勃发展并创造出有巨大影响力且实用的东西的时期;

      我接着问周芃博士:“能不能这样理解,未来会有一套计算机硬件、软件、系统、应用,基于生物所启发创造专用,进而再发展出一个生物的工程系统?”

      我更进一步地问:“甚至,生物专有芯片,从研究到应用,全套围绕生物,甚至整个计算机软件栈全部都基于生命科学重新设计一套?”

      或者说,不限于蛋白质结构,这个软件能对生命科学里面涉及到的属性做模拟,预测,和设计。想用什么属性,都可以。

      未来,除了单个分子层面的“模拟”和“预测”,我们将能“看到”越来越多的分子相互作用,细胞,细胞相互作用,组织器官,甚至生物个体层面的“模拟”和“预测”软件或AI模型。

      “我们现在还在起步阶段,很多论文发表在《自然》《科学》杂志上,代表着一种新思想的涌现。当下,模型的预测准确率也需要新的突破。”他补充到。

      未来多种任务统一的通用生物大模型会有更大威力。百图生科做了一个1000亿参数的模型解读蛋白质,融合了蛋白质理解和生成两大类不同任务。

      每次,我和宋教授交流,都感觉被前沿信息冲击了一把,如果不仔细思考,很容易理解不透彻。在交谈中,他还多次鼓励我,启发我:“你想象一下……”

      公司( Isomorphic Labs)的目标不仅仅是使用 AlphaFold 进行蛋白质结构预测,而是要更进一步,参与整个药物发现的过程。

      翻译过来:“距离AI参与整个药物发现过程,还需要6个AlphaFold 级别的重大技术突破。”

      有一位云厂商的销售老总告诉我,有家基因公司,实力强劲。结果,该公司上云的几行代码,放眼整个公司没有人会写,最后他只好自己上手了,幸亏他有编程背景。

      质疑永远有意义,而像我这样的科技记录者和观察者,预判错误是家常便饭。我认为错误与否并不最重要,而是观察和推论的过程里,我有收获,读者也有收获。

      按照David Baker(大卫·贝克)教授的判断:“如果你能完全按照第一性原理设计蛋白质,你就可以解决当今人类面临的许多问题——在医学方面,也在材料和能源方面。”

      在他的描绘中,未来生物学(或者说以生物学为基础的学科)会像传统行业(比如汽车和软件)那样高度工程化。

      为了避免误解,我们先统一认识。生物学不是没有工程,本文不讨论原有工程,只聚焦科学转变为工程。

      蛋白质结构是决定其功能的关键因素,了解蛋白质结构以便理解蛋白质功能,或者反过来,已知蛋白质功能设计蛋白质。

      比如,药物筛选,了解蛋白质结构可以帮助筛选出更有效的药物候选物,缩短药物研发周期。再比如,抗体药物设计,已知抗原结构特征,设计能和该抗原稳定结合的抗体。

      这些“已知信息”主要来自于实验室,方法包括X射线晶体学、电子显微镜和核磁共振等成像技术。AlphaFold是谷歌DeepMind团队开发的一种蛋白质结构预测系统。根据蛋白质的氨基酸序列预测其三维结构。

      AlphaFold软件用到当时很新且很厉害的算法(MSA)。重点是对这些序列进行比对,找到氨基酸序列相似的蛋白质;进而推测未知结构蛋白质的结构。

      打个比方,一个蛋白质和它结构相似的蛋白质多,好比“兄弟姐妹”多,这时候MSA算法的效果就好。这样一种“靠亲戚”的算法,对孤儿蛋白(orphan proteins)的预测准确度就比较低。

      早在2020年,AlphaFold2展现出优秀的预测能力,预测精度达到与实验方法相当的水平。AlphaFold2一顿猛干,从问世之时一直干到2022年7月,就把地球上几乎所有的2.14亿种蛋白质结构都做了预测,这18个月的成果是人类历史工作量的好几百倍。

      第三个台阶是David Baker(大卫·贝克)实验室的成果ProteinMPNN迈上去的。

      这位生于1962年的老教授,想必头发也有些花白了吧,我欣赏那种用尽毕生精力只为做成一件事的科学家。

      David Baker(大卫·贝克)开创了预测和设计蛋白质三维结构的方法,称赞其为“蛋白质设计”领域的行业领军人物,实至名归。

      我断断续续地观察他们团队好几年了,每每写这个领域,就不得不感慨,这团队又为行业做了不少好事。

      再反观David Baker(大卫·贝克)团队,论文高产似母鸡,专利收割机。仅仅是一个实验室的成果,完全可以拿出来和谷歌内部这个方向的团队PK,我相信这种良性竞争是“推动行业进步的催化剂”。

      于是,2022年9月,David Baker(大卫·贝克)实验室拿出来一种蛋白质设计方法ProteinMPNN。

      教授的自我点评很关键,他说:“AlphaFold是预测蛋白质结构,而ProteinMPNN的作用是设计蛋白质。”

      第二,ProGen可跨越不同蛋白质家族生成功能性蛋白质序列。这意味着它们可以用于开发新的药物和治疗方法。

      AlphaFold 2证明大语言模型常用的Transformer架构在蛋白质结构预测中很有效,ProGen则证明了大语言模型在蛋白质设计任务中也可以承担重要角色。

      在MindSpore软件上,部署有计算生物领域套件,这个名为MindSpore SPONGE的是生物计算的分子模拟工具。

      基于此工具,他们团队联合昌平实验室等科研机构完成了蛋白质折叠的训练与推理全流程(MEGA-Fold),同时还通过算法创新(MEGA-EvoGen)解决了孤儿序列结构预测的问题,并在全球持续蛋白质结构预测竞赛CAMEO中取得连续三次霸榜的好成绩。

      可以换个角度这么想,几十个氨基酸或者几千个氨基酸可以组成一个蛋白质,蛋白质有几亿种。英文字母组成单词,英语语言表达的意思也有上亿种。

      大语言模型生成的原理是预测下一个词,简单点说就是成语接龙,只要不断电,机器能一直接下去。当你理解了大语言模型预测下一个词的方法,再把蛋白质看成一种语言。

      第一,将蛋白质结构表示为一个序列,蛋白质结构可以表示为一个氨基酸序列,这与文本中的单词序列类似;

      第二,大语言模型学习语言中的上下文关系,并预测下一个单词,这与预测蛋白质结构中的下一个氨基酸原理类似。”

      简单讲,ProGen算法的大致步骤如下:1.将蛋白质表示为一个氨基酸序列;2.用模型来预测下一个氨基酸;3.重复步骤2,直到生成完整的蛋白质。

      2023年初的ProGen作为一个语言模型,参数规模并不大,只有12亿。对比2022年末,元宇宙公司Meta的模型(ESM-2)有150亿参数,参数大了10倍。紧接着2023中,百图生科也推出了一个又大一个数量级的蛋白质语言模型(xTrimoPGLM),具备1000亿参数。

      第五个台阶还是David Baker(大卫·贝克)实验室的成果迈上去的,他们团队线月,他们实验室拿出了成果RFdiffusion,该模型能够定制化设计蛋白质。这一重要进展,既有潜力,也有挑战。

      于璠博士的观点认为,大模型的威力并没有完全释放,随着模型通用性能力的提升,生物领域也会受益。

      他谈道:“从技术角度,可以把AlphaFold2理解为专有模型,擅长蛋白质结构预测这种单一任务,就好比机器翻译模型,擅长翻译;引入语言模型的成功,代表着一种呼之欲出的趋势,把预训练大模型做好,下游很多生命科学方向的任务都能被统一解决。”

      未来,生物领域的科学发现转变为工程,比如蛋白质发现,变成蛋白质工程。他这种观点,在小范围内引起了一些讨论,但尚未引起广泛关注。

      比起同学科的博士,她在专注于脑启发式计算、类脑计算之外,又投身于大语言模型事业。她目前在研究将类脑的原理用于创新大模型结构。

      她这样告诉我:“今天的计算机产业,规模大,分工细,从芯片到计算机体系结构,从硬件到软件。计算机产业依靠扎实的基础性发明奠定基础。那些半导体奠基人或者说诺贝尔物理学奖获得者的工作居功至伟,是典型的科学工作。而大部分软件从业者所做的相关工作是工程。

      黄仁勋迪拜对话中这一小段话的意思是说,生命科学还处在发现生物世界本身规律的阶段,人类还没有进入生命科学蓬勃发展并创造出有巨大影响力且实用的东西的时期;

      我接着问周芃博士:“能不能这样理解,未来会有一套计算机硬件、软件、系统、应用,基于生物所启发创造专用,进而再发展出一个生物的工程系统?”

      我更进一步地问:“甚至,生物专有芯片,从研究到应用,全套围绕生物,甚至整个计算机软件栈全部都基于生命科学重新设计一套?”

      或者说,不限于蛋白质结构,这个软件能对生命科学里面涉及到的属性做模拟,预测,和设计。想用什么属性,都可以。

      未来,除了单个分子层面的“模拟”和“预测”,我们将能“看到”越来越多的分子相互作用,细胞,细胞相互作用,组织器官,甚至生物个体层面的“模拟”和“预测”软件或AI模型。

      “我们现在还在起步阶段,很多论文发表在《自然》《科学》杂志上,代表着一种新思想的涌现。当下,模型的预测准确率也需要新的突破。”他补充到。

      未来多种任务统一的通用生物大模型会有更大威力。百图生科做了一个1000亿参数的模型解读蛋白质,融合了蛋白质理解和生成两大类不同任务。

      每次,我和宋教授交流,都感觉被前沿信息冲击了一把,如果不仔细思考,很容易理解不透彻。在交谈中,他还多次鼓励我,启发我:“你想象一下……”

      公司( Isomorphic Labs)的目标不仅仅是使用 AlphaFold 进行蛋白质结构预测,而是要更进一步,参与整个药物发现的过程。

      翻译过来:“距离AI参与整个药物发现过程,还需要6个AlphaFold 级别的重大技术突破。”

      有一位云厂商的销售老总告诉我,有家基因公司,实力强劲。结果,该公司上云的几行代码,放眼整个公司没有人会写,最后他只好自己上手了,幸亏他有编程背景。

      质疑永远有意义,而像我这样的科技记录者和观察者,预判错误是家常便饭。我认为错误与否并不最重要,而是观察和推论的过程里,我有收获,读者也有收获。

      按照David Baker(大卫·贝克)教授的判断:“如果你能完全按照第一性原理设计蛋白质,你就可以解决当今人类面临的许多问题——在医学方面,也在材料和能源方面。”


    爱游戏登录
    上一篇:湖南专升本最难上岸的专业是什么?
    下一篇:IF:56!IJMS:“Macromolecule

地址:北京市海淀区北三环西路32号恒润中心1201     电话:010-51581369/82113221    传真:     爱游戏登录入口-游戏大厅app下载    备案/许可证编号为:京ICP备14000724号-25