中国生物工程学会会刊     创刊于2005年

位置:主页 > 技术与市场 >

工业生物技术——大数据时代工业酶的发掘、改造和利用

时间:2018-05-23来源:未知 点击:

从当今的生物信息大数据出发,提出有别于传统方法的工业酶挖掘新思 路。在此基础上结合最新研究成果,简要介绍几种典型工业酶的设计和改造 新策略。

随着资源、环境问题的日益加剧,可 持续发展已成为全社会的共同目标。当今 社会对“可持续发展”、“绿色化学”以 及“环境友好制造”的呼声越来越高。以 节能、降耗、减排和高效生产为目标,基 于工业酶催化剂的绿色制造过程也越来越 多地受到学术界和产业界的关注。微生物 基因组学、分子与结构生物学、生物信息 学及计算生物学等现代生物技术的迅猛发 展,为酶的分子设计、高效制备以及生产 应用提供了科学基础和技术支撑,使得更 多工业规模的生物催化合成成为可能。 大数据开启了一次重大的时代转

型,正在改变我们的生活和了解世界的 方式,同时也成为新发明和新服务的源 泉。在生物技术领域,由于测序技术成 本的大幅下跌,人们获得基因序列的速 度是10年前无法想象的。如何才能在最 短的时间内,从海量的基因数据资源中 迅速鉴别并获得工业上有用的目标酶基 因和活性酶蛋白?基因挖掘(genomic mining)就是根据催化特定反应的需要, 从文献中寻找相关酶的同源基因序列, 并以此作为基因探针,在基因组数据库 中进行序列比对,筛选获得同源酶的编 码信息,继而进行酶的批量异源表达和 高通量筛选,最终获得催化性能更优的 新型生物催化剂(1.0版)。随着结构生 物学的迅猛发展,人们对蛋白质结构的 认识逐步加深,加上基因组学和蛋白质 组学所提供的大量结构与功能信息,酶 的分子改造也从以往的随机突变,逐渐 发展到半理性或理性设计等更精准的方 法1 ,甚至可以利用计算机从头设计自然 界不存在的酶2 3 。总之,生物催化剂的 设计和制备已经变得越来越简单,从而 使得各行各业对特定酶的要求也变得更 加迫切和可行。

1 酶资源信息库

目前已有众多的数据库公布了酶的基因序列、蛋白质序列、蛋白质性质、蛋 白质结构等信息,首先简单介绍一下这些 可用于工业酶挖掘和改造的“大数据”。

1.1 酶基因序列库

根据基因组测序计划统计网站GOLD (http://www.genomesonline.org/)截止 到2016年1月9日的统计数据,已有7826 种生物的全基因组完成测序,有33 630 个全基因组测序项目在进行中;另有 626个宏基因组测序项目正在进行或已 完成。截止到2015年12月,美国国家 生物技术信息中心(NCBI)网站登记 的基因序列有1.89亿条,碱基数量累计 达到了2039亿对(http://www.ncbi.nlm. nih.gov/genbank/statistics)。而全基因 组鸟枪法测序数据库(whole genome shotgun, WGS)记录的来自个体和宏基 因组的序列已有3.17亿条,碱基数量累 计1.2978万亿对。在如此庞大的基因组 数据库中无疑包含着海量的工业酶基因 资源。

1.2 酶蛋白质信息库

根据Uniprot数据库(http://www. uniprot.org)的统计,截至2016年1月, 已有明确功能标注的蛋白质序列数目达 到55万条,未标注的蛋白质序列超过了 5527万条(表1),由此可知其中标注功 能的蛋白质仅占约1%,而绝大多数(约 99%)蛋白质的功能尚属未知,有待研 究解析。在已有明确功能标注的蛋白质 序列中,属于六大酶类的序列约有26.5万 条,其中 氧化还原酶3.9万条,转移酶9.1 万条,水解酶6.5万条,裂合酶2.4万条, 异构酶1.4万条,连接酶3.1万条。在未标 注功能的蛋白质中,被预测为六大酶类 的共约715.1万条,其中氧化还原酶172.3 万条,转移酶218.0万条,水解酶159.0万 条,裂合酶61.6万条,异构酶43.4万条, 连接酶60.8万条。其中每一类还有各种亚 类的统计,例如图1是预测的氧化还原酶 亚类的分布情况。

另外,Brenda (http://www.brendaenzymes. org)是一个用户友好的酶数据库(图2)。可以用目标酶的名字、酶学 委员会(EC)编号或者序列搜索,进 入与目标酶属于同一EC编号的酶数据 集,其中包含该酶的各种来源信息、 最适pH、最适温度、动力学参数、催 化反应和三维结构链接,甚至还有已 报道的突变体等信息。

1.3 酶结构数据库

根据蛋白质数据库PDB(http:// www.rcsb.org/pdb/home/home.do)统 计,截止到2015年12月,已公布的蛋 白质结构总数已达到114 741个,其 中绝大多数(102 306个,约89%)是 通过X射线衍射法获得的,其次是通 过核磁共振谱(11 145个,约10%) 和冷冻电镜法(926个,约1%)获 得。按六大 酶类分别统计,各类酶的 已知结构数总计60 443个,按Uniprot 名字删除重复和其突变体结构后总数 为6525个,占已标注酶蛋白质总数的 2.46%。六大酶类已有结构信息公开 的统计数据见表2,其中以水解酶、 转移酶和氧化还原酶这三类酶为主。 这些结构信息的公布,为蛋白质的结 构功能关系研究和理性设计改造提供 了重要信息。



2 基因挖掘策略

在笔者前一综述文章“后基因组 时代工业酶资源的挖掘和应用”(参见《生物产业技术》2011年01期)中已经 介绍,基因挖掘是一种后基因组时代更加 快速、高效地获取新酶的方法,它极大地 缩短了新酶的开发周期,从常规的2~3年 可缩短至2~3个月,甚至2~3周。下面具 体介绍几种酶的基因挖掘策略。

2.1 从已测序的微生物基因组中挖掘目 标酶基因

随着基因测序技术的飞速发展,越来 越多的微生物基因组被测序,其中有一部 分基因的开放阅读框所编码的酶潜在功能 已被预测,但可能未经实验证实;另有大 量开放阅读框所编码的酶信息仍未被注释 或实验研究。一方面可以直接将已注释的 假想酶基因进行克隆表达,并通过活力检 测来获得所需的候选生物催化剂;另一方 面还可通过对未注释酶的开放阅读框进行 比对分析,并与已报道类似酶的保守序列 进行比较,找到具有潜在功能的目标新酶 编码序列,进而通过克隆表达来获得结 构/功能全新的目标生物催化剂。后者的 风险相对较大(成功率较低),但创新性 更强,比较容易获得知识产权。

例如,倪燕等通过对Bacillus sp.的基因 组进行分析,发现其中有13个潜在的羰基 还原酶开放阅读框,通过对这些潜在的酶 基因进行克隆表达,发现其中一个酶 (FabG)能够将高浓度(620g/L)的2-羰 基-4-苯基丁酸乙酯高立体选择性地还原为 光学纯(S )-2-羟基-4-苯基丁酸乙酯(光 学纯度>99%)4 。另外一个还原酶(yueD) 则对4-氯-3-羰基丁酸乙酯表现出很高的催 化活性,通过在两相反应体系中进行分批补 料反应,浓度高达215 g/L(1.3mol/L)的底 物可被完全转化,产物(R)-4-氯-3-羟基 丁酸乙酯的得率和对映体光学纯度分别为 97.3%和99.6%5 。还有一个还原酶(YtbE) 能够耐受高浓度的邻氯苯甲酰甲酸甲酯, 并将500g/L的底物完全转化为光学纯 (R)-邻氯扁桃酸甲酯6 ,后者是世界第二 大畅销药氯吡格雷的关键手性中间体。

2.2 基于探针酶序列的基因挖掘

当催化某类反应的相关酶(或多肽) 基因序列已有文献报道后,就可以利用 此序列作为基因探针(或称模板)在公 共基因组数据库中进行检索,找到与探针序列具有一定同源性的候选酶基 因,进而根据检索到的基因序列设计 引物,利用PCR扩增法获得编码这些 酶的DNA,并将它们进行克隆表达, 最后通过目标底物进行活性筛选,即 可能获得所需要的具有特定催化功能 的生物催化剂(图3)。例如,笔者 所在实验室从基因组数据库中挑选、 规划了1000多种结构多样、功能各异 的醇脱氢酶/羰基还原酶(图4),目 前已经成功制备了600多种冻干酶制 剂,可以满足我国医药化工企业对部 分工业生物催化剂的定制服务需求。

最近,利用上述酶库为(R)-硫辛酸 生产企业量身定制的ε-羰基还原酶7 , 可高效催化还原330g/L的8-氯-6-羰基 辛酸乙酯,产物光学纯度>99%,已申 请国际专利(PCT/CN2015/073615), 并成功实现技术转移和产业化应用。 又如,为了寻找能够催化邻氯扁 桃腈水解制备邻氯扁桃酸的腈水解 酶,张陈胜等8 以扁桃腈水解酶基因的 保守序列为探针在基因数据库中进行比 对筛选,选取序列同源性在40%~70% 的基因进行克隆表达,并根据它们对 邻氯扁桃腈的活力和对映选择性进行筛选,最终获得的重组腈水解酶 能够耐受300mmol/L邻氯扁 桃腈,产物的得率和光学纯度 分别为94.5%和96.5%。



2.3 基于序列和结构信息

相结合的新酶基因挖掘 从已测序微生物基因组 中直接克隆酶的基因并进行 异源表达,或者基于探针酶 的序列在基因数据库中挖掘目标酶的 技术业已成熟并取得了较好的应用效 果,不过其前提条件是未知酶的功能已 经被预测注释,或者催化特定底物转化 的酶基因序列已经公开报道。然而, 针对某些特定的底物,仅仅基于催化 类似反应的酶的序列信息所挖掘得 到的酶,往往无法催化目标底物的转 化,或者虽能催化反应却不能达到预期 的效果。如果能将基因挖掘和结构分析 等相关信息结合起来,将有望显著提高 基因挖掘的效率。

由于转氨酶在有机合成领域具有 重要的应用,近年来这类酶受到越来 越多研究者的关注,然而大多数已报 道的转氨酶都是S -选择性的,而R-选 择性的转氨酶则非常少。德国Born scheuer等9 为了获得R -选择性的转氨 酶,首先对文献报道的S -选择性转氨 酶的结构进行分析,找到可将S -选择 性转氨酶转变为R-选择性转氨酶所需 要的突变位点和替代氨基酸,根据这 些相关信息在基因数据库中搜索已经 含有这些氨基酸突变位点的基因序 列,将这些潜在的目标酶基因在大肠 杆菌中进行克隆表达,并基于对目标 底物的催化效果进行筛选,最终得到 17个能催化合成一系列(R)-胺的R- 选择性转氨酶,产物的对映体过量值 达到99%以上。 Seffernick等10为了获得具有特定 底物专一性的腈水解酶,首先将文献报道的142条腈水解酶的基因序列进 行筛除,先把同源性90%以上的基因 序列排除掉,然后将剩余的基因序列 在GenBank数据库中进行检索,找到 具有潜在腈水解酶催化活力的基因序 列,并重复进行基因序列筛除,直到 没有新的潜在腈水解酶序列被发现; 然后将所获得的212条序列一方面通 过序列比对进行分组,另一方面在 PDB数据库中进行搜索,把序列比对 结果和结构搜索结果关联起来, 找到 催化反应的保守氨基酸残基和结合特 定底物的活性位点氨基酸残基,最终 获得了一系列具有高度底物专一性的 腈水解酶。

2.4 计算介导的基因挖掘 在构建非天然长链醇的生物合成 途径中,Siegel等提供了一种新的生 物信息学和分子模拟相结合的功能酶 基因组挖掘方法11。通过这种计算介 导的基因挖掘方法获得的酶GEO175 是常规筛选所得酶活力的75倍,该计 算介导的基因组功能酶挖掘新方法如 图5所示,包括以下几个步骤:①通 过序列比对得到2082个酮异戊酸脱羧 酶(KIVD)的同源酶(genomic enzyme orthologues,GEOs),剔除 彼此同源性大于90%及真核来源的 GEOs,以增加候选酶在大肠杆菌中 的可溶性表达概率; ② 用Rosetta Comparative Modeling同源建模,用 TMalign算法进一步筛选后共获得239 个GEOs,这239个序列间同源性约 20%;③将这239个GEOs与C8底物进 行分子对接,显示GEO175酶的界面能 (interface energy)最低,即最有可 能催化C8底物;④根据界面能及同源 性高低,挑选10个GEOs进行动力学 表征,结果6个酶获得了可溶蛋白,3 个酶对酮酸具有可检测的活性。



3 酶的分子改造策略
 

近年来,随着现代生物科学尤其 是结构生物学的快速发展,定向进化 与理性设计相结合的半理性分子设计 方法陆续出现(图6),例如对邻近有 限位点进行组合随机突变的CASTing 方法、QSAR、外显子改组等。大 量计算方法如ProSAR、SCHEMA、 Rosseta等的应用,大大提高了突变体 设计分析的效率和准确性。同时,在 突变体文库的构建方面也出现了迭代 饱和突变、简化密码子表、基于简并 密码子的限制性文库方法等。这些技 术在增加酶的底物多样性和改变酶的 各种性能方面已获得许多成功应用。

在酶的分子改造中最具代表性的 案例之一,是糖尿病药物西他列汀合 成用酶的分子改造。基于蛋白质结 构,通过分子模拟和点饱和突变对节 杆菌转氨酶进行重新设计,最终通过 多轮特定环境下的定向进化所获得的 突变酶有27个突变位点,具有较广的 底物适应范围、较高的活性和很强的 环境耐受能力(反应温度45~50℃、 50% DMSO、底物浓度200g/L),而 传统的定向进化方法几乎不可能得到 具备如此多性能优势的酶。该酶替代 了原有工艺中的贵金属钌催化剂,解 决了高压生产过程的危险性和高成本等问题,使现有设备的生产能力提高 56%,反应产率提高10%~13%,废 物的产生量降低了19%12 。Merck和 Codexis公司也因此获得了2010年美国 总统绿色化学挑战奖。

另一典型案例是碳酸酐酶的分子 改造。为了解决气候变暖的问题,需 要处理工业尾气中的CO2,碳酸酐酶 可显著提高CO2的捕集效率,但其应 用仍受限于工业苛刻条件下酶的稳定 性。Alvizo等13采用定向进化技术,结 合高通量筛选和ProSAR,分析识别 有益突变点和饱和突变等策略,通过 多轮突变获得的突变体可以耐受极端 高温(107℃)和碱性条件(4.2 mol/L 碱性胺溶剂、pH >10.0),比天然酶 的稳定性提高了4 000 000倍。在工业 示范规模下,利用这一突变酶CO2的 捕集效率提高了25倍。最近澳大利亚 科学家通过理性设计改变碳酸酐酶Ⅱ 表面的18个氨基酸残基获得高度耐盐 的酶变体,在高盐条件下(>3mol/L 钠盐)其催化活性和解折叠温度,比 野生酶明显增加。分子动力学计算表 明,酶与钠离子形成高度有序的钠离 子水化层,对酶在高盐环境中的稳定 性起关键作用。这是首次通过改造普 通酶而获得极端酶的耐受性,类似的 策略对于生物催化剂的耐受性改造具 有参考意义14。

笔者所在实验室前期筛选获得的 巨大芽孢杆环氧水解酶BmEH,能催 化苯基环氧底物制备β -阻断剂等药 物的手性环氧中间体,但当苯环上带 有大位阻取代基时,酶的催化活力则 变得很低(<1%),从而成为制约该酶产业化应用的一大瓶颈问题。为了 解决上述BmEH工业化应用的难题, 笔者所在实验室首先解析了该酶与底 物类似物的复合物晶体结构,发现3 个位点存在底物类似物,其中Zone 2 被确定为催化反应位点,Zone 1为底 物进入通道,Zone 3为假定的释放产 物通道,但它在野生酶分子中被大位 阻氨基酸(Met145,Phe128)所阻 塞。通过将两个关键的界面氨基酸突 变为体积较小的丙氨酸,即拓展了 Zone 3的产物通道,所得突变酶催化 大位阻萘基底物的活力提高近900 倍,从而证实了笔者提出的“产物释 放通道”假说15(图7)。在了解环氧 水解酶底物进入、催化反应及产物释 放机理的基础上,笔者进一步针对底 物结合位点周围的氨基酸设计了小巧 的半饱和突变库,并利用一系列临床 上有用的大位阻底物进行活力筛选, 最终达到每一种底物都能找到高活力 突变体的目的16(图8)。最终,利用定 点突变所获得的环氧水解酶突变体,成 功实现了一系列大位阻β-阻断剂药物环 氧中间体的酶促水解拆分,并制备获得了一系列洛尔类心血管药物的关键手性 中间体。这一成果受到《Synfacts》期 刊特邀专家的亮点评述17,指出作者通 过活性中心两个关键位点的微调,极大 地拓展了酶的底物谱,建立了高效的环 氧水解拆分反应途径。

现代农业由于过量使用有机磷农 药给食品安全和环境净化带来很大挑 战。有机磷水解酶OPHC2是β -内酰 胺酶家族的一员,但是关于它在自然 进化过程中是如何获得磷酸三酯水解 活力的问题,目前尚未有任何报道。 为了探索其所催化各种反应之间的内 在进化关系,笔者所在实验室以食油 假单胞菌中的有机磷水解酶PoOPH为 研究对象,该酶具有很高的酯酶和内 酯酶活力,但仅有很低的磷酸三酯水 解活力。通过多序列比对分析发现, 活性口袋周围250位的组氨酸和263位 的异亮氨酸在所有的有机磷水解酶中 高度保守,因此笔者推测这两个氨基 酸对该类酶的催化活力和底物专一性 具有关键作用。基于此,笔者构建了 这两个位点的定点饱和突变库,并分 别考察了它们的酯酶、内酯酶和磷酸 三酯酶活力,结果表明:将这两个位 点的氨基酸突变为其他类型的氨基酸 均会显著降低原有的酯酶和内酯酶活 力,而本来极低的磷酸三酯酶活力则 获得显著的提升18。特别值得一提的 是,双突变体H250I/I263W催化甲基 对硫磷和乙基对氧磷的水解活力比野 生酶分别提高了6962倍和106倍,而 其原有的酯酶和内酯酶活力却显著降 低,酶的底物专一性发生了107倍的 逆转。



4 展 望

2015年7月,美通社在线发布 《2014年全球工业酶行业研究报告及未 来三年预测》。近年来,全球工业酶制 剂市场规模逐年增加,年产值增长率 为5%,2014年已达42.2亿美元的规模。 目前,全球工业酶市场基本上是寡头垄 断。在2014年,诺维信作为工业用酶巨头,占据了44%的市场份额;而杜邦公 司和DSM分别占据20%和6%的市场份 额。全球各地区需求呈现较大差异,欧 洲和北美地区对工业酶的需求量最大, 占据80%,而中国仅占9.4%。 在市场需求扩大和政策利好的 双重刺激下,2014年中国的工业酶制 剂产量已达116.57万吨并保持10%年 产量增长趋势,预计2017年产量将达 到154.87吨。通过引进国外先进的设 备、优良的菌株以及新型酶制剂的开 发,中国已开始进入酶制剂工业的快 速发展期。但在酶制剂研发的原始创 新方面尚有一定差距,多数企业的自 主开发能力还十分有限。

若能抓住当今大数据、互联网+ 的时代机遇,充分利用好全球共享共 用的生物信息资源,掌握工业酶设计 和改造的核心技术,并将之转化为具 有我国自主知识产权的工业酶实体资 源,则可望从源头上引领我国生物催 化学科的快速崛起,推进生物制造产 业的高起点和跨越式发展。