苏黎世联邦理工学院的研究人员可以预测细胞的蛋白质合成机制与RNA序列的结合程度,甚至可以处理数十亿个不同的RNA序列。这种结合在确定产生多少特定蛋白质中起关键作用。科学家正在使用合成生物学实验和机器学习算法的组合来开发他们的预测模型。
细菌,植物和人类的基因组测序已经成为常规过程,但是基因组仍然提出了许多未解决的问题。其中之一涉及信使RNA(mRNA)上与核糖体(负责蛋白质合成的细胞结构)结合以翻译遗传信息的位点。目前,仅部分了解这些核糖体结合位点的功能。
来自巴塞尔ETH苏黎世生物系统科学与工程学系(D-BSSE)的跨学科研究人员团队现在已经开发出一种新方法,该方法首次使人们有可能获得大量此类信息的详细信息。细菌中的结合位点。新方法将合成生物学的实验方法与机器学习相结合。
精确控制蛋白质生产
核糖体结合位点是基因编码序列上游的短RNA序列。过去,生物技术人员还开发了合成结合位点。核糖体与其中一些的结合非常好,而与其他结合的则不太好。核糖体能与特定变体结合的越紧密,它们翻译各自基因的频率就越高,它们产生的相应蛋白质的数量就越大。
使用细菌产生感兴趣的化学物质(例如药物)的生物技术人员可以通过选择核糖体结合位点来影响细胞中涉及的蛋白质量。D的高级科学家兼小组负责人Markus Jeschek说:“在同时整合包含多种蛋白质的复杂基因网络时,施加这种控制尤为重要和有益。这里的关键是在不同蛋白质之间建立最佳平衡。”-BSSE。
包含300,000个序列的实验
Jeschek与ETH教授Yaakov Benenson和Karsten Borgwardt以及各自小组的成员一道,现已开发出一种方法,可在一次实验中确定核糖体与数十万或更多RNA序列结合的紧密程度。以前,这仅适用于几百个序列。
ETH研究人员的方法利用了深度测序技术,该技术是用于对DNA和RNA进行测序的最新技术。在实验室中,科学家们产生了300,000多种不同的合成核糖体结合位点,并将这些结合位点与一种修饰基因的酶基因融合在一起。他们将所得的基因构建体引入细菌中,以观察核糖体在每种情况下与RNA结合的紧密程度。结合位点的功能越好,细胞中产生的酶越多,靶DNA的改变就越快。在实验结束时,研究人员可以使用深度测序来读取此变化以及结合位点的RNA序列。
普遍适用的方法
由于300,000只代表数十亿个理论上可能的核糖体结合位点的一小部分,因此科学家使用机器学习算法分析了他们的数据。“这些算法可以检测大型数据集中的复杂模式。借助它们,我们可以预测核糖体与特定RNA序列的结合程度,”数据挖掘教授Karsten Borgwardt说。ETH研究人员已经免费提供了该预测模型作为软件,以便其他科学家可以使用它,并且他们很快还将引入易于使用的在线服务。
Benenson和Jeschek强调说,科学家们开发的方法具有普遍适用性,研究小组正计划将其扩展到其他生物,包括人类细胞。Benenson说:“我们也渴望发现遗传信息如何影响人类细胞中产生的蛋白质数量。”“这对于遗传疾病可能特别有用。”