点击联系客服
客服QQ: 客服微信:

中山老站长

 找回密码
 立即注册
查看: 741|回复: 50

下一个人类动物病毒是什么?AI预测18种“高潜力”病毒

[复制链接]

1

主题

1

帖子

-7

积分

限制会员

积分
-7
发表于 2021-9-30 20:00:53 | 显示全部楼层 |阅读模式
新冠病毒自 2019 年开始席卷全球,至今仍未完全结束。

今天,新冠疫情已经对人们的生产生活造成很大的干扰和破坏,新型新冠病毒只是越来越多的动物传染病病毒之一,新冠第一次动物共同病也不可能是最后一次。其他比较“有名”的人牲畜共同病也包括埃博拉、中东呼吸综合征、西尼罗河热、裂谷热等。

许多研究表明,由于人类活动的扩张和野生生态系统的破坏,某些疾病从动物传播到人类自身的概率会增加。近年来,大部分新的人类传染病,如COVID-19,是由人类和动物共同患有的——源自其他动物物种的病毒引起的,如果能早期识别这种高危病毒,可以改善相关研究和监测的重点,预计可以预防这种疾病今后的复发。

9月29日,英国格拉斯哥大学的研究人员在《PLOS  Biology》杂志上发表的一篇论文中介绍说,利用病毒基因组的机器学习技术(人工智能模型)可以预测所有动物病毒感染人类的可能性。这为评估人类和动物共同患病的潜力提供了新的工具。





图|在人类和动物共同疾病病毒监测工作中捕捉到的蝙蝠(来源:PLOS  Biology)

破解挑战的思路方法

在大概 167 万种动物病毒中,只有其中少数可能会感染人类。

现有的人类感染风险模型依赖于新发现的病毒未知的病毒表型信息(例如病毒可能感染的物种多样性)或病毒毒株的风险水平(例如细胞质的复制能力),这限制了讨论的病毒表型前的预测值。

研究人员目前大部分病毒都是通过靶基因组测序发现的,一般同时发现的很多表型数据都是有限的,所以请访问3358www.sina.com/

目前存在的模型可以识别基因组序列中充分表征的人类感染病毒,但通过对非常密切的相关病毒(即同一物种的毒株)的训练算法,可以忽略与感染能力相关的病毒基因组的次要特征。这种模式不太可能在病毒之间找到一般化的人畜共病状态信号。因此,预测可能对目前病毒多样性知识的很多偏差非常敏感。

经验和理论证据表明,病毒基因组中有可以概括的人类传染性信号。与各种动物宿主分类群相关的病毒,如灵长类动物、啮齿类动物,可以使用基因组构成的各个方面进行区分,如核苷酸、密码子、氨基酸偏差等。目前还不清楚这种病毒基因组的测定方式是否足以在物种层面区分宿主范围,但特异性可以通过几种常见的假设机制发生。

首先,对于病毒基因组中核苷酸碱基序列的抗病毒免疫,可以选择不同人类相关病毒中常见的突变。

其次,病毒基因组中特定密码子的频率一般与宿主频率相似,这可能是因为提高了mRNA翻译的效率和准确性。

最后,即使没有对不同病毒基因组施加共同选择压力的机制,病毒的系统发生依赖关系也可以预测人类传染性的可能性。因为一般假设密切相关的病毒有共同的表型和宿主范围。

以之前发表的报告为基础,以评估人类感染能力的大规模病毒数据集为基础,研究人员开发了机器学习模型3358www.sina.com/。

18 种病毒人畜共患潜力非常高

研究人员从包括动物感染物种在内的36个病毒家族的861个RNA和DNA病毒物种中收集代表性基因组序列,将每种病毒标记为可以感染人类,或者不使用发表的报告作为基本事实,对模型进行训练,对病毒进行适当分类。识别该资料中潜在未记录的人和动物的病是研究分析的先验目标。

他们首先评估了与人类感染病毒的亲缘关系能否提高人畜共病的可能性。梯度增强器(GBM)分类器可以训练根据序列相似性搜索确定的病毒分类学或近亲中人感染病毒的频率。





图片|在瓶子里
毒基因组中机器学习预测人类传染性(来源:PLOS Biology)

接下来,研究人员量化了根据基因组组成(即密码子使用偏差、氨基酸偏差和二核苷酸偏差)进行训练的 GBMs 性能,直接从病毒基因组(“病毒基因组特征”)或基于病毒基因组组成的相似性计算不同的人类基因转录本(“人类相似性特征”):干扰素诱导基因产物(ISG)、管家基因和所有其他基因。

此外,为了评估模型的敏感性和特异性,研究人员将来自袋装模型的人类感染预测概率的平均值转换为二元分类(即,人类感染与否),将预测概率 >0.293 的病毒预测为人类感染。这些二元预测正确地确定了 71.9% 的主要或完全感染人类的病毒,以及69.7%的人畜共患病毒为人类感染,尽管病毒家族之间的表现各不相同。

由于二元分类忽略了迭代之间的变异性和病毒相对于彼此的等级,研究人员又进一步将预测的人畜共患病概率转换为潜在的人畜共患病类别,根据该方案, 预计大多数(92%)已知的人类感染病毒具有中等(21.5%)、高(47.1%)或非常高(23.4%)的人畜共患潜力,而只有 8% 具有低人畜共患病潜力。



图|在训练数据中确定的推定未识别的人畜共患病(来源:PLOS Biology)

基于论文中模型的分析,目前共有 18 种病毒被认为具有非常高的人畜共患潜力,其中至少有 3 种(Aura virus, Ndumu virus, Uganda S virus)具有人类感染的血清学证据。在整个数据集中,77.2% 的预测具有非常高的人畜共患病潜力的病毒已知会感染人类。

值得关注的是,论文中提出的模型可以通过重建分类学,比系统发育邻域估计器更准确地进行预测,或者比基于分类学的模型更详细地进行预测。



图|人类感染病毒的基因组决定因素(来源:PLOS Biology)

尽管论文提出的模型分析并非旨在最终确定人类感染基因组预测因子的生物学机制,但仍然 能够探索特定基因组组成特征、以及特征组如何与人类传染性相关的新兴模式,研究人员进一步详细地探讨了单个特征对模型预测的影响。

最后,研究人员利用两个案例研究说明了该预测框架的实用性。

首先,研究人员使用基于基因组特征的组合模型对训练数据中不存在的 758 种病毒进行了排名,共有 70.8% 从人类采样的病毒被正确识别为具有非常高或高人畜共患病潜力,其余的人类相关病毒主要被归类为中等人畜共患病潜力,其中 3 个物种预测具有低人畜共患病潜力。

在从非人类动物或潜在载体样本测序的 645 种人类感染性未知的病毒中,45.0% 被预测具有非常高或高人畜共患病潜力,非常高的人畜共患病潜力类别以 Papillomaviridae(34.1%)和 Peribunyaviridae(19.5%)为主。



图|从病毒基因组预测的人类感染概率(来源:PLOS Biology)

此外,研究人员使用 beta 回归模型来探索人畜共患病潜力的预测如何在宿主和病毒组之间变化。

分析发现,从人类样本中测序的 113 种病毒物种的得分始终高于在其他宿主中检测到的那些。尽管来自蝙蝠、啮齿动物和偶蹄动物等被认为是高危宿主的病毒构成了保留数据的很大一部分(来自蝙蝠的病毒甚至超过了来自人类的病毒),但它们并没有提高预测的人畜共患病概率,并且在较高的宿主分类水平上没有检测到差异,这凸显了当前用于病毒发现/报告的采样工作与人畜共患病风险分布之间的潜在差异。



图|从冠状病毒基因组预测的人类感染概率(来源:PLOS Biology)

第二个案例研究,则使用了冠状病毒来探索基于基因组特征的组合模型区分同一家族内不同病毒物种和单个病毒物种内不同基因组的能力。研究人员预测了所有目前公认的冠状病毒物种以及 62 个人类和动物源性沙贝科病毒基因组的人畜共患病潜力,这些基因组目前都被国际病毒分类委员会(ICTV)归类为严重急性呼吸系统综合症(SARS)相关冠状病毒。

他们还发现了另外 2 种与动物相关的冠状病毒——Alphacoronavirus 1和最近描述的Sorex araneus 冠状病毒 T14——至少与已知的、高级的、感染人类的冠状病毒一样,或者更有可能感染人类,这些应被视为进一步研究的高度优先事项。

在模型分析结果中,大多数基因组(85.5%)被归类为具有中等人畜共患病潜力,然而,严重急性呼吸系统综合症冠状病毒 2(SARS-CoV-2)、来自蝙蝠的密切相关的病毒 RaTG13,以及所有5种密切相关的穿山甲相关分离物的检测结果都预测具有很高的人畜共患病潜力。

有望防疫情于未然
在一个以基因组为基础的病毒快速发现的时代,研究和监测活动的合理优先级一直是尚未解决的挑战。

而这项论文的研究结果表明, 病毒的人畜共患病潜力可以从其基因组序列中推断出来,可以回顾性或前瞻性地预测病毒能够感染人类的可能性,能为病毒研究和监测优先事项的决策提供信息,这在很大程度上提供了更先进的选择。

“这些发现为我们使用 AI 技术从病毒基因序列中提取大量信息提供了一个关键支撑。”论文的作者之一 Simon Babayan 说道,“基因组序列通常是我们掌握新发现病毒的第一个、通常也是唯一的信息,我们可以从中提取的信息越多,就能越早确定病毒的起源及其可能带来的人畜共患风险。随着更多病毒被表征,我们的机器学习模型在识别稀有病毒方面将变得更加有效,这些病毒应该受到密切监测并优先用于抢先疫苗开发。”

在只需要基因组序列时,研究人员的方法在人畜共患病风险评估的替代模型中具有定量和定性优势,不过,这种新的模型也有很多局限性,例如对病毒多样性的不完整知识可能导致在这种方法下完全错误的优先级。此外,使用来自每个病毒物种的单个示例基因组来最大限度地发现人类感染的普遍特征的可能性,虽能避免对新病毒过度乐观的性能指标,但这种方法的潜在缺点是忽略了尚未被 ICTV 正式认可的大量病毒的多样性。

从病毒风险评估的角度整体来看,当大多数其他风险因素数据仍然未知时,论文中提出的模型可以更早地利用纯粹基于基因组序列的模型,在病毒发现和基因组测序后立即识别许多潜在的人畜共患病,通过突出最有可能成为人畜共患病的病毒,可以做好进一步的生态和病毒学表征。

此外,研究人员还表示,应用新的模型之后,仍有相当多的病毒可能需要进行验证性测试,在进行重大的研究投资之前,这种需求仍会随着病毒的不断发现而增加。

2020 年 7 月,联合国环境规划署(UNEP)和国际畜牧研究所(ILRI)曾联合发布了一份名为《预防下一次大流行病:人畜共患疾病以及如何阻断传播链》的报告,在旧有经验的基础上,通过采取人类、动物和环境“一体化健康”方法,是遏制未来疾病的暴发的一种举措。

基于 AI 技术预测病毒传播的可能性固然值得肯定,但为了防止大规模疫情的频繁出现,我们也必须更加谨慎地保护我们的自然生态环境,从解决问题的根源做起。

参考资料:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3001390

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:库珀,。
回复

使用道具 举报

0

主题

614

帖子

-375

积分

限制会员

积分
-375
发表于 2021-9-30 20:00:58 | 显示全部楼层
我抢、我抢、我抢沙发~
回复

使用道具 举报

1

主题

592

帖子

-403

积分

限制会员

积分
-403
发表于 2021-9-30 20:20:59 | 显示全部楼层
写的真的很不错
回复

使用道具 举报

1

主题

603

帖子

-357

积分

限制会员

积分
-357
发表于 2021-9-30 20:41:19 | 显示全部楼层
难得一见的好帖
回复

使用道具 举报

1

主题

607

帖子

-316

积分

限制会员

积分
-316
发表于 2021-9-30 21:01:45 | 显示全部楼层
难得一见的好帖
回复

使用道具 举报

1

主题

654

帖子

-411

积分

限制会员

积分
-411
发表于 2021-9-30 21:21:48 | 显示全部楼层
帮你顶下哈!!
回复

使用道具 举报

0

主题

623

帖子

-326

积分

限制会员

积分
-326
发表于 2021-9-30 21:41:59 | 显示全部楼层
写的真的很不错
回复

使用道具 举报

1

主题

571

帖子

-328

积分

限制会员

积分
-328
发表于 2021-9-30 22:02:13 | 显示全部楼层
我是来刷分的,嘿嘿
回复

使用道具 举报

0

主题

598

帖子

-326

积分

限制会员

积分
-326
发表于 2021-9-30 22:22:57 | 显示全部楼层
沙发!沙发!
回复

使用道具 举报

0

主题

624

帖子

-403

积分

限制会员

积分
-403
发表于 2021-9-30 22:43:04 | 显示全部楼层
我是来刷分的,嘿嘿
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|无图版|手机版|小黑屋|中山@IT精英团

GMT+8, 2022-7-2 10:54 , Processed in 0.200775 second(s), 25 queries .

Powered by Discuz! X3.4

© 2020 Comsenz Inc.

快速回复 返回顶部 返回列表