新冠病毒自爆发以来,由于其溯源工作受到了众所周知的困难,因此也给了不少阴谋论以滋生的土壤。诸如“新冠病毒是整合了HIV形成的”啦、“新冠病毒是人工合成的”的啦等等,不一而足。在我之前的公众号文章中都有对这些谣言的剖析和说明。

当然,谣言总是如蘑菇一般裹挟着裹挟着某些人的意志,改头换面再次滋生出来。比如这两天又有一个“爆炸性”的“新闻”出现:新冠病毒是国际疫苗巨头、美国莫德纳公司制造出来的!美帝生产疫苗的厂家先释放病毒,自己再制作贩卖疫苗赚大钱,怎么听着那么满满具有动机呢?头脑内立马脑补一万字小作文的干活!

网络传言

但是,事实真的如此么?

这条微博引用的报道是英国的THE EXPOSE,原文链接:https://dailyexpose.uk/2022/03/03/evidence-confirms-moderna-created-covid-19/。这个媒体的评价不是我讨论的内容,不过各位可以搜索下这个媒体的口碑。原文很长,后面大段是十分耸人听闻(且情节跌宕起伏)的类似故事会的描述(比如引用圣经的内容来印证“病毒通过武汉军运会进行传播”)。

THE EXPOSE中引用圣经内容作为新冠病毒传播的理由

真正有点干货的前半段,其内容主要是解释了一篇论文《MSH3 Homology and Potential Recombination Link to SARS-CoV-2 Furin Cleavage Site》。该论文于2022年2月发表于《Frontiers in Virology》上。很遗憾的是,我没有找到这个期刊的影响因子。

那么我们来分析这篇论文。这篇论文提出了三个观点:

1、编码新冠病毒特有的furin酶切位点(FCS)的核酸序列十分罕见。

2、编码这一段由19个碱基组成的FCS的核酸序列存在于莫德纳公司2006年申请的一个专利中记录的蛋白序列中。

3、这段19nt序列自发的出现在蛋白编码序列中的概率极低。

因此得出的结论是:新冠病毒中的这段序列是从莫纳德的这个蛋白编码序列中重组获得的。

那么,我们来看看这三个观点是否站得住脚。

在论文中,作者明确指出:这一段19nt的序列在BLAST数据库中很少见。

BLAST是人人可以做的。二话不说,打开NCBI,直接将序列贴进去做BLAST。结果呢?嗯,如图:

使用19nt序列进行blastn的结果,结果有上百个

咦,怎么和论文说的不一样?包含这一段19nt碱基序列的基因序列不要太多啊。在给出的结果中,前面几个是人工构建的用于研究的新冠病毒ORF1ab序列,包含FCS序列是自然而然的事情,但是还有其他很多和新冠病毒无关的序列,也完美存在这一19nt序列。

有些物种还包括不止一段这19nt(包括核心12nt)序列。例如图中所示的Amycolatopsis(拟无枝酸菌)就有好几段此种序列。

拟无枝酸菌也有完美匹配19nt序列,这样的例子还有很多

事实上,furin酶切位点是一个十分常见的蛋白酶酶切位点,是翻译后蛋白质成熟修饰的一个步骤,具有一定的生物学功能,因此很多真核生物的多种蛋白质都具有这一位点。其核心氨基酸残基就4个,对应12个核苷酸,加上头尾19nt的长度要命中很容易。因此说,所谓“这段序列很罕见”,本质源于作者有意或无意的错误BLAST。

此外,考虑到FCS是蛋白质序列,而用于比对的是其编码的核心序列,因此在一些并不存在FCS的蛋白质的编码基因中,由于读码框错位,同样会存在一样的19nt序列,只不过它并不生成FCS而已。如此高的出现概率,那么出现在一些申请专利的蛋白质编码序列中也并不难理解。

读码框错位可以获得完全不同的蛋白质序列,同样是CUCCUCGGCGGGCACGUAG,只有在正向的Frame3下才能翻译得到PRRA的FCS

我们回过头来看看论文作者如宝贝一般命中的那个莫德纳专利文件。该专利编号US-9587003-B2,随便一个搜索网站都能搜到原文(链接:https://pubchem.ncbi.nlm.nih.gov/patent/US-9587003-B2 )。专利文件很长,标题很明确:用于生产肿瘤相关蛋白和多肽的修饰多核苷酸。

这个申请其实是一个比较典型的用于原料保护的文件。也就是说,莫德纳公司研发出了很多能够用来表达肿瘤相关蛋白的核酸,为了生产效率、便于研究等目的对这些核酸进行了一定的修饰,而不是原始核酸,这就凝结了研发人员的劳动,因此需要用专利进行保护。

论文中BLAST命中的这个蛋白质,就是专利中提到的一个蛋白:MSH3(人MutS同源蛋白3)。这个蛋白家族成员具有DNA修复功能,据研究报道还具有介导淋巴细胞对肿瘤细胞进行杀伤的功能,因此被作为研究对象很正常。

序列号11625

事实上,通过对比还可以看到,莫德纳公司的这个MSH3蛋白序列,本身并不存在FCS,因为那段FCS的序列在其反向互补片段上。

那么综合上面的信息我们可以知道,这篇论文的作者拿了一个来自新冠病毒的FCS序列去(错误的)BLAST一下,命中了一个莫德纳公司申请专利的蛋白的编码序列(的反向互补序列),然后就宣称新冠病毒的这段序列来自于莫德纳。

还可以这么玩?我心里奔过一万头羊驼。

当然,论文作者为了进一步暗示“新冠病毒的FCS来自于莫德纳的序列”,还进行了一番数学计算,来论证“这段19nt序列自发的出现在蛋白编码序列中的概率极低。”

 

论文的fig2,求数学好的好好解释下

实话实说,我研究了半天,没看出来他们这个算法具有什么生物学意义。例如,P1的解释是“19个核苷酸的序列出现在30000nt长的基因组”的概率。1/4的19次方很好理解,19nt的序列随机组合出现一个确定序列的概率,但是乘以30000-18就很难理解了,是想说这19nt序列可在29982个碱基中插入的位置么?总之,生物学意义不明,最后算出的3.21×10-11同样意义不明——没有这么算的。

但搞笑的一点是,3.21×10-11算下来是三千二百一十亿分之一,结果THE EXPOSE的报道以及国内自媒体转的都成了“三万亿(3 trillion)分之一”。嗯,就是这么回事。

千亿变万亿

但事实上,从上面的描述,以及生物学过程可以看到,FCS序列,以及和其相似的序列,其实广泛存在于自然界的生物体中,而更重要的是,FCS具有生物学功能,因此会选择被固定下来,进而随着生物的繁殖而扩展,这就是FCS多见的原因。文章的作者假定这段序列为随机产生、并随机插入MSH3中,得到了一个极小的概率(并且这个概率的计算方式问题很大),就认为这段序列是人工产生的,这就好比因为人的眼睛是由细致的结构精密组合起来,总体随机形成概率很小,就认为眼睛就是人工制造的一样。这是生物学中的典型谬误。

综上,我们可以得出结论:

1、无论是BLAST结果,还是已有的生物学研究都表明,FCS广泛存在于生物界中,并且新冠病毒中的19nt序列(核心12nt)序列同样存在于生物界中。

2、错误的BLAST命中了莫德纳公专利的MSH3序列,这属于先开枪再画靶子。

3、概率计算方式并无意义。

因此,这篇“论文”的三个基础点是完全不牢靠的,那么基于这篇论文的结论也可想而知。

病毒起源是一个科学问题,而且在纷繁的当下,更要脚踏实地的做好每一步工作,这不仅是对我们负责,更是对后代的负责——只有科学明晰的来源,才能更好的防控疫情,以及应对可能发生的新的疫情。而付诸谣言和阴谋论,最终只能加大裂痕,并让自身更为盲目。更不要提目前有效的疫苗是对抗疫情,以及在可预见的未来尽可能恢复正常生产生活最为有效的途径。如此妖魔化疫苗,受害的还将是自己。这样的教训,已经很多了。

—————————————分割线——————————————

我还注意到,这篇文章的编辑和审稿人都是中国人。确切的说,是中国农业科学院、哈尔滨兽医研究所、牛羊传染病创新团队的尹鑫研究员和常继涛副研究员。其实我很想询问二位如何看待自己作为编辑和审稿人的文章。当然,这个课题组研究的课题,要是套用一些人的逻辑,估计也会成为“中国研发生物wq”的“理由吧~