Olga TROYANSKAYA:这是一个非常成熟的时机,可以有这样的计算生物学的发展,但是实际上对于计算医学也是一个非常棒的领域,这就是说并不是所有的问题都是可以因为大数据而得到解决,但是这样一个时代,基本上每一个单独的问题都有一些大数据的搜集都是相关的,而且更加关键的是在生物医学中某种程度上和我们思考的问题不一样,比如说包括自动驾驶等等的问题。我们有一个非常的有趣的问题,所有的生物知识掌握在生物学家那里的时候,这很关键,很多的数据从来没有被人发现过的数据集所带来的信息,实际上单独来看是显著的,但是我们知道没有任何一个非常聪明的生物学家发现实际上已经有了这么好的数据在那里,但是当我们去看的时候,不同的数据及当中一起会合的时候才能够发现它的强大的力量,我们实际上也经常问这样的问题,我也认为,这是非常关键的,对于任何一个我们的研究,我们都会去看新的数据,而且不仅仅是看我们一个小时所获得的数据,比如说正在做研究中的本身的数据,而是在这个数据中内涵的信息。也就是说它不仅仅是在数据当中的内容,也包括了他的背景知识,有一些是被发现的,有一些是没有被发现的知识和背景,生物学中AI,人工智能是可以得到应用的,按照他们之前的方式来做,也可以获得一些挑战,比如说如何更好的学习我们不会有太多数据的挑战,有一些如何获得原生数据,我们有一个挑战是非常有限的黄金准则,而且如何用这些黄金准则,和不同质量的黄金准则,我们也有很多的方式要对这些做法和技能进行调整,从而在生物学上得到应用。
Olga TROYANSKAYA:我同意刚才的见解,我想非常需要做的,促成的是通过精准研究来推进医疗,我们需要考虑到不同类型的数据,来进行推理,推进我们信息的共享,结果的共享,整个的共享,必须有一个基于数据的竞争形式。我们在基础科学中经常谈数据共享。对于医学也好,科学也好,都是非常重要的。如果我们看到整个的基因组的话,我们需要,无论从社会角度来说,结果角度来说,我想共享都是好处的,我们需要有更好的框架,它可以是一个社会型的,并不一定是计算型的框架。像药剂师,科学家,诊所,工作医生和其他领域的人一起来打造一个框架。
Olga TROYANSKAYA:我们从科学的角度来说,我觉得有非常大的挑战,现在我们讨论到,把大数据应用到竞争性的生物学之中,大家现在注意到我们讨论到分子,我希望这些方面在我们的实际中能够在很多的信号层面进行讨论,比如说我们有更多的药物进行研发。还有药物靶向方面进行更好的研究。不仅是由体内的卫士进行吸收。所有的这些问题,现在还不明确,我们还没有找到答案。我想在未来十年,这些都成为非常重要的研究课题和挑战。像分子生物学是一个非常重要的领域,我们应该不断的研究分子生物学。
Olga TROYANSKAYA:但是我觉得可能不是这样,因为如果现实来讲的话,有很多我所相信的事情精准也非常关键,真正能回应你的那一点,就是这样的假设不仅仅是对假设直接进行检测,还包括我们有没有什么缺失的,比如说数据推动的一种试验,我相信有很多的这些会更有这种吞吐量,更多的渗透力,而且包括了一些具体的基因也有可能会对于某一些免疫的疾病有所影响,或者是说我们去思考有哪些在生理上的现象的信息会带来一些更多的数据集,会专门针对那些基因和相应的效果来给我们一些解答。我相信如果我们这样拥有你刚才所说的那些事情的话会更加的精妙,但是没有那么大的可能性。
Olga TROYANSKAYA:因为我们合作的事情包括了这种网络一直在提升,但是我们说到细节的时候,我们都必须要有非常紧密的合作伙伴,因为现在有非常多的变量,非常多的容易去发现的一些事情,甚至是很多的分析,并不是我们以为所发现的,因为有很多的事情是相关的。我们要去说一说什么是最容易被发现的。你不应该对同样的事情重复的发现,所以信息会告诉我们,某种疾病也是这样的,很可能对于炎症疾病的发现,其他的地方也会发现,这对某一种肿瘤是相关的,我们要发现,虽然我们要小心一点,就是在做实施的时候,要很仔细避免这样的问题,但是我们要非常紧密的合作,有很多的合作伙伴都是在很早的时候就开始合作的了,而且我们可能也会去有一个通用的方法来应对这样的问题。但是我们也会与他们一起合作,确保对他们的问题和疾病以及在生物体系上带来帮助,所以在整个过程中非常紧密的进行合作。
Olga TROYANSKAYA:我们发现很多的时候,很多科学家解决我们数学上的问题,同时还有一些像网络的例子,我们有很多的方式是大家可以利用这个网络的,但是他们是不是可以去找一些基因,这些基因跟两个假设是非常相关的,比如说刚刚说的阿兹海默症等等的细胞型和其他的路径等等,我们发现多个试验会找到我们说我们有这样的系统,包括我们会有这样的15个基因等等,你会看到他们的网络,大家会共同说我们有五百多个基因,能不能告诉我们,为什么你要看五百多个基因的情况,结果有很多人真正希望能够看这些情况,希望通过这个解释他们的试验,然后他们会进行筛选,找到非常重要的一些基因,比如说对他们的生殖或者是老年化非常相关的基因,他们会看是不是有一些会有更高的可能性,或者是说降低生殖能力,随着时间变化有影响,他们会知道对于基因的总体的状况,他们有五百多个基因,但是没有一个非常连贯性的基因的关系,刚才我们的网络之后,就能够看到有一个子网络的出现,这是一个实在的例子,会告诉我们这有非常大的意义,这些基因会有自己的标的我们说好,我们的系统允许我们把五百多个基因放进去,这会引起我们的开发,这是竞争上的问题,如何才能够对五百个基因进行可视化,而且真正是有意义的,而不是刚刚大家看到的球,看起来不是非常的令人惊讶,但是目前来说没有什么意义,所以我们需要去看一下,那些正在用基因做这样的事情的人。但是我并不是说抱歉,这是非常必要的。
Olga TROYANSKAYA:您刚刚讲的深度学习模型非常有趣,有一点是怎么样运作的,我们并不是真正会去做他的机制的了解,而是用单独的基因组,当然了,并不是说任何的一个所做的测量的基因组,因为这些实际上有不同的。谁知道谁是谁的序列呢?但是,如果是,我们要这样去讲,学习的话,怎么样去预测,他真正学习的时候透过一个合理的基因组来做的,可能是有上千的一个非常大的数据库,那么在这样的一个基础之上,如果你们进行学习的话,那么它也包含了监督和非监督的方法,因为如果是非监督的话,就是突变的一些数据,但是如果得到了监督的话,在基因组当中,他主要是希望能够找到无论什么时候,我们看到突变,或者是说这样的一个标记物的时候,我们通常就会去跟A或者是T相关性,或者是说跟J有关系,这全部都是我自己编的,大家不用记下来,只是说这个道理。这样的话还有一些其他转路,左边又有一百多个点,这些跟他的序列变化相关,这些的话不仅仅是非常具体的碱基,而这些碱基和生物标记相关,还有他们之间有什么样的关系,所以要看到这个基因组之间的不同的关系。另外是我们实际上并不一定需要去说,因为它是自动的机器学习的过程。
Olga TROYANSKAYA:所以对于非监督的话,实际上并没有看到任何的突变的数据,这还是要分情况来看,比如说我们之前讨论过对于关键的部分,可能没有这些突变的数据,所以在学习的时候,大家看在单一的基因组之间的关系,我们看其他的基因组了,这是我们所做的事情,我们可以让他看基因组下面的内容,实际上可以让我们更好的去预测具体的疾病,而这个实际上之前所没有看到过的。当然现在我们这些数据也没有获得,但是我们实际上还是可以去预测的,因为我们也在学习,完全是跟基因组之间的关系来了解到的,以及不同的生物标志物之间的关系所带来的信息。但是关键的一点是不能够只是看这些突变的数据,因为你自己没有看到你所关注的基因突变。就是说有上千的人群,那最具有吸引力的,依然还是我们可以去预测的部分,这是正确方式。
Olga TROYANSKAYA:这是非常好的问题,第一个问题是关于组织的网络,这是得到监督的,所以我们做的事情,首先我们会用知识作为一个基础,比如说会有一个碱基分类,他所做的是通过分类可以知道哪些数据是相关的,比如说和大脑的网络相关,所以我们对于每一个组织都要赋职,看他的准确度,我们会预测50%都是可有网络的,但是我们现在没有足够的数据去获得碱基的数据。但是基本上大部分的都可以用数据来解决。所以如果说你的数据特别多的,就能够在各方面的表现更好,我们理想的情况是比如说我们需要一些例子,包括了他在生物学上的,在组织上的关系,这其中一个比如说有一种蛋白质,实际上具体的会进入到他的一个表达的开启,实际上这是一个神经元,这个数据非常小。所以我们所做的是我们觉得这是下一个最好的事情,因此这些路径到底总体上怎么样?所以如果你有一个生物学方面的书打开的话你会看到它有不同的流程和工艺来做,它还不是非常的完美,而实际上在一些不同的细胞类型下都是有相关的做法,只能说知道平均的状态,所以把数据拿过来以后会有一些生物学方面的文献,然后我们也会有这样的知识了,这个实际上通常都是生物学家和博士后读这些论文,然后把这个放在机器学习中,很多公司光做这个也能赚钱,并且卖系统给生物学家,所以实际上有一些是非常明显的了。
Olga TROYANSKAYA:实际上我们这个方法是有概率性的,就是怎么样将这些不同的细胞类型进行整合,并且看它的表达,以及怎么样能够在机器学习中有一个黄金准则,总体来说非常敏感,举一个例子,给你一个感觉,2013年的项目中的时候,我当时说的是比较要讲,这是你要做的事情。这是一个创投,三年之后我会建立这样一个对于人类的网络,实际上两年之前还再说这样的事情,实际上他有的是数据,但是很多的时候,还是怎么样让他真正行之有效如何确保你所发现的是真正的生物学,而不是变化出来明显的数据的结果,所以我们花很多的时间,我们在网络中应该有哪些,是不是可以预测一些疾病,确保我们的学习是符合显示的,这是我们做了很多的工作的方面,也是目前正在发生的。