嘉宾对话：生物医学的助推器是基因组+大数据

显示全部楼层 · 发表于 2017-10-29 04:01:01

从左至右分别为：韩敬东、刘小乐、陆思嘉、Olga TROYANSKAYA、王皓毅

　　新浪科技讯 10月28日上午消息，今日2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。在研讨会四的对话环节，主持人韩敬东和嘉宾刘小乐、陆思嘉、Olga TROYANSKAYA、王皓毅进行了精彩对话。

　　以下为对话实录：

　　主持人：接下来我们会给大家做这个部分的主持，所以我有一些提问提给所有的对话嘉宾，如果通过这样一个非常棒的，大家的介绍之后，我们再去讲这么多在生物信息学，计算学，深度学习，还有人工智能等等的内容，帮助我们进一步的发现在生物学上的变化，您如何看待人工智能对于这个领域的影响呢？

　　Olga TROYANSKAYA：这是一个非常成熟的时机，可以有这样的计算生物学的发展，但是实际上对于计算医学也是一个非常棒的领域，这就是说并不是所有的问题都是可以因为大数据而得到解决，但是这样一个时代，基本上每一个单独的问题都有一些大数据的搜集都是相关的，而且更加关键的是在生物医学中某种程度上和我们思考的问题不一样，比如说包括自动驾驶等等的问题。我们有一个非常的有趣的问题，所有的生物知识掌握在生物学家那里的时候，这很关键，很多的数据从来没有被人发现过的数据集所带来的信息，实际上单独来看是显著的，但是我们知道没有任何一个非常聪明的生物学家发现实际上已经有了这么好的数据在那里，但是当我们去看的时候，不同的数据及当中一起会合的时候才能够发现它的强大的力量，我们实际上也经常问这样的问题，我也认为，这是非常关键的，对于任何一个我们的研究，我们都会去看新的数据，而且不仅仅是看我们一个小时所获得的数据，比如说正在做研究中的本身的数据，而是在这个数据中内涵的信息。也就是说它不仅仅是在数据当中的内容，也包括了他的背景知识，有一些是被发现的，有一些是没有被发现的知识和背景，生物学中AI，人工智能是可以得到应用的，按照他们之前的方式来做，也可以获得一些挑战，比如说如何更好的学习我们不会有太多数据的挑战，有一些如何获得原生数据，我们有一个挑战是非常有限的黄金准则，而且如何用这些黄金准则，和不同质量的黄金准则，我们也有很多的方式要对这些做法和技能进行调整，从而在生物学上得到应用。

　　将来如果我们能够学习更多的话，就能够更多的了解信号，我们相信我们有一个预测性的医疗，基于我们的模型可以进行很多的创新，并不是说明天就能够实现，但是我们可以有很多的创新，更好好的研究模型，有一个闭环。通过这些学习和数据分析，以及生物医学的集成，这样的话我们会形成一个非常好的闭环的研究，能够给我们带来非常好的一个模型。但是现在，我们还不能说我们已经了解到了生物学的边界，任重而道远。也就是说现在这个生物学家。

　　主持人：还有更多的要做，是吗？

　　Olga TROYANSKAYA：可以说现在我讲的一些内容，数据也是很重要的，我自己做的一些项目，可以说把生物科学家都邀请进来进行了很多的研究，我们也做过。

　　主持人：下面我的第二个问题是有什么样的误区，谈到了生物信息和数据分析的话，我们要小心的。

　　刘小乐：我觉得一般来说，在生物学当中大数据分享效率问题很重要，当我还是硕士的时候，我们就会跟同学讨论很多问题，那么，计算学家和环保学家可以在一起进行合作，一起来应用大数据。现在已经有了足够的数据，问题是说，是不是，当然这个数据可以逐步的增加。有很多的数据，中国的数据没有实现共享，因为比如说在美国。我们看到一些数据拥有了以后，就可以来进行共享，但是并不是说中国就能拿到这些数据。因此有足够的数据是一个问题，能不能真正的有效共享是一个问题。可在线性，对于我们来说非常重要，需要更加透明的生物学，很多的出版的论文的研究成果没有进行重新的再现，可能你有计算的管线，那么其他的用户是不是都能运用相同的算法，这是一个问题，因此我希望，确实我们能够通过一些共享最佳的实践，让整个世界变得更好。

　　陆思嘉：我来继续数据共享的话题来谈一谈，我们进行基因组测试的，我们希望很多的有孩子的家庭或者是下一代的家庭能够免费享受很多的检测服务，现在我们面临一个问题，也就是说现在你没有发现，准确的发现真正的机制是什么样的，到底什么样的原因导致了突变，我们还没有很好的深刻的认识。所有的信息是孤立无援的，是离散的，在中国的情况，我觉得现在的重要问题是说我们要在奖励要建立非常好的信息，数据共享机制。让大家都能够共享信息来进行诊疗，服务于诊断。我想高效的共享是非常重要的，因为每一个，整个患者需要6-8年才能获得准确的诊断，这是非常遗憾的。诊断的时候我们会经常发现患者已经超过了适合的年龄，最佳的时期吧，因此我们应该确定非常好的信息共享机制。另外一个方面对于谈到生物信息的误区的话，陷阱的话，我觉得有一些核心的要素需要考虑。你必须有什么东西可以来衡量，测量，然后才是数据，算法，所有的智能情况和情报都是非常重要的。因此我们在这个方面不断的努力，不断的来进行测量，我想今后我们可以从血液进行生物的测量，是的。扩大研发来尽量抓取更多的肿瘤，以及细胞学方面的数据。并且建立一个更加准确的，更加可控的方法来治疗患者。来不断的进行肿瘤疗法。

　　对于信息共享在这个行业里面常见的做法是什么样的，还没有很好的做法，可以这么说，为什么？因为大家都是说商业嘛，商务嘛，我们的数据为什么分享给你呢？我们都是商业的，很可怕，为什么告诉你呢，我们的行业要保护啊，保护我们的商业秘密。

　　主持人：恐怕不仅在中国吧，整个行业的话都是在私人手里，不愿意分享，可能我们需要心态上的改变，思维上的改变，你的数据给别人了，别人也可以看到你的数据，也可以看到别人的数据，这需要整个行业的推动。

　　陆思嘉：是的，我非常同意您的见解，因为我们现在可以说不断的看到一些患者过来，他们有自己的需求，我们希望能够有解决方案给他们，这是一个责任的问题。对于整个的行业进行信息共享是一个更大的责任的承担。我的意思是说毕竟涉及到商业问题，另外一个方面是承担社会责任。

　　Olga TROYANSKAYA：我想我们建议可以想象在全球信息共享，我非常同意共享信息，这没有问题，我们还需要更好的共享现有的知识来，共享一些简单的论文或者是测试的方法等等。

　　第三点是我想所有的机器学习，生物信息形成一个很好的闭环，我们能够很好的共享我们的资源。我想不光是电子的表格，百度现在也做了很好的工作，也给终端用户提供很好的资讯，让人们最终能够去很快的获取一些核心的信息。最终生物学家来很好的研究一些测试的模型，最终，能够更好的使终端用户获益。

　　王皓毅：我不是生物学家，我希望大家能够很好的分享自己的专业知识，能够密切的合作。当你发现一个自闭症方面的网络之后，这是第一步，第二步做什么，大家要有一定的共识，我们需要基因测序，如何来了解网络组合方面的疾病，因为有一些疾病是罕见病，那么，每一个人都有超过，有很多的突变有的时候我们发现对于疾病非常有害，我不知道为什么，我不是这个方面的专家，我觉得可能通过更多的跨界研究会了解到这个问题，可能你们在座的都要进行一些合作。

　　刘小乐：我非常同意，总的来说对于生物信息和计算科学的话需要不断的验证，需要进行试验，我们应该不断的学习生物学来进行不断的沟通，让生物学家非常清楚的了解其他学科的支持。那谈到数据共享的话我想提一点，可能大家不愿意分享，但是他是可能觉得是一种商业秘密，最终如果你真的去，学术方面的专家的话可以来制定一些模型告诉他，如果你真的共享信息了，最终你得到的利益会更大。比如说对于我们的癌症肿瘤的疗法，对于学术上来讲，项目中有很多的群组研究了。我希望相关的一些肿瘤的研究协会能够进行一种倡导，有一些机构也进行出资支持，但是，我们有更多的和学界进行研究。来鼓励这个行业实业界来进行信息共享。

　　主持人：我要问下一个问题了，因为我们是未来论坛嘛，你们认为这个领域未来最重要的变化是什么，从长远来看一下，你们怎么看，有没有什么样的最重要的变化会发生。

　　Olga TROYANSKAYA：我同意刚才的见解，我想非常需要做的，促成的是通过精准研究来推进医疗，我们需要考虑到不同类型的数据，来进行推理，推进我们信息的共享，结果的共享，整个的共享，必须有一个基于数据的竞争形式。我们在基础科学中经常谈数据共享。对于医学也好，科学也好，都是非常重要的。如果我们看到整个的基因组的话，我们需要，无论从社会角度来说，结果角度来说，我想共享都是好处的，我们需要有更好的框架，它可以是一个社会型的，并不一定是计算型的框架。像药剂师，科学家，诊所，工作医生和其他领域的人一起来打造一个框架。

　　刘小乐：我想说在十一月生物学当中，技术很关键，能不能对于细胞的更好水平进行建模，这个方面的专家能不能进行一个组织方面研究的先驱，怎么样更好的测量神经元，我想干细胞会成为一个重要的研究。

　　另外一个挑战是原数据的话，进行筛选，不断的推数据也是非常重要的，第三个方面是教育，从主办方组建的讲座，有年轻的学生，有中学生和大学生来因为听会，培养他们下一代的，生物学，科学，认知科学和机器学习的知识也是非常重要的。

　　陆思嘉：我想谈一下教育，比如说我们的诊断，我们应该认识到，尤其是在中国，现在在大城市，北京上海这样的地方，我们有非常优秀的医生，也有科学家，有很多的出色人才在做着卓越的工作诊断，但是90%多的人口在农村地区，没有机会去获得这些资源。这种情况下在将来，我们应该实施转移，有正确的方法让农村地区的患者也能够获得非常好的诊断的方法。AI在这个方面可以发挥非常好的作用，能够带来帮助。

　　比如说如果我们能够，像阿尔法狗研究所有的病例，然后提供正确的诊断，我们可以生产一些机器，农村的医生可以使用这些机器。机器人，这样的话农村医生的诊断的效率大为提高了。我觉得在今后有很多的我们可以预见到的好的方面，也会出现。测量，数据的分析等等，诊断，我在这个行业里我觉得在未来十年的话，大家会看到这个方面情况的出现。

　　主持人：实际上大家来到这里，你们注册，你们刷脸，扫描，是吧？这些都是一些技术了。将来你看一下你的手机，告诉你血压高了多少，应该做一些运动了，这都是有可能的。

　　王皓毅：将来的挑战，来自于我之前讲的一点，如何来了解疾病。复杂的疾病，每种疾病都很复杂，如何来通过这种试验进行建模，我觉得这是一个非常严峻的挑战。我们如何进行很好的建模。

　　现在已经有了这个三万个的基因。如何进行推进，我们应该进行跨界合作来推进这样的工作，另外在未来的话，我不太确定，如果AI不受监管的话，可以训练任何数据集的话，我们需要非常优秀的科学家，需要神经科学家参与进去，无论怎么样，人类很容易找到一些东西，可能机器，如果让他来研究这个数据的话，他可能得出一个结论，他是一个隐藏的数据中的假设。

　　Olga TROYANSKAYA：我们从科学的角度来说，我觉得有非常大的挑战，现在我们讨论到，把大数据应用到竞争性的生物学之中，大家现在注意到我们讨论到分子，我希望这些方面在我们的实际中能够在很多的信号层面进行讨论，比如说我们有更多的药物进行研发。还有药物靶向方面进行更好的研究。不仅是由体内的卫士进行吸收。所有的这些问题，现在还不明确，我们还没有找到答案。我想在未来十年，这些都成为非常重要的研究课题和挑战。像分子生物学是一个非常重要的领域，我们应该不断的研究分子生物学。

　　主持人：我们需要统一的数据集吗？在未来，这样是不是一千万，所谓的生理分子的层面的因素能够了解得很清楚呢。

　　Olga TROYANSKAYA：但是我觉得可能不是这样，因为如果现实来讲的话，有很多我所相信的事情精准也非常关键，真正能回应你的那一点，就是这样的假设不仅仅是对假设直接进行检测，还包括我们有没有什么缺失的，比如说数据推动的一种试验，我相信有很多的这些会更有这种吞吐量，更多的渗透力，而且包括了一些具体的基因也有可能会对于某一些免疫的疾病有所影响，或者是说我们去思考有哪些在生理上的现象的信息会带来一些更多的数据集，会专门针对那些基因和相应的效果来给我们一些解答。我相信如果我们这样拥有你刚才所说的那些事情的话会更加的精妙，但是没有那么大的可能性。

　　我们也看到了，最近数据上有非常多的无限数量的细胞，可能会帮助我们解答其他的疾病或者是组织的问题，虽然现在我们在看这些患者的例子，没有进行治疗，但是他们依然可以告诉我们到底这些患者是不是会在一些疗法下有所应答，这是非常好的一些数据的生成，就是说不能去全面的恢复，我们也可以通过机器学习来填充空白。这确实是非常棒的一种数据的功能。

　　主持人：而实际上从一个世纪的角度来提一个问题，因为我们都是一些在计算生物学方面的专家，可能我们知道什么时候会需要一种合作者，这时候我觉得是最需要我们一起去合作的，您觉得您会寻找什么样的合作者。

　　Olga TROYANSKAYA：因为我们合作的事情包括了这种网络一直在提升，但是我们说到细节的时候，我们都必须要有非常紧密的合作伙伴，因为现在有非常多的变量，非常多的容易去发现的一些事情，甚至是很多的分析，并不是我们以为所发现的，因为有很多的事情是相关的。我们要去说一说什么是最容易被发现的。你不应该对同样的事情重复的发现，所以信息会告诉我们，某种疾病也是这样的，很可能对于炎症疾病的发现，其他的地方也会发现，这对某一种肿瘤是相关的，我们要发现，虽然我们要小心一点，就是在做实施的时候，要很仔细避免这样的问题，但是我们要非常紧密的合作，有很多的合作伙伴都是在很早的时候就开始合作的了，而且我们可能也会去有一个通用的方法来应对这样的问题。但是我们也会与他们一起合作，确保对他们的问题和疾病以及在生物体系上带来帮助，所以在整个过程中非常紧密的进行合作。

　　主持人：您觉得呢？

　　王皓毅：很明显，现在的挑战是我们如何能够更好的理解这些数据，这是非常困难的。

　　Olga TROYANSKAYA：是的。

　　王皓毅：因为我们读论文的时候，都会看到很多的好数据，看到很多的点会联系起来，但是引证什么呢？确实已经成为了一种挑战，我们却学同样的语言都已经有困难，所以我们希望对于这样的分析变成一种可以去进行检验的假设可能并不一定是一个基因，但是包括您所讲到的网络，我们如何对这种网络的规模来进行建模和仿真，一切都是可能的，但是我们需要一起进行开发，我们希望能够进行最佳的合作，包括计算数学的专家中一起来合作。但是我们也希望能够一起来解决这样的问题，以一种系统性的方式来解决。

　　刘小乐：可能我觉得计算机生物学需要去在试验的合作表示抱歉，因为在生物学家，化学家等各种实验中合作都是正常的，我们和系领域中的专家进行交流，总是会非常好的事情，我们分析数据，做出整合和预测，并且直接和生物学家沟通，是有益的，有一些会告诉我们这个不太好，有的可能会非常细微的回答和简单的回答，有的会觉得非常有兴趣，这样的话可以一起去探索这样的数据的意义了。但是实际上这种合作可以在多个层面上，有的时候帮助他们，有的时候他们帮助我们，这跟在计算科学界也是一样的，他们可能也会这样的合作，没有什么不同。

　　Olga TROYANSKAYA：我们发现很多的时候，很多科学家解决我们数学上的问题，同时还有一些像网络的例子，我们有很多的方式是大家可以利用这个网络的，但是他们是不是可以去找一些基因，这些基因跟两个假设是非常相关的，比如说刚刚说的阿兹海默症等等的细胞型和其他的路径等等，我们发现多个试验会找到我们说我们有这样的系统，包括我们会有这样的15个基因等等，你会看到他们的网络，大家会共同说我们有五百多个基因，能不能告诉我们，为什么你要看五百多个基因的情况，结果有很多人真正希望能够看这些情况，希望通过这个解释他们的试验，然后他们会进行筛选，找到非常重要的一些基因，比如说对他们的生殖或者是老年化非常相关的基因，他们会看是不是有一些会有更高的可能性，或者是说降低生殖能力，随着时间变化有影响，他们会知道对于基因的总体的状况，他们有五百多个基因，但是没有一个非常连贯性的基因的关系，刚才我们的网络之后，就能够看到有一个子网络的出现，这是一个实在的例子，会告诉我们这有非常大的意义，这些基因会有自己的标的我们说好，我们的系统允许我们把五百多个基因放进去，这会引起我们的开发，这是竞争上的问题，如何才能够对五百个基因进行可视化，而且真正是有意义的，而不是刚刚大家看到的球，看起来不是非常的令人惊讶，但是目前来说没有什么意义，所以我们需要去看一下，那些正在用基因做这样的事情的人。但是我并不是说抱歉，这是非常必要的。

　　主持人：是的，生物学家来看这五百多个基因的时候，并没有一个起点，没有切入点，他们希望你可以去接触的，然后让这五百个基因都能够得到很好的管理和调解。我认为生物学家看到这一点的时候，也会说我可以帮助你检验这样的假设，或者是说很明显的，他们可能一点儿都不想接触你的假设。从我自己的经验来看，最令人激动的一个，我所接触的项目是在这个实验中我们开发了一些想法。是一起做出来的，一起将这个想法进行了启动，您有没有这样的感受。

　　陆思嘉：实际上我想说一说，因为我是一个假的生物学家，我本来是学物理学的，我们有了一个关于测量的方法，是微生物学家所设计出来的，我觉得这是一个非常重要的一点，因为基本上来说，在原则上，我们可以对所有的事情进行测量，比如说我们之前也有其他的一些单细胞的基因测量工具等等，任何的都可以，包括在血液中，我们也可以有很多的测量的标的。但是，其中非常重要的一个关注点，就是这些实际上是一个对话，基本上来说作为我们，在物理学方面的科学家和生物学家，以及计算生物学家，在我们一起开始做一些事情之前我们需要进行讨论。提前进行沟通，现在比如说我们会告诉你们我们有能力做这做那。那么这个时候是非常令人激动的，未来会是对这个领域非常根本的，合作的技能本身也是非常重要的，需要在这些所有的实验室的专家和各不同的科学家，包括计算机，生物学家都需要有这样的能力。

　　主持人：我可以邀请观众进行提问了。

　　提问：谢谢，这是非常棒的对话，非常的有鼓励性。非常感谢，我有两个问题，第一个是在您的工作中，在化疗中，是不是会看到这些基因的状态，然后去找到这些基因。并且能够找到关于它的组织的网络，和肿瘤是相关的呢？而我非常好奇的是您讲到了深度学习的方式，可以去找到一些不同的类型，也是根据基因数据来进行的，能不能说一些拓扑学的网络，在设计的时候，还有在深度学习的架构，比如说有一个视角来讲，能不能讲到他们之间的关系。

　　刘小乐：这是一个非常好的提问，举一个例子来说，最近关于国家肿瘤研究机构中的临床试验和相关数据，能够有一些非常抑制的数据，包括了有一些临床的数据和图像的数据，实际上有多维的数据建模，所以我们并不需要一个网络的模型进行分析了，所以我们非常期待能够去雇佣这样的一个专家，我们也在学，我们已经有了相关的网络去预测。关键基因，这些都是跟肿瘤相关的，那通过他的表达和建模来进行一些使用，这已经是非常的强大了，而且非常的期待能够跟其他这个领域的专家合作和学习。

　　Olga TROYANSKAYA：您刚刚讲的深度学习模型非常有趣，有一点是怎么样运作的，我们并不是真正会去做他的机制的了解，而是用单独的基因组，当然了，并不是说任何的一个所做的测量的基因组，因为这些实际上有不同的。谁知道谁是谁的序列呢？但是，如果是，我们要这样去讲，学习的话，怎么样去预测，他真正学习的时候透过一个合理的基因组来做的，可能是有上千的一个非常大的数据库，那么在这样的一个基础之上，如果你们进行学习的话，那么它也包含了监督和非监督的方法，因为如果是非监督的话，就是突变的一些数据，但是如果得到了监督的话，在基因组当中，他主要是希望能够找到无论什么时候，我们看到突变，或者是说这样的一个标记物的时候，我们通常就会去跟A或者是T相关性，或者是说跟J有关系，这全部都是我自己编的，大家不用记下来，只是说这个道理。这样的话还有一些其他转路，左边又有一百多个点，这些跟他的序列变化相关，这些的话不仅仅是非常具体的碱基，而这些碱基和生物标记相关，还有他们之间有什么样的关系，所以要看到这个基因组之间的不同的关系。另外是我们实际上并不一定需要去说，因为它是自动的机器学习的过程。

　　提问：如果你说的是非监督的话又是怎么样去讲呢？比如说有一些教训的学习，也可能有一些相关联性，或者是说让这些结构进入一些纸质性的发现。但是大部分的深度学习的方法，实际上都是被监督的，才能够让它去有效。所以我所关注的是这种非监督的学习和他的结构和关系，比如说相关的功能。

　　Olga TROYANSKAYA：所以对于非监督的话，实际上并没有看到任何的突变的数据，这还是要分情况来看，比如说我们之前讨论过对于关键的部分，可能没有这些突变的数据，所以在学习的时候，大家看在单一的基因组之间的关系，我们看其他的基因组了，这是我们所做的事情，我们可以让他看基因组下面的内容，实际上可以让我们更好的去预测具体的疾病，而这个实际上之前所没有看到过的。当然现在我们这些数据也没有获得，但是我们实际上还是可以去预测的，因为我们也在学习，完全是跟基因组之间的关系来了解到的，以及不同的生物标志物之间的关系所带来的信息。但是关键的一点是不能够只是看这些突变的数据，因为你自己没有看到你所关注的基因突变。就是说有上千的人群，那最具有吸引力的，依然还是我们可以去预测的部分，这是正确方式。

　　提问：我提给Olga TROYANSKAYA的问题，您如何去看这些以组织委关键的方式呢？因为您刚刚提到了不同的知识，实际上通常都是在脑科学当中，这是不是意味着现在没有一些书面的记载，这些不同的知识又是怎么样收集的呢，而且这样的知识和深度学习的基础上，我们离肿瘤治疗还有多远，能够治愈有多远，包括人工智能对战的这样一种方向有多大的作用，或者是说能够帮助我们发现什么。

　　Olga TROYANSKAYA：这是非常好的问题，第一个问题是关于组织的网络，这是得到监督的，所以我们做的事情，首先我们会用知识作为一个基础，比如说会有一个碱基分类，他所做的是通过分类可以知道哪些数据是相关的，比如说和大脑的网络相关，所以我们对于每一个组织都要赋职，看他的准确度，我们会预测50%都是可有网络的，但是我们现在没有足够的数据去获得碱基的数据。但是基本上大部分的都可以用数据来解决。所以如果说你的数据特别多的，就能够在各方面的表现更好，我们理想的情况是比如说我们需要一些例子，包括了他在生物学上的，在组织上的关系，这其中一个比如说有一种蛋白质，实际上具体的会进入到他的一个表达的开启，实际上这是一个神经元，这个数据非常小。所以我们所做的是我们觉得这是下一个最好的事情，因此这些路径到底总体上怎么样？所以如果你有一个生物学方面的书打开的话你会看到它有不同的流程和工艺来做，它还不是非常的完美，而实际上在一些不同的细胞类型下都是有相关的做法，只能说知道平均的状态，所以把数据拿过来以后会有一些生物学方面的文献，然后我们也会有这样的知识了，这个实际上通常都是生物学家和博士后读这些论文，然后把这个放在机器学习中，很多公司光做这个也能赚钱，并且卖系统给生物学家，所以实际上有一些是非常明显的了。

　　所以我们不能够直接做这样的预测，除非我们每年有25000多块钱才能够获得这样的数据，这个数据本来应该是在理论上，公共领域中。但是他们的赚钱也好，我们实际上如果有这样的一个系统的话，也会有非常大的飞跃，比如说这些数据是非常好的，总体来说我们也希望知道哪一些，这也是有所表达的，所以这是会用某种方式来交叉的，也许我们觉得这个可能是在大脑当中发生的情况，目前来说非常有限及这只是一些例子，但是我们可以用这些例子找到哪些数据，告诉我们一些关于大脑的准确信息，然后我们可以做一些推断，看他的准确性，以及和其他的相关性的影响，这是其他人还没有基于这些数据所做出的一些结论和分析的。所以我们会让所有的可能的都去做一些工作。

　　提问：您是不是说在构建这个网络的时候也这样做。

　　Olga TROYANSKAYA：实际上我们这个方法是有概率性的，就是怎么样将这些不同的细胞类型进行整合，并且看它的表达，以及怎么样能够在机器学习中有一个黄金准则，总体来说非常敏感，举一个例子，给你一个感觉，2013年的项目中的时候，我当时说的是比较要讲，这是你要做的事情。这是一个创投，三年之后我会建立这样一个对于人类的网络，实际上两年之前还再说这样的事情，实际上他有的是数据，但是很多的时候，还是怎么样让他真正行之有效如何确保你所发现的是真正的生物学，而不是变化出来明显的数据的结果，所以我们花很多的时间，我们在网络中应该有哪些，是不是可以预测一些疾病，确保我们的学习是符合显示的，这是我们做了很多的工作的方面，也是目前正在发生的。

　　还有多远，这是一个很好的问题，到底还有多远，我们对于肿瘤的研究还有很长的路要走，现在我们谈论的是，研究的是我们的免疫的系统，还有人工的抗体，以及大家可能听到的免疫疗法。还有一些像B细胞，血癌等等所有这些都是非常重要的。以及位于这个肺癌的研究都是非常具有意义的。可以说对于很多的方面必须有计算的方法，这是非常重要的，然后我们才能谈到靶向的问题，我们可以来进行非常好的联合的疗法的研究。我们对于这个细胞的研究是非常具有启发性的。那么，免疫的疗法，现在的美国已经批准了，已经在中国开始使用了。对于有些疗法可能已经用了，在美国用了十年，比如说乳腺癌，他们说在美国，可以进行诊断，比较准确。这是非常重要的一个进步。现在在很多的场所都可以很好的诊断乳腺癌。我觉得当然这个不是说一两年就能够迅速的找到一个更好的方法的，需要我们投入到大量的科研去进行研究。我们需要不断的来研究这个问题，我们实际上也看到过很多的疗法方面的例子，有些是非常具有革命性意义的。不好意思，我没有一个简单的答案，所以我讲得比较多。

　　主持人：我觉得时间已经到了，不罗嗦了，谢谢大家的听讲。

微信扫一扫分享朋友圈

嘉宾对话：生物医学的助推器是基因组+大数据

浏览过的版块

微信扫一扫 分享朋友圈