超级计算机是用来做什么的?

Paul Calleja解释了剑桥大学高性能计算资源集群“达尔文”的工作原理和用途。

9月11日

采访

Paul Calleja，剑桥大学

computer.jpg

玩下载

Dave -剑桥大学高性能计算资源，或HPC，为大学的研究人员提供计算设施。高性能计算主任Paul Calleja带我参观了他们名为达尔文的计算机系统。

Paul:你看到的是一个商用X86服务器的机架，所以我们在一个机架上有32台服务器，每个机架总共包含128个处理器，这可能是你在家里的台式电脑上看到的。

戴夫:所以我猜对于一台超级计算机来说，最重要的事情就是把它们连接起来。似乎有一些看起来像标准的网络电缆，还有一些其他的连接器，我实际上不认识……

保罗:我们有标准的以太网络来处理我们的数据和管理，还有一个叫做Infiniband的专业网络来处理我们的并行处理。因此，Infiniband网络特别具有高带宽和低延迟，因此从一台服务器到另一台服务器接收消息所需的时间非常短，而我们可以发送的数据量非常大。

戴夫:这一点非常重要，如果你的电脑在房间的不同位置，如果它们在处理同一个问题，它们可能想要沟通，尽可能快地沟通是非常重要的。

保罗:是的。所以在这个房间里，我们总共有800多台服务器。这些服务器中大约有4000个CPU内核，所有服务器可以同时与所有服务器通信，带宽约为每秒3gb。

戴夫:那么，使用大量本质上标准的硬件比使用专有的硬件有什么优势呢?

Paul -标准化导致了价格的急剧下降，所以价格点已经下降了100倍，而且商品市场的发展速度非常快。所以我们每两年就能从计算机工业的进步中得到双倍的回报。

戴夫:为了解释更多关于达尔文的知识，保罗来到演播室。嗨,保罗。

保罗-嗨，戴夫。

戴夫:那么达尔文和赫克托耳有什么不同呢?
我们之前说过吗在爱丁堡?

达尔文和赫克托都是同类中最好的，紧密耦合的超级计算机，这意味着它们被设计为在机器周围发送信息的最大性能。在这方面，它们是一样的。达尔文与赫克托耳的不同之处在于，达尔文是一台由标准的现成组件制成的商品机器，而赫克托耳是一台专有机器。两台机器中的处理器实际上都是商品，但达尔文有一个商品互连，而赫克托有一个专有的互连。因此，我们所说的使超级计算机成为超级计算机的互连在达尔文是开放的，基本上，我们拥有所有的技术以及它们是如何组合在一起的，而在赫克托耳，你的供应商拥有技术。

戴夫:所以我想这是一个优势。这意味着你获得了更多的灵活性，而且成本更低，因为如果任何人都可以构建工具包，那么成本就会低得多。

Paul -是的，你自己拥有的附加值越多，供应商能向你收取的附加值就越少，所以你可以降低价格点，而且，进步的速度也更快，所以，这导致了多年来超级计算的巨大进步。

戴夫:那你到底在剑桥用你的超级计算机做什么?

Paul: Cambridge主要用于剑桥大学的研究，我们的机器上有来自65个研究小组的400多名用户。这些人在过去的四年里发表了大约300篇论文，他们非常活跃地从事各种科学研究。我可以告诉你其中的一些。

戴夫:所以本质上，他们决定要做点什么，然后他们写一些代码并发送给你并运行它?

保罗-是的，有一系列的活动。例如，机器上最近的一个新活动是UKQCD联盟。这是一个来自英国的研究团队;格拉斯哥和其他地方，他们正在做非常复杂的计算来观察物质的本质。他们正在研究被称为量子色动力学的强相互作用，并将计算结果与他们从欧洲核子研究中心的大型强子对撞机实验中得到的实验数据进行比较。这是很常见的，所以你的科学家有一个理论，他有计算，试图证实这个理论，然后他将其与实验进行比较。这些计算可能非常大。

一台电脑戴夫:量子色动力学是指将原子核结合在一起的力。

保罗:对，没错。

戴夫:我听说很长一段时间以来，实际计算它们几乎是不可能的。

Paul -是的，你所说的网格单元在你的矩阵中有上百万个点，你需要计算，他们需要一遍又一遍地计算，然后他们得到原子质量的表达式，他们可以非常准确地比较。如果两个数字一致，你就知道你的理论是正确的。这就是模拟在许多不同领域的应用。

戴夫-那你还在忙什么?

保罗:我们还在研究其他的事情，我们和阿登布鲁克斯医院合作，他们在医院里有一个基因测序设备，他们有很多下一代基因测序机器，可以根据特定的疾病病例来检查你的基因序列。他们在医院里生成所有的数据，然后通过10Gb的以太网链接发送到我们在镇中心的机器上，我们处理数据，然后把答案发回给他们。

戴夫:所以他们试图比较很多不同的基因组，找出哪些基因组与不同的疾病有关?

保罗-是的。现在在诊所里，很常见的是你可能会被特定疾病的基因分型，你需要迅速得到答案。他们在医院里没有计算的设备而我们有，所以我们和他们合作来做这个。这是一个很有趣的问题。

最近另一个有趣的项目是普朗克卫星。剑桥大学的天文学系正在从普朗克卫星上收集大量关于宇宙微波背景辐射的数据。这是非常多的数据，给了你关于早期宇宙的信息。再一次，我们收到这些数据，我们用很多蒙特卡罗模拟来计算，然后把结果发回。

戴夫:所以你目前提出的所有建议都涉及到大量的数据，并且处理起来很困难，诸如此类的事情?

保罗:是的，这是最近人们经常谈论的“数据泛滥”。数据的增长速度令人难以置信——量子色动力学的家伙们在大约4个月的时间里就填满了100tb的光盘。他们本来打算用三年的!我们现在有大约600tb的数据。明年，我们将会有一个拍字节，一个拍字节就是一千个太字节，而且还会呈指数级增长。事实上，数据需求的增长速度是计算机需求的五倍。

戴夫:所以这将是未来的一大挑战。

保罗-是的。目前的主要挑战是你如何构建你的系统，让所有的数据从计算机流向数据，然后一旦数据流向那里，你怎么处理它，你如何存储它，你如何分析它，你如何保存它?