超级计算机米拉

我们参观了位于芝加哥阿贡国家实验室的世界第五快超级计算机米拉
3月25日

采访

皮特·贝克曼,阿贡国家实验室

Mira.jpg

超级计算机米拉

分享

即使科学家不研究计算机科学,当然计算机建模也是超级计算机米拉越来越多地参与解决从物理学到生物学的科学问题。

为了弄清楚它是如何工作的,克里斯·史密斯(Chris Smith)借此机会与芝加哥阿贡国家实验室的皮特·贝克曼(Pete Beckman)见面,并参观了世界上第五快的超级计算机米拉(Mira)。

皮特-现在,我们在超级计算机米拉所在的大楼里。这是它的昵称,这个数据中心,我们称之为“核心”。

克里斯:我们说的超级计算机是什么意思?

Pete -在阿贡,我们试图解决的科学问题是如此之大,以至于你无法在几台机器或笔记本电脑上完成,甚至无法在亚马逊网络服务上完成。这是一台专门用来运行你能想象到的最大规模的计算的机器。所以,如果我试图在笔记本电脑上解决一个可能需要几个小时的问题,我可以在Mira上瞬间完成。但真正的问题是,反过来呢?如果我花一天的时间在Mira上,我能解决什么样的问题?如果要把这个问题放进我的笔记本电脑里,它是装不下的,但如果我直接在笔记本电脑上计算出来,那将需要300多年的时间来计算。所以没有科学家会等上几天才能得到答案,更不用说几百年了。

克里斯:什么样的问题需要这样的力量?

气候模型就是一个很好的例子。另一个很好的例子是理解宇宙的本质,这是世界上最大的关于大爆炸、暗能量和暗物质的计算之一。我们不能把时间倒回去,在实验室里做一个实验来理解宇宙大爆炸,所以我们在电脑里做了一个模拟实验。在设计喷气发动机和起落架方面也有应用,还有更多的商业应用是公司使用的,因为再一次,制造一个你想要设计并测试的喷气发动机是很困难的。在计算机中构建要容易得多。

克里斯-超级计算机的架构到底是什么?它是如何构建的?

Pete -所以,超级计算机与普通机器的不同之处在于,它们非常强调浮点运算和快速移动数据。

什么是浮点运算?

皮特:好问题。所以,如果你要做一个简单的数学问题,a乘以B加上C,这被称为翻牌。而FLOP是一个浮点运算。所以,一个乘法,一个加法。所以,我们的机器是10个Peta-FLOPs。

克里斯:它实际上包括一台电脑连接到另一台电脑,再连接到另一台电脑,再连接到另一台电脑吗?所以,你有成百上千的机器都在并行工作还是比这更复杂?

皮特:现在,我们通过并行来建造超级计算机。这并不是超级计算机一直以来的建造方式。在第一代超级计算机中,它是一台被设计得非常非常快的计算机。这是一级方程式赛车的模型。但现在,问题如此之大,你不可能让一辆车开得像你想的那么快,所以你有了一个车队。所以,我们在这个房间里拥有的是一个由cpu、内存和连接组成的专用舰队。

克里斯:你是怎么给它设定任务的?

皮特-所以,我们有一种编程语言。我们使用的语言是C、c++和Fortran。但是我们有一系列的机制,通过这些机制,我们可以在成千上万的处理器之间来回推送和共享数据。我们实际上在机器中有数十万个cpu,这一层被称为MPI,即消息传递接口。这就是计算机科学家所学到的。他们学习如何设计算法,并将一个科学问题分解成成千上万个可以独立解决的小问题。

如果成千上万个cpu中的一个坏了,你知道这对超级计算机的运行有什么影响吗?

我们听到树倒了,是的,当这种事发生时,科学家们一点也不高兴。大多数应用程序都使用一种我们称之为检查点重启的技术。因此,它们定期保存自己的状态。这有点像家用电脑,你点击保存。问题是,我们的机器里有这么多的数据,即使只是保存这些数据也需要30分钟到一个小时。所以,你不能每隔几分钟就按下Control S和Save键。这是每6小时或8小时发生的事情,你可以保存你的检查点。

Chris:你们机构内外的科学家都可以使用这个资源吗?如果他们想要解决一个问题,他们只是在上面预约时间吗?

皮特:实际上,因为这被认为是国家资源,这意味着如果你有一个很好的科学问题,你写一份提案,让人们相信你可以用我们的超级计算机解决你的科学问题,那么你就可以免费得到时间。因此,我们有来自世界各地的人申请使用我们的超级计算机。

克里斯-我们能去核心吗。

皮特-对,我们进去吧。里面有点吵,所以你可能听不太清楚。但我们要打开门,走进中心,看看米拉。

克里斯-你说得对。这里太吵了。我基本上看到了一排排巨大的黑色架子。

皮特:是的。噪音如此之大的原因是一台超级计算机需要几兆瓦的电力才能运行,你必须给它降温。所以,现在,你听到的是所有的风扇吹风是为了提供冷空气。Mira在这种情况下是独一无二的因为Mira的一部分是水冷的。所以,如果我们这里没有其他的超级计算机,如果我们只有米拉,它实际上会非常安静。如果你离开这栋楼往外看,你会看到提供冷水的冷却器。

克里斯:你的电费是多少?

皮特:那么,一兆瓦的电力一年大约是一百万美元,米拉需要大约6兆瓦。所以,每年大约有600万美元的电费,这是一大笔钱。

克里斯:你指的是不包括空调的电脑还是包括你的空调?

皮特:那只是电脑,然后是设备。但与其他电脑相比,这台机器实际上非常节能。在中国和橡树岭有一台电脑需要20兆瓦的电力来运行和冷却。它们的效率比我们的机器低得多。所以,这是一个2000万美元的电费账单,有点难以理解。

评论

添加注释