玛蒂尔达HPC功能更新

内容

玛蒂尔达HPC功能更新

概述

重要功能增加和变更相关的玛蒂尔达HPC集群所提供的日期被引入(降序)。

2023年4月26 - 27日,

除了升级操作系统、固件和粘资源管理器,很多其他值得注意的变化实现,用户应该意识到在维护停机。

清除队列

一份新工作队列(“清道夫”)被添加到玛蒂尔达。这个队列可以用于测试工作,人员培训,在π账户账单的情况下分配消耗。清除队列上的资源是有限的在每个用户的基础上的最大值:

* 2并发运行工作* 8核/工作* 2排队的工作积累优先级(即任何工作在这个数字积累没有优先级排队)

所有节点都可以通过“清道夫”队列,除了hpc-largemem-p01(节点)的支持,和walltime可以到最多168小时(7天)。

使用“清道夫”,仅仅包括以下线在你的工作批处理脚本或命令行:

# SBATCH q清道夫或((电子邮件保护)]sbatch q清道夫myjobscript.sh美元

TMP空间

/ tmp目录的大小增加登录和所有其他节点上从2 g到10 gb。这应该有助于缓解一些应用程序运行和安装问题,以前的经验由于缺乏可用的/ tmp空间。

最大的打开文件限制

打开文件的最大数量的玛蒂尔达节点增加了解决问题的一些用户在某些应用程序运行时产生大量的临时文件句柄。

2022年8月24 - 25日,

Walltime

以前,如果一个用户没有指定”——时间”在他们的工作脚本或srun会话,他们自动收到7天的最大运行时间分配。这已经改变,如果没有指定”——时间”,只有1分钟的运行时分配。

为你的工作的工作指定walltime脚本(例如1天,10个小时):

# = 1-10:00:00 SBATCH——时间

指定相同的walltime“srun”(作为一个互动的工作运行):

srun - n - c 1 - t 1-10:00:00——企业/bin/bash登录

GPU规范

在集群更新之前,用户可以显式地指定一个运行在GPU节点没有提供一个“格蕾丝”GPU资源请求。这通常发生在“srun”互动工作。这造成一种情况用户提交固定工作脚本(和请求GPU资源)可能降落在一个节点,另一个人运行交互式地没有指定一个GPU数量。这有时会导致的失败用户提交的工作运行一个脚本,自粘没有很多“知道”对资源使用(和跟踪)。

从现在开始,用户必须显式地指定GPU资源当试图GPU的节点上运行的工作。例如使用“srun”交互:

srun - n - c 1 - t 10:00:00——格蕾丝= gpu: 1——节点列表= hpc-gpu-p01——企业/bin/bash登录

的工作脚本,只需添加:

# SBATCH——格蕾丝= gpu: 1

工作队列

前面的集群配置包含一个默认的作业队列。这个升级主要介绍2个新的队列,队列与buyinπ的节点。这些工作队列:

普遍的空头——工作< = 4小时;所有节点
general-long -工作> = 4小时;所有节点除了buyin节点

在大多数情况下,用户不需要做任何工作分配。通过指定”——时间”粘将很多选择适当的队列。运行“squeue”命令时,您可能注意到新的分区的存在。

与buyin节点为用户,你的工作队列名称将与你的项目相关账户的名字。buyin分区应该自动选择根据你的帐户名称。用户不购买分区帐户的一部分,将无法访问这个作业队列。如果你想手动定义buyin分区,请使用:

# SBATCH - p < buyin分区名称>

或交互:

srun - p <分区名称> - n - c 1 - t 10:00:00——企业/bin/bash登录

节点的功能

为了简化用户如何请求某些类型的节点,我们增加了“特性”特定的节点组。特性请求可以使用代替开放任何节点列表节点拥有所需的功能特点。添加了以下特点:

bigmem——高内存节点,包括“hpc-bigmem-p01 - > p04”和“hpc-largemem-p01”(短工作只有non-buyin账户)
gpu -节点包含gpu的,包括“hpc-gpu-p01 - > 3”
快速——“快速”短时间运行工作,包括“hpc-throughput-p01 - > p10”(max 8核每节点)

请求访问节点与一个特定的特性,您可以使用在你的工作脚本如下:

# = bigmem SBATCH——约束

或交互式命令行:

srun - n - c 1 - t 10:00:00——约束= bigmem——企业/bin/bash登录

请求“特性”导致粘将一个节点分配给你的工作很多的节点从池中指定的特定功能。

Largemem节点

玛蒂尔达的节点hpc-largemem-p01是一个buyin节点包含1.5 tb的内存。“buyin”节点包含的是一个购买的π集群。π的账户组的成员获得7天的运行时,节点。非成员国被允许在这些节点上运行最多4个小时。虽然这不是之前执行,它是根据最新的集群配置。

用户希望使用高端内存的工作应该利用新节点”功能“请求在请求资源(参见上面的部分)。在这种情况下,你的工作将会分配给第一个可用的“bigmem”节点,可以满足你的工作规范要求。你也可以运行显示hpc-largemem-p01工作(< = 4小时)。

的情况下内存bigmem节点可能不能胜任工作运行时> 4小时,请与我们联系:(电子邮件保护)寻求帮助。

MATLAB的变化

因为现在默认walltime集群的工作是1分钟(01:00)用户需要为自己的工作设定walltime如前所述。MATLAB的工作产生平行的工人在多个节点,目前walltime不是从工人的工作脚本节点。因此,walltimes将默认为工人一点。为了避免这个问题,请参考以下kb文章设置默认工人在MATLAB walltimes。

我们正在咨询Mathworks确定更加无缝的方法可用,可能通过改变Mathworks-supplied集成脚本。请注意这个页面的更新。

HPC

HPCFeatureUpdates

介绍

公开的文件

校园应用程序

常见问题

大学技术服务部门(生产)

分布式技术支持(DTS)