ibs 기초과학연구원

게시판

home게시판chevron_right공지사항

공지사항

안녕하세요,

기초과학연구원 클러스터 유지보수실입니다.

 

금일 진행한 Olaf 전체 시스템 재기동 작업이 완료되었습니다.

시스템 변경 사항은 다음과 같습니다.

 

1. Slurm QoS(Quality of Service) 활용 core_s/m/l 파티션 할당량 제한 기능 추가

core_s/m/l 파티션에 작업 제출을 원하시는 경우

batch script에 다음의 옵션을 반드시 추가하셔야 합니다.

#SBATCH --qos=core_limits

현재 core_limits 는 무제한으로 설정되어 있어 QoS 적용으로 인해 발생하는 작업 할당에 대한 영향은 없습니다.

최근 core_s/m/l 파티션 활용률이 높아 그룹 당 할당 가능한 코어 수를 제한해달라는 요청이 많았습니다.

이와 관련하여 돌아오는 수요일 사용자 간담회에서 파티션 별 QoS 설정(그룹 당 최대 할당 가능 CPU Core 수 설정)에 대하여 논의할 예정입니다.

 

2. /proj 스토리지 증설을 위한 GPFS, OFED 버전 업그레이드

IBM SSS3500 스토리지 30PB 증설을 위해 기존 스토리지 및 계산노드들의 GPFS Client 및 OFED(InfiniBand Network Driver) 버전 업그레이드 작업을 진행하였습니다.

신규 스토리지는 다음 주 화요일 입고 예정이며, 1-2일 정도 설치 작업을 통해 기존 시스템과 연동할 예정입니다. 연동을 위한 작업이 이미 완료되어 추가 리부팅 작업은 불필요합니다.

현재 시간부로 작업 제출이 가능함을 안내 드립니다.

감사합니다.

 


 

Dear Users,
This is the Cluster Maintenance Team at the Institute for Basic Science (IBS).
 
The reboot of the entire Olaf system carried out today has been completed.
 
The system changes are as follows:
 
1. Addition of allocation limit for the core_s/m/l partitions using Slurm QoS (Quality of Service)
 
If you wish to submit jobs to the core_s/m/l partitions,
you must include the following option in your batch script:
 
#SBATCH --qos=core_limits
 
Currently, core_limits is set to unlimited, so applying the QoS will not impact resource allocation at this time.
 
Recently, we have received many requests to limit the number of cores allocatable per group due to high utilization of the core_s/m/l partitions.
We plan to discuss the QoS configuration for each partition—including the maximum number of CPU cores allocatable per group—during the user meeting this coming Wednesday.
 
2. GPFS and OFED version upgrades for the /proj storage expansion
 
To support the 30PB expansion of the IBM SSS3500 storage system, we have upgraded the GPFS client and OFED (InfiniBand network driver) versions on the existing storage and compute nodes.
The new storage is scheduled to arrive next Tuesday, and after 1–2 days of installation, it will be integrated with the current system.
Since all necessary preparation work has already been completed, no additional reboot will be required.
 
Job submission is now available again.
 
Thank you.