ansys high performance computing module 성능 분석...

ANSYS High Performance

Computing Module

성능 분석 보고서

본 자료는 ㈜클루닉스에서 자사 시뮬레이션 포털 구성 제품인 GridCenter-CAP

통합 CAE 해석 환경에서 측정된 자료입니다.

클루닉스의 동의 없이 본 자료의 무단 배포를 허가하지 않습니다.

테스트 환경 : GridCenter-CAP, GridCenter-HPC, CAE 어플리케이션 (ANSYS)

테스트 주관 : 클루닉스 기술부

테스트 일자 : 2008년 9월 22일~2008년 9월 27일

시스템 구축 밑 튜닝: 클루닉스 기술부/서 진우

CAE 어플리케이션 구축 및 튜닝 : 클루닉스 기술부/서 진우

BMT 환경

ANSYS version : ANSYS v11.0

클러스터 기반 통합 해석 환경 : GridCenter-CAP 1.9

BMT 예제

ANSYS사 제공 SP_benchmark 예제

모델명 설명 크기

Bmd-5.dat ANSY S내부 Supercomputing benchmark 용 예제 소

Bmd-7.dat ANSY S내부 Supercomputing benchmark 용 예제 중

Bench07.mac XX사 제공 예제 (실무) 대

BMT시스템 사양

Cpu Intel(R) Xeon(R) CPU 5420@ 2.50GHz (8core)

Memory 16GByte

Disk SATA2 250GB

Network Intel Gigabit

Node number 4

BMT 시나리오

1. 다수의 서버를 통해 ANSYS-HPC 해석 시 DISK I/O 분산을 통한 성능 효과 측정

2. 단일 서버에서 core 수를 1부터 8까지 증가하면서 ANSYS 해석 수행 속도를 측정

3. 4대 서버를 이용하여 core 수를 1부터 8까지 증가하면서 ANSYS 해석 수행 속도를

측정

4. 여러 대의 서버를 이용한 ANSYS-HPC 계산 시 core 배열에 따른 성능 비교 분석

5. 4대 서버를 이용하여 core 수를 1부터 16까지 증가하면서 ANSYS 해석 수행 속도를

측정

6. large 크기의 예제를 이용하여 4번과 동일한 시나리오의 테스트 진행

BMT 1 결과

본 테스트는 아래 BMT 이전에 최적의 ANSYS-HPC 수행환경을 검증하는 단위 테스트로 ANSYS

의 경우 MPP 병렬 해석 시 core 수가 증가하면 여기에 비례하여 대용량의 scratch 파일이

증가하게 된다. 이로 인해 core를 증가하여서 계산 속도를 단축하더라도 I/O로 인한 병목으

로 전체 해석 속도는 별 차이가 없게 되는 문제가 존재하였다. 그리드센터CAP-ANSYS 기능에

는 여러 대의 서버로 구성된 통합 해석 환경에서 ANSYS의 해석 시 발생하는 DISK I/O를 자

동으로 분산하고, 결과를 자동으로 취합하는 기능이 존재하여 이런 ANSYS 병렬 계산에서 발

생하는 병목을 해소해 줄 수 있다. 본 테스트는 여러대의 서버로 구성된 클러스터링 시스템

에서 대표적으로 사용하는 NFS 방식과 그리드센터에서 제공하는 자동 Disk i/o 분산 기능을

이용한 방식간의 해석 성능을 비교 분석 한 것이다.

- NFS 공유 스토리지 환경에서의 ANSYS-HPC 해석 결과

- 그리드센터CAP-ANSYS 분산 I/O 환경에서의 ANSYS-HPC 해석 결과

동일한 예제를 동일한 서버 수와 core수를 가지고 해석하더라도 ANSYS 해석 시 발생하

는 DISK I/O를 최적화함에 따라 3.8배의 성능 개선이 가능함을 확인할 수 있다.

아래 모든 테스트는 그리드센터CAP에서 제공하는 최적 DISK I/O 환경에서 진행되었다.

BMT 2 결과

예제 중 중간 규모의 문제인 bmd-7.dat 예제를 가지고 1대 서버에서 core 1,2,4,8 조합으로

해석을 진행함

Core수 1 2 4 8

수행시간(초) 1196 866 633 631

본 테스트에서는 ANSYS의 경우 1대 서버에서 여러 개의 core를 이용할 경우 4개 core를 사

용하여 해석할 경우 1.8배의 성능 개선이 확인 되었다. 하지만 8개 core를 이용하였을 때 4

개 코어에 비해 성능 개선이 일어 나지 않았다. 이는 단일 시스템 내에서 multi core를 사

용할 경우 ANSYS 해석 시 발생하는 DISK I/O가 core 수에 비례하여 증가함으로 전반적인 해

석 성능이 저하되는 것을 확인되었다.

ANSYS-HPC 단일 서버 성능 분석

0

200

400

600

800

1000

1200

1400

1 2 4 8

core 수

tim

e(s

ec)

수행시간

BMT 3 결과

2번 BMT에서 단일 서버에서 multi core로 테스트를 하였는데, 본 테스트는 4대 서버를 이용

하여 2번 BMT와 동일한 테스트를 진행함. 결과는 아래와 같음.

Core수 1 2(1+1) 4(1+1+1+1) 8(2+2+2+2)

수행시간(초) 1196 728 455 368

위 결과와 같이 단일 서버 내에서 8core를 이용했을 때 최대 631초가 소요되었는데 4대의

서버를 이용한 병렬 계산 시에는 8core로 해석 시 최대 368초까지 수행 속도가 단축되는 것

을 확인함. 이는 단일 서버에서 8개의 core를 이용하여 계산했을 때 비해 1.7배의 성능이

증가하는 것이다.

1node vs 4node 성능 비교 분석

0

200

400

600

800

1000

1200

1400

1 2 4 8

core 수

tim

e(s

ec)

1node

4nodes

BMT 4 결과

2번, 3번 BMT를 통해 같은 core를 사용한다 하더라도 여러 대의 서버로 ANSYS-HPC 계산을

수행했을 때 성능 개선이 더 크다는 것을 확인 하였다. 본 테스트에서는 다양한 core수로

동일한 해석을 할 때 core의 배열에 따른 성능 변화를 비교 분석하고자 한다.

Core 배열(4core) 수행속도

1+1+1+1 455

2+2 563

4 633

Core 배열(8core) 수행속도

2+2+2+2 354

4+4 413

8 631

여러 대의 서버에서 여러가지 core 배열을 가지고 동일한 core로 해석을 수행 할 경우 최적

의 core 배열은 서버 수를 증가하고, 서버 당 해석에 사용되는 core 수를 최소화할 경우 보

다 좋은 성능이 나오는 것을 확인함.

4core 배열 별 성능 비교 분석

0

100

200

300

400

500

600

700

1+1+1+1 2+2 4

core 배열

tim

e(s

ec)

수행속도

4core 배열 해석 성능 비교 그래프

8core 배열 별 성능 비교 분석

0

100

200

300

400

500

600

700

2+2+2+2 4+4 8

core 배열

tim

e(s

ec)

수행속도

8core 배열 해석 성능 비교 그래프

BMT 5 결과

본 테스트는 bmd-7.dat 예제를 가지고 core를 1 부터 16까지 증가하면서 ANSYS-HPC의

scalability 성능을 측정하였다. 결과는 아래와 같다.

Core수 1 2 4 8 16

수행시간(초) 1196 728 455 354 276

본 테스트 결과로 단일 서버 환경에서는 아무리 core 수를 증가해도 4core에서 1.8배의 성

능 이상의 개선은 기대 하기 힘들지만, 4 대의 서버로 최적의 core 배열을 이용하면 최대

4.3배의 성능 개선이 확인 되었다.

ANSYS 클러스터 성능 분석

0

200

400

600

800

1000

1200

1400

1 2 4 8 16

core

time(

sec)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

spee

dup

timespeedup

BMT 6 결과

본 테스트는 실무 환경에서 사용하는 대형 해석 모델로써 최적화된 GridCenter-CAP 통합 해

석 환경에서 ANSYS-HPC의 성능이 어느 정도 개선되는지를 측정한 것이다.

Core수 1 2 4 8 16

수행시간(초) 24632 18947 10709 6842 5864

결과는 16core로 해석 시 최대 4.2배의 성능 개선이 확인되었음. 소규모와 중간 규모의 문

제에서의 성능 분석 결과에서는 작은 core 수와 적절한 계산 서버 수를 확장했을 경우 성능

개선 가능성이 컸지만, 대규모 문제에서는 노드당 4core씩 2대 서버로 구성한 8core 해석에

서 최적의 성능이 측정 되었다.

ANSYS-HPC 확장 성능 분석

0

5000

10000

15000

20000

25000

30000

1 2 4 8 16

core 수

time(

sec)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

timespeedup

ANSYS의 경우 다양한 분야의 해석이 가능하고, 각 분야의 해석 별로 시스템 자원의 활용방

식이 다르다는 것을 확인함. 특정 예제의 경우 Disk I/O 보다 CPU 계산 능력에 집중되는 반

면 특정 예제의 경우는 엄청난 I/O를 발생함으로 같은 서버 내에서 core만 확장할 경우 더

성능이 떨어지는 것을 확인함. 이럴 경우는 서버내의 core 확장 보다는 서버 수를 증가하면

서 I/O를 같이 분산할 경우 최적의 성능이 나타낼 수 있는 것을 확인함.

BMT 수행 환경 : GridCenter CAP-ANSYS

본 BMT를 수행한 GridCenter CAP 통합 해석 시스템의 BMT 작업 환경에 대해 간략히 소개함.

그리드센터CAP은 중앙에 고성능 계산용 클러스터 시스템을 구축한 후 모든 해석 작업을 웹

에서 통합 처리, 관리하도록 해주는 통합 해석 시스템 구축 운영 솔류션입니다.

위 화면은 해석을 위해 그리드센터CAP으로 접속을 하는 로그인 화면입니다.

로그인 후 첫 페이지에서는 현재 시스템의 부하 상태와 진행 중인 작업에 대한 정보를 간단

히 확인 할 수 있습니다.

ANSYS 해석 작업 모니터링 화면입니다. 현재 실행 중인 ANSYS 해석 작업과 작업 별 기본 정

보를 확인할 수 있습니다.

ANSYS 해석 작업 제출 화면입니다. 설계가 된 예제를 가지고 위 작업 폼에서 작업을 제출하

면, 그리드센터에서 자동으로 최적의 계산 서버와 CPU를 자동 할당하여 ANSYS-HPC 작업을

진행하게 합니다.

제출된 작업의 상세 정보를 확인할 수 있고, 작업 진행 상태를 웹에서 실시간으로 모니터링

할 수 있습니다.

해석 작업이 완료되면, 후처리를 위한 다양한 기능을 웹 기반으로 제공하고 있습니다.

작업 로그 확인, 결과 파일 다운로드, 작업 디렉토리 네트워크 드라이브 연결, 작업 디렉토

리 터미널 연결, 반복 추가 작업 제출 기능들이 있습니다.

그리드센터CAP에서 제공하는 작업 터미널 접속 기능으로, 후처리 작업을 진행하는 화면입니

다. 통합해석시스템에서 완료된 해석 결과를 바로 웹에서 후처리 기능으로 연결 시켜 주는

기능을 제공하고 있습니다.

후처리 진행 화면

ANSYS-HPC 해석 진행 시 프로세스 모니터링 화면

통합 해석 시스템에서 이루어진 모든 작업 정보는 DB화 되어, 과거 작업에 대한 정보 검색

및 결과를 재 확인 가능하며, 해석 결과 데이터에 대해 보다 체계적인 데이터 관리가 가능

함으로 해석 결과에 대한 체계적인 지식 자산화를 통해 해석 작업의 전체 생산성을 향상 시

켜 줍니다.

ansys high performance computing module 성능 분석...

Documents