ARM Mali

개요[편집 | 원본 편집]

모바일 기기의 CPU를 설계하는 회사인 ARM의 노르웨이 지사에서 설계한 GPU 제품군이다. Mali-55를 시초로 지금까지 Mali-T800번대 까지의 제품이 출시되었다. ARM이 GPU에 손을 댄지 얼마 되지 않았고 그만큼 타사에 비해 노하우라던가 효율면에서 소폭 부족한 모습이 많이 보여지지만 저렴한 라이센스 비용, ARM이라는 회사 자체의 브랜드나 저력으로 인해 모바일 GPU 분야에서 점유율을 늘려가고 있고,[1] 3대 모바일 GPU 안에 드는 제품군이다. 국내에는 엑시노스 4210에 이 GPU가 탑재되어서 인지도가 높아졌다.

전체적으로 타사에 비해 API 지원 폭이 넓은 폭이다. 특히 미드가르드 아키텍처가 들어간 T600, T700, T800번대 제품군은 전부 OpenGL ES 3.1 + AEP를 지원한다.

기기 설명의 GPU 제원에 ARM Mali-T628 헥사코어 480Mhz 라고 표기되어 있다면 ARM Mali-T628 헥사코어 480Mhz 로 하이퍼링크를 달아주자.

제품 목록[편집 | 원본 편집]

Mali-200, 300, 4XX[편집 | 원본 편집]

Mali-T600, T700, T800[편집 | 원본 편집]

11 (1).jpg
13.jpg

Midgard 아키텍처를 사용하는 Mali-T880의 내부 구조도

Midgard 아키텍처는 ARM Mali-200, 300, 400에 쓰인 Utgard의 후속으로 나온 GPU 아키텍처로 Mali-T600, 700 그리고 800번대에 약간의 변화를 거치면서 사용되었다.
셰이더 코어 내부의 구조는 Tri-Pipe로 이루어져 있다. 하나는 ALU, 하나는 Load/Store Pipe 다른 하나는 Texture Pipe이다. 일반적으로 셰이더 코어 내의 ALU는 2개가 들어가지만 보급형 GPU 제품군에 속하면 1개의 ALU가 들어가기도 하고 Mali-T658이나 T678은 하나의 코어 내에 무려 4개의 ALU가 들어간다. 위의 구조도에 나온 Mali-T880은 3개의 ALU가 들어가 있는걸 볼수 있다.
1개의 ALU는 FP32 기준 17FLOPS/Cycle의 연산성능을 가지고 있다. 처음으로 미드가르드를 사용한 Mali-T604 MP4(혹은 쿼드코어)의 연산성능은 500Mhz 기준 68 GFLOPS로, 전작인 Utgard에 비해 비약적으로 연산성능이 늘어났고 그에 따라 버텍스 병목현상도 자연스럽게 사라졌다.

Mali-T600 시리즈 (533MHz 기준, 1코어당 성능)
제품 명칭 구성 가능 코어수 ALU 수[2] TMU 수 FP32 연산성능 필레이트 OpenGL API 지원
Mali-T604 1 ~ 4 2 1 18.1 GFLOPS 533 MPixel/s OpenGL ES 3.1 + AEP
Mali-T658 1 ~ 8 4 1 36.2 GFLOPS
Mali-T622 1 ~ 2 2 1 18.1 GFLOPS
Mali-T624 1 ~ 4 2 1 18.1 GFLOPS
Mali-T628 1 ~ 8 2 1 18.1 GFLOPS
Mali-T678 1 ~ 8 4 1 36.2 GFLOPS

Mali-T604와 T658은 ARMGPU중 최초로 미드가르드 아키텍처를 사용했고, T604, T658을 1세대 미드가르드 GPU, 나중에 공개된 T62x, T678을 2세대 미드가르드 GPU로 분류한다.

Mali-T700 시리즈 (650MHz 기준, 1코어당 성능)
제품 명칭 구성 가능 코어수 ALU 수[3] TMU 수 FP32 연산성능 필레이트 OpenGL API 지원
Mali-T720 1 ~ 8 1 1 11.05 GFLOPS 650 MPixel/s OpenGL ES 3.1 + AEP
Mali-T760 1 ~ 16 2 1 22.1 GFLOPS

Mali-T620, T678의 후속작으로 나온 ARMGPU 제품군이다. 예전에는 Mali-T62x의 코어수를 1~8개의 범위 내에서 필요한 성능 수준만큼 고객사에서 알아서 선택할 수 있었는데, T700 시리즈는 면적 효율 설계가 적용되어서 저성능~중간 정도의 성능을 노리는 Mali-T720과 고성능을 목표로 한 Mali-T760으로 라인업이 세분화 되었다.

Mali-T720 MP8은 TSMC의 28HPM 공정 기준으로 650MHz의 권장 클럭에서 88.4 GFLOPS의 부동소숫점 연산능력, 650 MTri/s, 5.2 GPix/s의 성능을 가지고 있다. 물론 보급형으로 설계된 GPU라서 실제로 엑시노스 7580이나 미디어텍 MT 시리즈 등에 탑재될 때에는 많아야 2~3개의 코어를 탑재한다. 주로 ARM Cortex-A53을 CPU로 사용하는 모바일 AP와 조합을 이루는 경우가 많다. 퀄컴 Adreno 405와 비슷한 포지션이라고 생각하면 이해가 빠를 것이다.

Mali-T760 MP16은 TSMC의 28HPM 공정 기준으로 650MHz의 권장 클럭에 353.6 GFLOPS의 부동소숫점 연산능력, 1300 MTri/s, 10.4 GPix/s의 버텍스, 픽셀 성능을 가지고 있다. 플래그쉽급 모바일 AP에 탑재되는 GPU로 실제로 저 16코어가 전부 탑재되는 일은 없었지만, 엑시노스 5433에는 6코어 구성, 엑시노스 7420에는 8코어 구성으로 탑재되어서 각각 Adreno 420, Adreno 430과 경쟁 구도를 가졌다. 엑시노스 5433의 T760은 전력효율이나 성능이나 Adreno 420보다 부족한 모습을 보여 주었지만, 엑시노스 7420에 탑재된 T760은 자체 14nm 팹의 도움을 받아 화룡 논란에 시달리던 퀄컴 스냅드래곤 810의 Adreno 430보다 우수한 전력대비 성능을 보여주었다.

Mali-T800 시리즈 (ARM社 권장 클럭 기준, 1코어당 성능)
제품 명칭 구성 가능 코어수 ALU 수[4] TMU 수 권장 클럭 FP32 연산성능 필레이트 OpenGL API 지원
Mali-T820 1 ~ 4 1 1 650MHz 11.05 GFLOPS 650 MPixel/s OpenGL ES 3.1 + AEP + Vulkan API
Mali-T830 1 ~ 4 2 1 650MHz 22.1 GFLOPS 650 MPixel/s
Mali-T860 1 ~ 16 2 1 650MHz 22.1 GFLOPS 650 MPixel/s
Mali-T880 1 ~ 16 3 1 850MHz 43.35 GFLOPS 850 MPixel/s

Mali-T800번대 GPU들은 Mali-T720, T760의 후속작으로 나온 ARMGPU 제품군이다. 연산 유닛 수, 최대 코어 갯수에 따라 T820, T830, T860, T880으로 제품군이 나눠져 있다. T720, T760 으로 제품군을 나눈 전작과 비교해보면 라인업을 더욱 세분화 시켰다는 것을 알 수 있다. 그리고 미드가르드 아키텍처를 사용하지만 전작인 T700번대 GPU와 비교해서 전력 효율이 더욱 상승했다고 한다.

GPU 이외의 제품군[편집 | 원본 편집]

관련 문서[편집 | 원본 편집]

각주

  1. 시간 순으로 점유율 자료를 나열하면, ### 으로 모바일 GPU 점유율을 퀄컴, PowerVR을 설계하는 이매지네이션 테크놀로지와 함께 나눠먹고 있다.
  2. 편의상 17FLOPS/Cycle 짜리 파이프 하나를 1 ALU라고 간주
  3. 편의상 17FLOPS/Cycle 짜리 파이프 하나를 1 ALU라고 간주
  4. 편의상 17FLOPS/Cycle 짜리 파이프 하나를 1 ALU라고 간주