NVIDIA Tegra

개요

엔비디아에서 설계한 모바일 AP 제품군이다.

상세 스펙

테그라 2

AP20H, T20

CPU	GPU
(CPU 종류, 코어 수) **** Mhz	(GPU 종류) *** Mhz
생산 공정	램 대역폭
(파운드리 회사) ** nm (공정명)	(램 대역폭)
(이 AP를 사용하는 기기)

AP25, T25

CPU	GPU
**** Mhz	*** Mhz
(이 AP를 사용하는 기기)

(테그라 2 20계열과 25계열은 같은 항목에 같이 서술, 뭐 사실 서술 나눠야 할 필요도 그닥 없어보여요)

(AP 상세 설명)

테그라 3

테그라 4, 테그라 4i

테그라 4와 4i에 탑재된 ULP Geforce는 전작인 테그라 3과 대비해서 GPU 코어수를 크게 늘리고, 동작 클럭을 높여서 GPU 성능을 크게 높였다. 테그라 4의 CPU는 ARM Cortex-A15 4+1코어가 탑재되어서 높은 성능을 보여주었지만, 이때부터 소비전력이나 TDP 등의 여러가지 문제로 인해 제 클럭을 유지하면서 스마트폰에 탑재되는게 어려워 졌고, 테그라 4i가 나온것도 그 일환으로 보인다. 후속작인 테그라 K1부터는 스마트폰 탑재를 포기하고 태블릿 혹은 그 이상의 체급의 기기를 노리고 있는 것으로 보인다.

Tegra 4 T114

CPU	GPU
(CPU 종류, 코어 수) **** Mhz	(GPU 종류) *** Mhz
생산 공정	램 대역폭
(파운드리 회사) ** nm (공정명)	(램 대역폭)
(이 AP를 사용하는 기기)

(AP 상세 설명)

Tegra 4i T148

CPU	GPU
(CPU 종류, 코어 수) **** Mhz	(GPU 종류) *** Mhz
생산 공정	램 대역폭
(파운드리 회사) ** nm (공정명)	(램 대역폭)
(통신 규격)
(이 AP를 사용하는 기기)

스마트폰의 탑재를 염두해 두고 Icera 모뎀칩이 탑재되었다.

테그라 K1 32Bit, 64Bit

테그라 X1

(스펙표)

쉴드 안드로이드 TV의 전력소모량을 보면 최대 20W까지 상승하는걸 볼수 있다. 물론 기기 전체의 전력소모량을 측정한 것이니 디스플레이의 전력소모량도 꽤 될것이고, 쓰로틀링 자체도 느슨하게 설정되어 있는걸 감안해야 하지만 소형 모바일 기기에서는 사용이 불가능하거나 제성능을 내는건 많이 힘들것이다.

ULP Geforce

이 항목은 ULP Geforce 또는 ULP Geforce 시리즈로도 들어올수 있다. 기기 설명에 ULP Geforce 12코어 520Mhz 라고 적혀 있으면 ULP Geforce 12코어 520Mhz로 하이퍼 링크를 달아주자.

엔비디아에서 ULP Geforce가 8코어, 12코어, 72코어라고 마케팅을 하고 엔비디아가 GPU 회사이다 보니 Tegra 시리즈에 탑재된 GPU가 고성능이라고 생각하는 사람들이 많지만 연산 유닛(ALU) 하나를 한개의 코어로 정의한거라서 곧이 곧대로 믿으면 안된다.

모바일 GPU 회사에서 코어 수를 표시하는 기준은 제각각 다르지만 보통 클러스터 하나를 MP1, 1코어로 표기하고 있고 Adreno의 경우는 아예 코어 수 마케팅을 안하고 있다.

테그라 2, 3, 4의 GPU는 G70 기반 아키텍쳐를 사용하고 있다. 구형 아키텍쳐라서 OpenGL ES 2.0까지만 지원한다.

ULP Geforce 8코어(Tegra 2)

테그라 2의 GPU 내부 구조

300 ~ 400Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 8개이고, 버텍스 셰이더에 4개, 픽셀 셰이더에 4개 들어있다. 실질적인 코어 구조는 버텍스 셰이더 1 : 픽셀 셰이더 1이라고 볼수 있고 텍스쳐 필레이트는 300 ~ 400 MTexel/s, FP32 연산성능은 4.8 ~ 6.4 GFLOPS이다.

성능 자체로만 보면 경쟁 상대인 ARM Mali-400 MP4 266Mhz나 PowerVR SGX543 MP2에 비해 절대적인 열세, Adreno 220과 비교시 GL벤치마크 2.1에서는 동급, GL벤치마크 2.5에서는 열세, OMAP 4 시리즈의 PowerVR SGX540과 비교하면 동급인 수준이다. 그러나 그당시 ARM Mali는 호환성 문제를 겪고 있었고 최적화가 잘된 테그라존 게임에서 ULP Geforce는 괜찮은 성능을 보여주었다. 그러나 일부 게임, 예를 들면 확산성 밀리언 아서같은 게임은 호환성 문제를 겪었다.

ULP Geforce 12코어(Tegra 3)

테그라 3의 GPU 내부 구조

ULP Geforce 60코어(Tegra 4i)

테그라 4i의 GPU 내부 구조

ULP Geforce 72코어(Tegra 4)

테그라 4의 GPU 내부 구조

ULP Geforce GK20A 192코어(테그라 K1)

내부 구조도는 추후 업로드

테그라 K1부터 드디어 엔비디아의 데스트탑 GPU에서 사용하는 최신 아키텍쳐인 케플러 아키텍쳐를 사용했다. ULP Geforce 최초의 통합셰이더 기반 GPU이기도 하다.

내부 구성은 192개의 SP, 8개의 텍스쳐 유닛, 4개의 ROP로 케플러 아키텍쳐의 1 SMX과 유사한 구조를 가지고 있다. GPU의 최대 클럭은 950 Mhz로, FP32와 FP16 연산성능은 최대 365 GFLOPS이고 텍스쳐 필레이트는 7.6 GTexel/s이다.

GFX벤치로 모바일 기기에서 가장 많이 사용되는 OpenGL ES API상의 성능을 측정해 보면, Apple A7보다 2.5배 높은 GPU 성능을 가지고 있다고 한다. 실제로 GFX벤치 3.0 오프스크린 결과를 보면 32fps로, 2014년에 상용화된 다른 모바일 AP의 GPU 성능을 훨씬 상회하는 수준이고 Apple A8X에 탑재된 PowerVR GXA6850의 초기 벤치와 유사한 성능을 보여주었다. 높은 부동소숫점 연산성능으로 인해 FP연산 반영비중이 GFX벤치보다 높은 3DMark에서는 후속작인 Tegra X1의 ULP Geforce와 함께 진면목을 보여준다.

다만, 높은 TDP로 인해 저전력을 요구하는 스마트폰의 AP로는 적절하지 못하다. 엔비디아의 설명을 보면 Geforce 740M의 TDP가 19W이고 온갖 이상적인 조건을 다 붙이고 K1의 GPU는 740M의 절반이니 2~3 W의 전력소모량을 가진다고 하지만 그냥 황구라의 구라중 하나이니 귓등으로 흘려 넘기면 된다.

전작인 테그라 2, 3, 4의 ULP Geforce와 비교하면 이번 ULP Geforce는 다양한 API를 지원하고 케플러 아키텍쳐를 기반으로 설계된 GPU라서 추후 Vulkan API를 지원할 가능성이 꽤 높아졌다. Tegra K1의 GPU를 페르미 기반이 아닌 케플러 기반으로 설계한것도 이런 의도가 있는것으로 추정되고 있다.

ULP Geforce GM20A 256코어(테그라 X1)

내부 구조도 추후 업로드

테그라 X1에는 맥스웰 아키텍쳐를 기반으로 한 GPU를 사용하였다.

내부 구성은 2개의 맥스웰 기반 SMM으로 이루어져 있다. 세부 사양을 보면 256개의 SP와 16개의 TMU, ROP로 이루어져 있고, 동작 클럭은 ~~계산하기 편하게~~ 1Ghz로 FP32 연산성능은 최대 512 GFLOPS, FP16 연산성능은 테라플롭스 단위까지 올라간다. 필레이트는 16 GTex, Pix/s 이다.

맥스웰 기반 아키텍쳐를 사용해서 FP16 연산성능이 FP32의 2배로 늘어났다. 이로 인해 GFX벤치 상에 나타나는 성능이 K1보다 크게 늘었다. 3.0 맨해튼 오프스크린 기준 65fps에 2.7 티렉스 기준 124fps로, 2015년 이후로 나온 모바일 AP의 GPU중 X1의 ULP Geforce를 따라잡은 GPU는 PowerVR 7XT 12클러스터밖에 존재하지 않다.

파스칼 아키텍쳐 기반 ULP Geforce(차기 테그라)

추가 예정

각주