NVIDIA Tegra

엔비디아 테그라(NVIDIA Tegra)는 엔비디아에서 설계한 모바일 AP 제품군이다. 예전에는 안드로이드 계열 스마트폰에 탑재되는 4강 AP중 하나였지만, 테그라존 내의 게임이 최적화가 좋은 걸 제하면 그렇게 좋은 평가를 받지 못한 AP이다.

이후 테그라 K1부터의 엔비디아의 행보를 보면 태블릿 컴퓨터 이상급 라인업이나 자동차 쪽으로 타겟을 전환한 것으로 보이고, 모바일 시장에서의 점유율은 큰 폭으로 하락했다. 거금을 들여 인수한 Icera 모뎀칩 사업을 포기한 것으로 보인다. 이 사업을 포기했다는 기사가 나온 것이 엔비디아가 모바일쪽을 포기했다는 또 하나의 증거가 될 수도 있을 것이다.

1 상세 스펙[편집]

1.1 테그라 2[편집]

  • 테그라 250 AP20H, T20
CPU GPU
ARM Cortex-A9 듀얼코어 1000MHz ULP Geforce 8코어 300 ~ 333MHz
생산 공정 램 대역폭
TSMC 40nm 싱글채널 LPDDR2/DDR2
옵티머스 2X, 모토로라 아트릭스, 모토로라 Xoom, 갤럭시 탭 10.1
  • 테그라 250 3D AP25, T25
CPU GPU
1200MHz 400MHz
옵티머스 Q2, 옵티머스 EX

테그라 APX 시리즈와 600번대 시리즈의 뒤를 잇는 엔비디아모바일 AP이다. 세계 최초로 듀얼코어 CPU를 탑재한 모바일 AP 이기도 하다.

동급의 타 모바일 AP가 45nm 공정에서 생산되었지만 테그라 2 시리즈는 TSMC의 40nm 공정에서 생산되었다. 공정밀도 자체도 높은 편이고 탑재한 Cortex-A9 CPU 또한 ARM의 NEON SIMD가 미탑재된 구성이라서 동급의 모바일 AP중 가장 작은 다이사이즈를 가지게 되었다. 물론 40nm 공정으로 인한 작은 다이사이즈 말고는 딱히 장점을 찾기는 힘들다.

탑재된 Cortex-A9 CPU의 IPC는 엑시노스TI OMAP의 그것보다는 낮다는 평가를 받고 있다. 게다가 CPU 내의 NEON 미탑재로 동영상 구동 능력이 타 AP에 비해 매우 뒤떨어진 수준을 가지고 있다. 저조한 CPU 성능은 AP25, T25에서의 클럭 상승으로 인해 어느 정도 해결되었다.

GPU의 성능은 아래의 ULP Geforce 항목을 참고하자.

1.2 테그라 3[편집]

  • Tegra 3 T30L, T30, AP33, T33
CPU GPU
ARM Cortex-A9 쿼드코어 + 컴패니언 코어
1200MHz[1] (T30L)
1400MHz[2] (T30, AP33)
1600MHz[3] (T33)
ULP Geforce 12코어 416 ~ 520MHz
생산 공정 램 대역폭
TSMC 40nm LPG 싱글채널 DDR3 (T30L, T33)
싱글채널 LPDDR2 / DDR3L (T30, AP33)
넥서스 7, Xperia Tablet S (T30L)
Asus Eee Pad Transformer Prime, Surface RT (T30)
옵티머스 4X HD, HTC One X (AP33)
Ouya(게임 콘솔), HTC One X+ (T33)

테그라 250과 테그라 250 3D, 통틀어서 테그라 2라고 불리는 모바일 AP의 후속작으로 나온 엔비디아의 모바일 AP이다. 세계 최초로 쿼드코어를 탑재한 AP이기도 하고 전작처럼 쿼드코어의 효용성에 대한 논란이 있기도 했다.

동급의 타 모바일 AP들이 32/28nm 공정에서 생산되는데 반면에 테그라 3은 TSMC의 28nm 수율 문제로 인해 40nm LPG 공정에서 생산되었고, 이로 인해 타 모바일 AP들 보다 훨씬 빠른 시기에 출시할 수 있었지만 그만큼 다이사이즈가 크게 늘어나게 되었다.

탑재된 CPU는 전작과 같은 ARM社의 Cortex-A9이다. 쿼드코어 + 컴패니언 코어 구성으로 전작에 빼먹은 NEON SIMD Extension이 다시 탑재되어서 전작에 약점으로 꼽힌 동영상 재생 능력이 개선되었다고 한다. 이 외에 CPU에 다양한 전력관리 능력이 탑재되었는데 500MHz로 작동하고 LP 공정에서 생산된 컴패니언 코어가 탑재되었고, 위의 스펙표에서 볼 수 있듯이 1~2코어 로드시와 3~4코어 로드시의 최대 클럭에 차이를 두었는데 이는 현재 모바일 AP에 쓰이는 big.LITTLE 기술이나 엑시노스 8890에 사용된 부스트 클럭과 유사한 특징을 가진다.

CPU의 성능은 싱글코어 성능 기준으로 정수와 부동소숫점 연산 능력은 Cortex-A9 1.2 Ghz가 탑재된 엑시노스 4210과 1.3 Ghz인 T30L이 비슷한 수준, 1.4 Ghz인 엑시노스 4412과 1.5 Ghz인 AP33이 비슷한 수준으로 측정되지만, 싱글채널 메모리로 인한 램 대역폭 부족으로 메모리 점수가 크게 낮아진 덕분에 여전히 Geekbench 3으로 측정되는 싱글코어 점수는 낮은 편이다.

GPU는 Geforce G70 아키텍처 기반 버텍스 셰이더가 1개, 픽셀 셰이더가 2개 탑재되어 있다. 자세한 기술 제원은 아래 ULP Geforce 항목에서 볼 수 있다.

1.3 테그라 4, 테그라 4i[편집]

테그라 4와 4i에 탑재된 ULP Geforce는 전작인 테그라 3과 대비해서 GPU 코어수를 크게 늘리고, 동작 클럭을 높여서 GPU 성능을 크게 높였다. 테그라 4의 CPUARM Cortex-A15 4+1코어가 탑재되어서 높은 성능을 보여주었지만, 이때부터 소비전력이나 TDP 등의 여러 가지 문제로 인해 제 클럭을 유지하면서 스마트폰에 탑재되는게 어려워 졌고, 테그라 4i가 나온것도 그 일환으로 보인다. 후속작인 테그라 K1부터는 스마트폰 탑재를 포기하고 태블릿 혹은 그 이상의 체급의 기기를 노리고 있는 것으로 보인다.

  • Tegra 4 T114
CPU GPU
(CPU 종류, 코어 수) ****MHz (GPU 종류) ***MHz
생산 공정 램 대역폭
(파운드리 회사) ** nm (공정명) (램 대역폭)
(이 AP를 사용하는 기기)


(AP 상세 설명)

  • Tegra 4i T148
CPU GPU
(CPU 종류, 코어 수) ****MHz (GPU 종류) ***MHz
생산 공정 램 대역폭
(파운드리 회사) ** nm (공정명) (램 대역폭)
(통신 규격)
(이 AP를 사용하는 기기)


스마트폰의 탑재를 염두해 두고 Icera 모뎀칩이 탑재되었다.

1.4 테그라 K1 32Bit, 64Bit[편집]

  • Tegra K1(32비트) T124
CPU GPU
ARM Cortex-A15 쿼드코어 2300MHz + 컴패니언 코어 Nvidia Kepler 852MHz
생산 공정 램 대역폭
(파운드리 회사) ** nm (공정명) (램 대역폭)
(이 AP를 사용하는 기기)


(AP 상세 설명)

  • Tegra K1(64비트) T132
CPU GPU
Nvidia Denver 듀얼코어 2499MHz Nvidia Kepler 852MHz
생산 공정 램 대역폭
TSMC 28nm HPM (램 대역폭)
넥서스 9

엔비디아가 자사의 여러 제품에 사용할 목적으로 ARMv8 기반의 64비트 자체 아키텍처를 개발하고 있었다는 소문은 이미 널리 알려져 있었다. 테그라 K1을 공개하면서 엔비디아는 자사의 덴버라는 자체 커스텀 아키텍처를 공개했는데, 이는 애플의 Cyclone/Typhoon을 제외하면 최초의 64비트 CPU이다.

덴버는 7-wide 슈퍼스칼라 구조를 가지고 있어서 그 당시 다른 모바일 AP에 들어간 CPU보다 훨씬 넓은 코어 구성을 가지고 있다. 그리고 ARM 기반 CPU중 가장 많은 L1 캐시를 가지고 있어서 ARM Cortex 시리즈나 퀄컴의 Krait 보다 훨씬 높은 IPC를 가지게 되었고, 2.5 Ghz 라는 높은 클럭으로 압도적인 싱글코어 처리 능력을 보유하게 되었다. Geekbench 3 결과를 통해 측정된 성능을 보면 싱글코어 점수가 최대 2070점대로 측정되는데 이는 Apple A8의 1630점, 엑시노스 7420의 1570점을 큰 폭으로 뛰어 넘는 결과이다. 멀티코어 성능도 듀얼코어 구성인데에도 불구하고 3000점대 중반으로 퀄컴 스냅드래곤 805나 테그라 K1 32비트 버젼과 비슷한 성능을 보여주었다.

GPU는 케플러 아키텍처 기반의 ULP Geforce가 탑재되어 있고 테그라 K1 32비트와 동일한 사양을 가지고 있다. 자세한 기술적 제원이나 벤치마크로 나타나는 성능은 아래 ULP Geforce 항목 참조.

1.5 테그라 X1[편집]

  • Tegra X1 T210
CPU GPU
(CPU 종류, 코어 수) ****MHz (GPU 종류) ***MHz
생산 공정 램 대역폭
(파운드리 회사) ** nm (공정명) (램 대역폭)
(이 AP를 사용하는 기기)


(AP 상세 설명)

쉴드 안드로이드 TV의 전력소모량을 보면 최대 20W까지 상승하는걸 볼수 있다. 물론 기기 전체의 전력소모량을 측정한 것이니 디스플레이의 전력소모량도 꽤 될것이고, 쓰로틀링 자체도 느슨하게 설정되어 있는걸 감안해야 하지만 소형 모바일 기기에서는 사용이 불가능하거나 제성능을 내는 건 많이 힘들것이다.

2 ULP Geforce[편집]

  • 이 항목은 ULP Geforce 또는 ULP Geforce 시리즈로도 들어올수 있다. 기기 설명에 ULP Geforce 12코어 520Mhz 라고 적혀 있으면 ULP Geforce 12코어 520Mhz로 하이퍼 링크를 달아주자.

엔비디아에서 ULP Geforce가 8코어, 12코어, 72코어라고 마케팅을 하고 엔비디아가 GPU 회사이다 보니 Tegra 시리즈에 탑재된 GPU가 고성능이라고 생각하는 사람들이 많지만 연산 유닛(ALU) 하나를 한개의 코어로 정의한거라서 곧이 곧대로 믿으면 안 된다.

모바일 GPU 회사에서 코어 수를 표시하는 기준은 제각각 다르지만 보통 클러스터 하나를 MP1, 1코어로 표기하고 있고 Adreno의 경우는 아예 코어 수 마케팅을 안하고 있다.

테그라 2, 3, 4의 GPU는 G70 기반 아키텍처를 사용하고 있다. 구형 아키텍처라서 OpenGL ES 2.0까지만 지원한다.

  • ULP Geforce 8코어(Tegra 2)

T2GPU2.png

테그라 2의 GPU 내부 구조

300 ~ 400Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 8개이고, 버텍스 셰이더에 4개, 픽셀 셰이더에 4개 들어있다. 실질적인 코어 구조는 버텍스 셰이더 1 : 픽셀 셰이더 1이라고 볼수 있고 텍스쳐 필레이트는 300 ~ 400 MTexel/s, FP32 연산성능은 4.8 ~ 6.4 GFLOPS이다.

성능 자체로만 보면 경쟁 상대인 ARM Mali-400 MP4 266Mhz나 PowerVR SGX543 MP2에 비해 절대적인 열세, Adreno 220과 비교시 GL벤치마크 2.1에서는 동급, GL벤치마크 2.5에서는 열세, OMAP 4 시리즈의 PowerVR SGX540과 비교하면 동급인 수준이다. 그러나 그당시 ARM Mali는 호환성 문제를 겪고 있었고 최적화가 잘된 테그라존 게임에서 ULP Geforce는 괜찮은 성능을 보여주었다. 그러나 일부 게임, 예를 들면 확산성 밀리언 아서같은 게임은 호환성 문제를 겪었다.

  • ULP Geforce 12코어(Tegra 3)

T3GPU2.png

테그라 3의 GPU 내부 구조

416~520Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 12개이고, 버텍스 셰이더에 4개, 픽셀 셰이더에 8개 들어있다. 실질적인 코어 구조는 버텍스 셰이더 1 : 픽셀 셰이더 2개라고 볼수 있고 텍스쳐 필레이트는 약 0.8 ~ 1.0 GTexel/s, FP32 연산성능은 약 15 ~ 18.7 GFLOPS이다.

엔비디아의 발표에 따르면, 전작인 ULP Geforce MP8 대비 3배의 성능을 보여준다고 한다. 실제로 코어 수 증가와 높아진 클럭 덕분에 GL벤치마크 상에서의 성능은 테그라 2의 ULP Geforce 300MHz의 3배의 성능을 가진 것으로 측정되었다.

모바일 APGPU와 비교하면 GL벤치마크 2.1상에서는 엑시노스 4210의 ARM Mali-400과 Adreno 225보다 높은 수치, Apple A5와 엑시노스 4412의 GPU보다 낮은 수치를 보여주었다. GL벤치마크 2.5에서는 엑시노스 4210의 GPU와 동급의 성능을 보여주고 위에 언급된 다른 GPU와 비교시 상대적으로 더 떨어진 성능을 가진 것으로 측정되었다.

엑시노스 4210이 테그라 2와 비교되던 이전세대의 모바일 AP인걸 감안하면, 성능이 3배 올랐지만 타 AP의 GPU 성능을 따라잡기에는 아직 역부족이라는게 중론.

  • ULP Geforce 60코어(Tegra 4i)

T4iGPU.png

테그라 4i의 GPU 내부 구조

660Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 60개이며, 실질적인 코어 구조는 테그라 4와 다르게 버텍스 셰이더를 3개로 줄이고 거대한 픽셀 셰이더를 2개 배치했다. 그래도 Tegra 3의 ULP Geforce MP12와 비교시 성능상 우위를 차지하고 있다.

LG G2 mini에 탑재된 Tegra 4i의 GPU 성능을 보면 GFX벤치 티렉스 2.7 기준 8.8fps의 성능을 보여주지만, Tegra 4i가 탑재된 다른 기기의 결과들을 보면 대체적으로 11fps대의 성능을 보이고 있다. 이는 ARM Mali-T604 쿼드코어보다 살짝 낮은 수준, Tegra 4의 ULP Geforce MP72의 절반 수준의 성능이다.

엄청나게 뛰어난 성능을 보여주는 것은 아니지만 그 시기의 중급형 AP의 GPU 치고는 준수한 성능을 보여준 셈.

  • ULP Geforce 72코어(Tegra 4)

T4GPU2.png

테그라 4의 GPU 내부 구조

672Mhz의 클럭으로 작동한다. 총 연산유닛(MAD) 수는 위에서 볼수 있듯이 72개이고, 버텍스 셰이더에 개당 4개의 MAD가 있고, 픽셀 셰이더에는 개당 3개의 ALUs, 1 ALUs 내에는 4 MAD가 존재한다. 텍스쳐 필레이트와 픽셀 필레이트는 전작 대비 2.6배 상승했고, FP32 연산성능은 전작 대비 무려 8배나 상승했다. 다만 타 모바일 AP의 GPU는 전부 통합셰이더 구조로 변화했는데 아직도 구형 아키텍처를 사용하는게 발목을 잡고 있다.

엔비디아의 발표에 따르면, 전작인 ULP Geforce MP12 대비 6배의 성능을 보여준다고 한다. 실제로 테그라 2 → 테그라 3의 경우와 같이 코어 수 증가, 클럭 증가로 인해 전작인 테그라 3 대비 높은 성능 향상을 이루어 냈다.

코어 수를 어마어마하게 때려 박아 큰 폭으로 성능 향상을 해낸 덕분에 드디어 타 모바일 AP의 GPU보다 높은 성능을 가질수 있게 되었다. GL벤치마크 2.7 결과를 이용하여 테그라 4의 ULP Geforce 72코어의 성능을 살펴 보면 엑시노스 5410의 SGX 544 트리플코어, 스냅드래곤 600의 Adreno 320은 물론, 스냅드래곤 800의 Adreno 330(450MHz)와 비슷한 성능을 가지고 있다는 것을 알 수 있다. 그러나 너무 높은 GPU 성능은 높은 CPU 클럭과 함께 테그라 4가 스마트폰의 AP로 사용이 불가능하게 된 것에 한 몫 했다.

  • ULP Geforce GK20A 192코어(테그라 K1)

K1.png

테그라 K1의 GPU 내부 구조

테그라 K1부터 드디어 엔비디아의 데스트탑 GPU에서 사용하는 최신 아키텍처인 케플러 아키텍처를 사용했다. ULP Geforce 최초의 통합셰이더 기반 GPU이기도 하다.

내부 구성은 192개의 SP, 8개의 텍스쳐 유닛, 4개의 ROP로 케플러 아키텍처의 1 SMX과 유사한 구조를 가지고 있다. GPU의 최대 클럭은 950MHz로, FP32와 FP16 연산성능은 최대 365 GFLOPS이고 텍스쳐 필레이트는 7.6 GTexel/s이다.

GFX벤치로 모바일 기기에서 가장 많이 사용되는 OpenGL ES API상의 성능을 측정해 보면, Apple A7보다 2.5배 높은 GPU 성능을 가지고 있다고 한다. 실제로 GFX벤치 3.0 오프스크린 결과를 보면 32fps로, 2014년에 상용화된 다른 모바일 AP의 GPU 성능을 훨씬 상회하는 수준이고 Apple A8X에 탑재된 PowerVR GXA6850의 초기 벤치와 유사한 성능을 보여주었다. 높은 부동소숫점 연산성능으로 인해 FP연산 반영비중이 GFX벤치보다 높은 3DMark에서는 후속작인 Tegra X1의 ULP Geforce와 함께 진면목을 보여준다.

다만, 높은 TDP로 인해 저전력을 요구하는 스마트폰의 AP로는 적절하지 못하다. 엔비디아의 설명을 보면 Geforce 740M의 TDP가 19W이고 온갖 이상적인 조건을 다 붙이고 K1의 GPU는 740M의 절반이니 2~3 W의 전력소모량을 가진다고 하지만 그냥 황구라의 구라중 하나이니 귓등으로 흘려 넘기면 된다.

전작인 테그라 2, 3, 4의 ULP Geforce와 비교하면 이번 ULP Geforce는 다양한 API를 지원하고 케플러 아키텍처를 기반으로 설계된 GPU라서 추후 Vulkan API를 지원할 가능성이 꽤 높아졌다. Tegra K1의 GPU를 페르미 기반이 아닌 케플러 기반으로 설계한 것도 이런 의도가 있는 것으로 추정되고 있다.

... 라는 기대심에 차 있는 테그라 유저들이 많았으나, 뒷통수를 제대로 얻어 맞았다고 한다.

  • ULP Geforce GM20B 256코어(테그라 X1)

X1-GPU.png

테그라 X1의 GPU 내부 구조

테그라 X1에는 맥스웰 아키텍처를 기반으로 한 GPU를 사용하였다.

내부 구성은 2개의 맥스웰 기반 SMM으로 이루어져 있다. 세부 사양을 보면 256개의 SP와 16개의 TMU, ROP로 이루어져 있고, 동작 클럭은 계산하기 편하게 1Ghz로 FP32 연산성능은 최대 512 GFLOPS, FP16 연산성능은 테라플롭스 단위까지 올라간다. 필레이트는 16 GTex, Pix/s 이다.

맥스웰 기반 아키텍처를 사용해서 FP16 연산성능이 FP32의 2배로 늘어났다. 이로 인해 GFX벤치 상에 나타나는 성능이 K1보다 크게 늘었다. 3.0 맨해튼 오프스크린 기준 65fps에 2.7 티렉스 기준 124fps로, 2015년 이후로 나온 모바일 AP의 GPU중 X1의 ULP Geforce를 따라잡은 GPU는 PowerVR 7XT 12클러스터밖에 존재하지 않다.

데스크탑/랩탑용 GPU와 비교하면 Geforce GT630M과 비슷한 성능이며, 다른 스마트폰용 AP의 GPU들도 X1의 ULP Geforce와 성능차이가 점점 좁혀진다는걸 감안하면 모바일 AP의 성능 성장세가 대단한 걸 느낄 수 있다.

  • 파스칼 아키텍처 기반 ULP Geforce(차기 테그라)

2.1 관련 문서[편집]

3 각주

  1. 싱글코어 구동시 최대 1.3 Ghz 까지 상승
  2. 싱글코어 구동시 최대 1.5 Ghz 까지 상승
  3. 싱글코어 구동시 최대 1.7 Ghz 까지 상승