NVIDIA Tegra 편집하기

{{넘겨주기|엔비디아 테그라}}
== 개요 ==
[[엔비디아]]에서 설계한 [[모바일 AP]] 제품군이다. 예전에는 [[안드로이드]] 계열 스마트폰에 탑재되는 4강 AP중 하나였지만, 테그라존 내의 게임이 최적화가 좋은걸 제하면 그렇게 좋은 평가를 받지 못한 AP이다.

이 후 테그라 K1부터의 엔비디아의 행보를 보면 태블릿 이상급 라인업이나 자동차 쪽으로 타겟을 전환한 것으로 보이고, 모바일 시장에서의 점유율은 큰 폭으로 하락했다.

[http://www.bodnara.co.kr/bbs/article.html?num=130131 거금을 들여 인수한 Icera 모뎀칩 사업을 포기한 것으로 보인다.] 이 사업을 포기했다는 기사가 나온 것이 엔비디아가 모바일쪽을 포기했다는 또 하나의 증거가 될 수도 있을 것이다.

== 상세 스펙 ==
=== 테그라 2 ===
* AP20H, T20
{| class="wikitable"
|-
! [[CPU]]
! [[GPU]]
|-
| (CPU 종류, 코어 수) **** Mhz
| (GPU 종류) *** Mhz
|-
! 생산 공정
! 램 대역폭
|-
| (파운드리 회사) ** nm (공정명)
| (램 대역폭)
|-
| colspan="2" | (이 AP를 사용하는 기기)
|}
* AP25, T25
{| class="wikitable"
|-
! [[CPU]]
! [[GPU]]
|-
| **** Mhz
| *** Mhz
|-
| colspan="2" | (이 AP를 사용하는 기기)
|}

(테그라 2 20계열과 25계열은 같은 항목에 같이 서술, 뭐 사실 서술 나눠야 할 필요도 그닥 없어보여요)

(AP 상세 설명)

=== 테그라 3 ===
=== 테그라 4, 테그라 4i ===
테그라 4와 4i에 탑재된 ULP Geforce는 전작인 테그라 3과 대비해서 [[GPU]] 코어수를 크게 늘리고, 동작 클럭을 높여서 GPU 성능을 크게 높였다. 테그라 4의 [[CPU]]는 [[ARM]] Cortex-A15 4+1코어가 탑재되어서 높은 성능을 보여주었지만, 이때부터 소비전력이나 TDP 등의 여러가지 문제로 인해 제 클럭을 유지하면서 [[스마트폰]]에 탑재되는게 어려워 졌고, 테그라 4i가 나온것도 그 일환으로 보인다. 후속작인 테그라 K1부터는 스마트폰 탑재를 포기하고 태블릿 혹은 그 이상의 체급의 기기를 노리고 있는 것으로 보인다.

* Tegra 4 T114
{| class="wikitable"
|-
! [[CPU]]
! [[GPU]]
|-
| (CPU 종류, 코어 수) **** Mhz
| (GPU 종류) *** Mhz
|-
! 생산 공정
! 램 대역폭
|-
| (파운드리 회사) ** nm (공정명)
| (램 대역폭)
|-
| colspan="2" | (이 AP를 사용하는 기기)
|}


(AP 상세 설명)

* Tegra 4i T148
{| class="wikitable"
|-
! [[CPU]]
! [[GPU]]
|-
| (CPU 종류, 코어 수) **** Mhz
| (GPU 종류) *** Mhz
|-
! 생산 공정
! 램 대역폭
|-
| (파운드리 회사) ** nm (공정명)
| (램 대역폭)
|-
| colspan="2" | (통신 규격)
|-
| colspan="2" | (이 AP를 사용하는 기기)
|}


스마트폰의 탑재를 염두해 두고 Icera 모뎀칩이 탑재되었다.

=== 테그라 K1 32Bit, 64Bit ===
(스펙표)

(상세 설명)

=== 테그라 X1 ===
(스펙표)

[http://www.anandtech.com/show/9289/the-nvidia-shield-android-tv-review/9 쉴드 안드로이드 TV의 전력소모량]을 보면 최대 20W까지 상승하는걸 볼수 있다. 물론 기기 전체의 전력소모량을 측정한 것이니 디스플레이의 전력소모량도 꽤 될것이고, 쓰로틀링 자체도 느슨하게 설정되어 있는걸 감안해야 하지만 소형 모바일 기기에서는 사용이 불가능하거나 제성능을 내는건 많이 힘들것이다.

== ULP Geforce ==
* 이 항목은 [[ULP Geforce]] 또는 [[ULP Geforce 시리즈]]로도 들어올수 있다. 기기 설명에 ULP Geforce 12코어 520Mhz 라고 적혀 있으면 [[ULP Geforce]] 12코어 520Mhz로 하이퍼 링크를 달아주자.

[[엔비디아]]에서 ULP Geforce가 8코어, 12코어, 72코어라고 마케팅을 하고 엔비디아가 [[GPU]] 회사이다 보니 Tegra 시리즈에 탑재된 GPU가 고성능이라고 생각하는 사람들이 많지만 연산 유닛(ALU) 하나를 한개의 코어로 정의한거라서 곧이 곧대로 믿으면 안된다.

모바일 GPU 회사에서 코어 수를 표시하는 기준은 제각각 다르지만 보통 클러스터 하나를 MP1, 1코어로 표기하고 있고 [[Adreno]]의 경우는 아예 코어 수 마케팅을 안하고 있다.

테그라 2, 3, 4의 [[GPU]]는 G70 기반 아키텍쳐를 사용하고 있다. 구형 아키텍쳐라서 OpenGL ES 2.0까지만 지원한다.

* ULP Geforce 8코어(Tegra 2)
[[File:T2GPU2.png|400px]]

'''테그라 2의 GPU 내부 구조'''

300 ~ 400Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 8개이고, 버텍스 셰이더에 4개, 픽셀 셰이더에 4개 들어있다. 실질적인 코어 구조는 버텍스 셰이더 1 : 픽셀 셰이더 1이라고 볼수 있고 텍스쳐 필레이트는 300 ~ 400 MTexel/s, FP32 연산성능은 4.8 ~ 6.4 GFLOPS이다.

성능 자체로만 보면 경쟁 상대인 [[ARM Mali]]-400 MP4 266Mhz나 [[PowerVR]] SGX543 MP2에 비해 절대적인 열세, [[Adreno]] 220과 비교시 GL벤치마크 2.1에서는 동급, GL벤치마크 2.5에서는 열세, [[OMAP]] 4 시리즈의 [[PowerVR]] SGX540과 비교하면 동급인 수준이다. 그러나 그당시 [[ARM Mali]]는 호환성 문제를 겪고 있었고 최적화가 잘된 테그라존 게임에서 ULP Geforce는 괜찮은 성능을 보여주었다. 그러나 일부 게임, 예를 들면 [[확산성 밀리언 아서]]같은 게임은 호환성 문제를 겪었다.

* ULP Geforce 12코어(Tegra 3)
[[File:T3GPU2.png|500px]]

'''테그라 3의 GPU 내부 구조'''

416~520Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 12개이고, 버텍스 셰이더에 4개, 픽셀 셰이더에 8개 들어있다. 실질적인 코어 구조는 버텍스 셰이더 1 : 픽셀 셰이더 2개라고 볼수 있고 텍스쳐 필레이트는 약 0.8 ~ 1.0 GTexel/s, [http://www.anandtech.com/show/5072/nvidias-tegra-3-launched-architecture-revealed/2 FP32 연산성능은 약 15 ~ 18.7 GFLOPS]이다.

[[엔비디아]]의 발표에 따르면, 전작인 ULP Geforce MP8 대비 3배의 성능을 보여준다고 한다.

(타 AP와의 비교는 추가 예정)

* ULP Geforce 60코어(Tegra 4i)
[[File:T4iGPU.png|600px]]

'''테그라 4i의 GPU 내부 구조'''

660Mhz의 클럭으로 작동한다. 총 연산유닛의 수는 60개이며, 실질적인 코어 구조는 테그라 4와 다르게 버텍스 셰이더를 3개로 줄이고 거대한 픽셀 셰이더를 2개 배치했다. 그래도 Tegra 3의 ULP Geforce MP12와 비교시 성능상 우위를 차지하고 있다.

[[LG G2]] mini에 탑재된 Tegra 4i의 [https://gfxbench.com/device.jsp?D=LG+G2+mini+%28Tegra+4i%2C+D625%29&os=Android&api=gl&testgroup=graphics&benchmark=gfx40&var=score GPU 성능]을 보면 GFX벤치 티렉스 2.7 기준 8.8fps의 성능을 보여주지만, Tegra 4i가 탑재된 [https://gfxbench.com/result.jsp?benchmark=gfx40&test=547&text-filter=tegra+4i&order=score&ff-lmobile=true&ff-smobile=true&os-Android_gl=true&pu-dGPU=true&pu-iGPU=true&pu-GPU=true&arch-ARM=true&base=device 다른 기기의 결과]들을 보면 대체적으로 11fps대의 성능을 보이고 있다. 이는 [[ARM Mali]]-T604 쿼드코어보다 살짝 낮은 수준, Tegra 4의 ULP Geforce MP72의 절반 수준의 성능이다.

엄청나게 뛰어난 성능을 보여주는 것은 아니지만 그 시기의 중급형 AP의 [[GPU]] 치고는 준수한 성능을 보여준 셈.

* ULP Geforce 72코어(Tegra 4)
[[File:T4GPU2.png|600px]]

'''테그라 4의 GPU 내부 구조'''

672Mhz의 클럭으로 작동한다. 총 연산유닛(MAD) 수는 위에서 볼수 있듯이 72개이고, 버텍스 셰이더에 개당 4개의 MAD가 있고, 픽셀 셰이더에는 개당 3개의 ALUs, 1 ALUs 내에는 4 MAD가 존재한다. 텍스쳐 필레이트와 픽셀 필레이트는 전작 대비 2.6배 상승했고, FP32 연산성능은 전작 대비 무려 8배나 상승했다. 다만 타 모바일 AP의 [[GPU]]는 전부 통합셰이더 구조로 변화했는데 아직도 구형 아키텍쳐를 사용하는게 발목을 잡고 있다.

엔비디아의 발표에 따르면, 전작인 ULP Geforce MP12 대비 6배의 성능을 보여준다고 한다.

(타 AP와의 비교는 추가 예정)

* ULP Geforce GK20A 192코어(테그라 K1)
[[File:k1.png|600px]]

'''테그라 K1의 GPU 내부 구조'''

테그라 K1부터 드디어 [[엔비디아]]의 데스트탑 [[GPU]]에서 사용하는 최신 아키텍쳐인 케플러 아키텍쳐를 사용했다. ULP Geforce 최초의 통합셰이더 기반 GPU이기도 하다.

내부 구성은 192개의 SP, 8개의 텍스쳐 유닛, 4개의 ROP로 케플러 아키텍쳐의 1 SMX과 유사한 구조를 가지고 있다. GPU의 최대 클럭은 950 Mhz로, FP32와 FP16 연산성능은 최대 365 GFLOPS이고 텍스쳐 필레이트는 7.6 GTexel/s이다.

GFX벤치로 모바일 기기에서 가장 많이 사용되는 OpenGL ES API상의 성능을 측정해 보면, [[Apple A]]7보다 2.5배 높은 GPU 성능을 가지고 있다고 한다. 실제로 GFX벤치 3.0 오프스크린 결과를 보면 32fps로, [[2014년]]에 상용화된 다른 모바일 AP의 GPU 성능을 훨씬 상회하는 수준이고 [[Apple A]]8X에 탑재된 [[PowerVR]] GXA6850의 초기 벤치와 유사한 성능을 보여주었다. 높은 부동소숫점 연산성능으로 인해 FP연산 반영비중이 GFX벤치보다 높은 3DMark에서는 후속작인 Tegra X1의 ULP Geforce와 함께 진면목을 보여준다.

다만, 높은 TDP로 인해 저전력을 요구하는 스마트폰의 AP로는 적절하지 못하다. [http://www.anandtech.com/show/7622/nvidia-tegra-k1/3 엔비디아의 설명]을 보면 [[Geforce]] 740M의 TDP가 19W이고 온갖 이상적인 조건을 다 붙이고 K1의 GPU는 740M의 절반이니 2~3 W의 전력소모량을 가진다고 하지만 그냥 황구라의 구라중 하나이니 귓등으로 흘려 넘기면 된다.

전작인 테그라 2, 3, 4의 ULP Geforce와 비교하면 이번 ULP Geforce는 다양한 API를 지원하고 케플러 아키텍쳐를 기반으로 설계된 GPU라서 추후 Vulkan API를 지원할 가능성이 꽤 높아졌다. Tegra K1의 GPU를 페르미 기반이 아닌 케플러 기반으로 설계한것도 이런 의도가 있는것으로 추정되고 있다.

* ULP Geforce GM20B 256코어(테그라 X1)
[[File:X1-GPU.png|600px]]

'''테그라 X1의 GPU 내부 구조'''

테그라 X1에는 맥스웰 아키텍쳐를 기반으로 한 GPU를 사용하였다.

내부 구성은 2개의 맥스웰 기반 SMM으로 이루어져 있다. 세부 사양을 보면 256개의 SP와 16개의 TMU, ROP로 이루어져 있고, 동작 클럭은 <s>계산하기 편하게</s> 1Ghz로 FP32 연산성능은 최대 512 GFLOPS, FP16 연산성능은 테라플롭스 단위까지 올라간다. 필레이트는 16 GTex, Pix/s 이다.

맥스웰 기반 아키텍쳐를 사용해서 FP16 연산성능이 FP32의 2배로 늘어났다. 이로 인해 GFX벤치 상에 나타나는 성능이 K1보다 크게 늘었다. 3.0 맨해튼 오프스크린 기준 65fps에 2.7 티렉스 기준 124fps로, [[2015년]] 이후로 나온 모바일 AP의 GPU중 X1의 ULP Geforce를 따라잡은 GPU는 [[PowerVR]] 7XT 12클러스터밖에 존재하지 않다.

데스크탑/랩탑용 [[GPU]]와 비교하면 [[Geforce]] GT630M과 비슷한 성능이며, 다른 스마트폰용 AP의 GPU들도 X1의 ULP Geforce와 성능차이가 점점 좁혀진다는걸 감안하면 모바일 AP의 성능 성장세가 대단한걸 느낄수 있다.

* 파스칼 아키텍쳐 기반 ULP Geforce(차기 테그라)

추가 예정

=== 관련 문서 ===
* [[ARM]]社의 [[ARM Mali]] 그래픽
* Imagination Technologies社의 [[PowerVR 시리즈]]
* Vivante社의 [[Vivante GC 시리즈]]
* [[퀄컴]]社의 [[Adreno]] 시리즈


{{각주}}
{{애플리케이션 프로세서}}
[[분류:모바일 AP]]