TI의 에지 AI - 딥러닝 가속기가 적용된 AM6xA 프로세서와 그 효율

딥러닝 가속기가 적용된 TI 프로세서

(AM68AAM69A 같은) TI의 AM6xA 에지 AI 프로세서는 딥러닝 연산을 위한 특수 목적 가속기가 적용된 이기종 아키텍처를 사용합니다. 이 가속기를 MMA(Matrix Multiply Accelerator, 행렬 곱셈 가속기)라고 합니다. 이 MMA는 TI의 C7x 디지털 신호 처리 장치와 함께 효율적인 텐서, 벡터 및 스칼라 처리를 수행할 수 있습니다. 가속기는 호스트 Arm CPU에 의존하지 않고 딥러닝을 독립적으로 처리합니다. 모델의 연산을 위해 엄청난 양의 데이터가 전송되기 때문에, 가속기는 자체 DMA 엔진과 메모리 서브 시스템이 SoC의 나머지 부분과 마찬가지로 동일한 DDR에 연결되어 있습니다. TI가 특허를 받은 수퍼타일링(Super-tiling) 기술과 함께, 가속기 엔진의 최대 90% 활용을 가능케 하며 DDR 대역폭은 에너지 효율적인 연산을 위해 가능한 최소한의 전력만 구동합니다.


MMA 아키텍처 (출처: TI)

MMA를 AI 기능의 가속기로 사용하는 전체 SoC 블록도가 아래 그림에 나와 있습니다. AM62A, AM68A 등 포트폴리오의 에지 AI 소자는 서로 아키텍처가 유사합니다.


AM6xA 프로세서 블록도 (출처: TI)

이기종 아키텍처에 기반하여, 시스템 온 칩(SoC)은 딥러닝이나 화상, 비전, 영상 또는 그래픽 처리와 같은 연산 집약적 작업을 통합하면서도 멀티 코어 Cortex-A 마이크로프로세싱 유닛에서 쉽게 프로그래밍할 수 있도록 최적화되어 있습니다. 이 작업들은 전용 하드웨어 가속기 및 프로그래밍 가능한 코어로 넘겨집니다. 고대역폭 상호연결과 스마트 메모리 아키텍처를 사용하여 이런 코어들을 포괄적인 시스템 레벨로 통합하면 높은 처리량과 에너지 효율을 실현할 수 있습니다. 시스템 구성 요소의 사전 통합을 통해 최적화된 시스템 BOM을 달성할 수 있습니다. AM62A와 같은 비용과 전력이 최적화된 SoC는 GPU 및 DMPAC와 같은 하드웨어 기능을 포함하지 않거나, 전력 소비를 줄이기 위해 성능이 저하된 변경된 가속기를 포함할 수 있습니다.

아키텍처 효율

TOPS(Tera Operations Per Second, 초당 테라 연산)는 딥러닝 성능 비교의 측정에 사용됩니다. TOPS는 메모리(DDR) 용량과 신경망의 아키텍처에 따라서도 달라지기 때문에 딥러닝 성능의 모든 측면을 완전히 아우를 수는 없습니다.

TOPS(Tera Operations Per Second, 초당 테라 연산)는 딥러닝 성능 비교의 측정에 사용됩니다. TOPS는 메모리(DDR) 용량과 신경망의 아키텍처에 따라서도 달라지기 때문에 딥러닝 성능의 모든 측면을 완전히 아우를 수는 없습니다.

실제 추론 시간은 시스템 아키텍처가 시스템 내에서 최적의 데이터 흐름을 얼마나 효율적으로 사용하느냐에 따라 달라집니다. 따라서, 주어진 입력 이미지 해상도에서 주어진 모델의 추론 시간이 보다 나은 성능 벤치마킹입니다. 추론 시간이 빠를수록 더 많은 이미지를 처리하여 초당 프레임 수(FPS)가 높아집니다. 따라서, FPS를 TOPS로 나누면(FPS/TOPS) 아키텍처의 효율을 나타냅니다. 마찬가지로, FPS/Watt는 임베디드 프로세서의 에너지 효율에 대한 좋은 벤치마크입니다.



영문 원본: TI Edge AI - AM6xA processors with Deep Learning Accelerators and its efficiency