ディープラーニングアクセラレータを搭載したTIプロセッサ
TIのAM6xA(例えば AM68Ax および AM69Ax )エッジAIプロセッサは、ディープラーニング計算用の特別用途向けのアクセラレータを備えたヘテロジニアスアーキテクチャを採用しています。このアクセラレータはMMA(マトリクス乗算アクセラレータ)と呼ばれます。このMMAは、TI独自のC7xデジタル信号プロセッサとともに、効率的なテンソル、ベクトル、およびスカラー処理を行うことができます。このアクセラレータは、ホストのARM CPUに依存せず、ディープラーニング処理を自己完結的に行います。モデル計算のために膨大なデータ転送が発生するため、アクセラレータには独自のDMAエンジンとメモリサブシステムがあり、これらはSoCの他の部分と同じDDRに接続されています。これにより、TIの独自のスーパータイリング技術と相まって、アクセラレータエンジンとDDR帯域幅の最大90%まで利用することができ、エネルギー効率の高い計算を可能な限り低い電力消費で実現します。
AI機能のアクセラレーションとしてMMAを使用する場合の、SoC全体のブロック図は下図のようになります。このアーキテクチャは、AM62A、AM68Aなどの製品ラインにおける各エッジAIデバイスで類似のものになっています。
ヘテロジニアスアーキテクチャに基づくシステムオンチップ(SoC)は、ディープ ラーニング、イメージング、ビジョン、ビデオ、グラフィックスなどの計算負荷の高い(計算集約型)タスクを統合しながら、マルチコアCortex-Aマイクロプロセッシングユニット(MPU)で簡単にプログラミングできるように最適化されています。タスクは専用のハードウェアアクセラレータとプログラマブルコアにオフロードされます。これらのコアを広帯域幅のインターコネクトおよびスマートメモリアーキテクチャを使用して、総合的なシステムレベルで統合することにより、高スループットと高エネルギー効率が実現されます。最適化されたシステムBOMは、システム部品を事前に統合しておくことによって実現されます。 AM62A のように「コストと消費電力」が最適化されたSoCには、GPUやDMPACなどのハードウェア機能がすべて含まれているわけではなく、消費電力を低減するために性能を落としたアクセラレータなどの変形が含まれているかもしれないことにご注意ください。
ディープラーニングの効率
通常、ディープラーニングの性能比較にはTOPS(tera operations per second)が使用されます。しかし、TOPSは、メモリ(DDR)容量とニューラルネットワークアーキテクチャにも依存するため、ディープラーニングの性能のすべての側面を完全にカバーすることはできません。
実際の推論時間は、システムアーキテクチャがシステム内でデータの最適なフローをいかに効率的に利用するかに依存します。したがって、より性能の優れたベンチマークは、特定の入力画像解像度における特定のモデルに対する推論時間になります。推論時間が速いほど、より多くの画像を処理でき、フレーム毎秒(FPS)が向上します。したがって、FPSをTOPSで割った値(FPS/TOPS)はアーキテクチャの効率を示します。同様に、FPS/Wattは組み込みプロセッサのエネルギー効率に対する優れたベンチマークです。