TI 處理器與深度學習加速器
TI 的 AM6xA(如 AM68Ax 和 AM69Ax)Edge AI 處理器採用異質架構,具有用於深度學習運算的專用加速器。這個加速器稱為「矩陣乘法加速器(MMA )」。該 MMA 與 TI 的 C7x 數位訊號處理器一起,可以進行高效的張量,向量和標量處理。加速器是獨立的深度學習處理,不依賴主機 ARM CPU。由於模型計算有大量的資料傳輸,加速器有自己的 DMA 引擎和記憶體子系統,與 SoC 的其餘部分連接到相同的 DDR。這與專有的 Super-tiling 技術一起,導致高達 90% 的加速器引擎利用率和 DDR 頻寬驅動盡可能低的功耗,以實現節能運算。
MMA架構(資料來源:TI)
使用 MMA 作為 AI 功能的加速,整體 SoC 框圖如下圖所示。產品組合中的每個 Edge AI 設備(如AM62A、AM68A等)的架構都是相似的。
AM6xA處理器框圖(資料來源:TI)
基於異質架構,系統單晶片(SoC)經過最佳化,可在多核心 Cortex-A 微處理單元(MPU)上輕鬆編程,同時整合深度學習、成像、視覺、視訊和圖形處理等運算密集型任務。任務被卸載到專用硬體加速器和可程式核心。 使用高頻寬互連和智慧型記憶體架構對這些核心進行整體系統級集成,可實現高吞吐量和能源效率。透過系統組件的預先整合實現最佳化的系統 BOM。請注意,像AM62A這樣的成本和功耗優化的 SoC 並不包括所有硬體功能,例如 GPU 和 DMPAC,或者可能包括性能降低的加速器變體以降低功耗。
深度學習效率
通常,TOPS(每秒 tera 次操作)用於衡量深度學習的表現比較。TOPS 不能完全涵蓋深度學習效能的所有方面,因為它還依賴記憶體(DDR)容量和神經網路架構。
實際的推理時間取決於系統架構利用系統中最優資料流的效率。因此,更好的效能基準是給定模型在給定輸入影像解析度下的推理時間。更快的推理時間允許處理更多的圖像,從而產生更高的每秒幀數(FPS)。因此,FPS 除以TOPS(FPS / TOPS)顯示了架構的效率。同樣,FPS / Watt 是嵌入式處理器能源效率的一個很好的基準。