エッジAI活用のためのデータフロー中心型並列計算アーキテクチャの探求
堀 篤史
2025 年度 卒 /修士(情報科学)
修士論文の概要
本研究ではエッジデバイス上での効率的な推論動作を目指し、ニューラルネットワーク向け並列計算アーキテクチャの探求を行った。近年、ニューラルネットワーク(NN)を使用したAIサービスが広く普及している。これらのサービスの高機能化に伴い、ニューラルネットワークモデルの規模は著しく拡大しており、その演算による消費電力の増加が問題となっている。また、ニューラルネットワークモデルを用いたサービスでは、ユーザーが一からモデルを学習するのではなく、提供された学習済みモデル・パラメータを用いて推論動作のみを行う場合が多い。そこで本研究では、ニューラルネットワークの推論動作に特化した専用演算器アーキテクチャについて検討した。
専用演算器は特定のモデルに特化することで演算効率を向上させられる一方、他モデルへの適用が困難となり汎用性が低下するという課題を持つ。そのため、演算効率と汎用性のトレードオフを考慮したアーキテクチャ設計が重要である。本研究では、演算器構造、データフロー、NNモデル自体の自由度のうち、どの自由度を利用するかに着目し、複数のアーキテクチャを提案した。
第2章では、複数のニューラルネットワークモデルにおける効率的な演算を目的とした可変並列性アーキテクチャを検討した。既存アーキテクチャの多くは、特定モデルに最適化された固定的な計算順序および並列性に基づいて設計されており、入出力次元が異なる複数層で一貫して高効率な演算を行うことが困難であった。提案する可変並列性アーキテクチャでは、演算器構造の切り替えにより、NNモデルの層ごとに計算方法を変更可能とすることで、複数モデル・層に対して高効率な演算を実現した。本論文では、特に畳み込みニューラルネットワークにおける畳み込み層および全結合層の積和演算を対象とした。
提案アーキテクチャは、積和演算ユニット(PE)と付随するメモリから成る一次元アレイ構造を持ち、PEおよびメモリ間、PE間の接続切り替えによりデータフローを変更することで計算方法の切り替えを実現する。畳み込み層では4種類、全結合層では5種類の計算方法を選択可能とした。また、スキップコネクション演算にも対応し、追加のハードウェアリソースを必要としない構成とした。評価の結果、計算方法の違いにより演算サイクル数やメモリアクセスパターンが変化し、条件の悪い層においても高い演算器利用率を維持できることを確認した。
第3章では、大規模言語モデル(LLM)が持つタスク自由度に注目し、特定LLMに特化した重み固定型推論アクセラレータを提案した。本アクセラレータでは、重み情報を演算器構造に直接焼き込み、全展開型行列演算と計算量圧縮手法を組み合わせることで、高速かつ低消費電力な推論を実現した。Transitive sparsityによる中間結果再利用やビットシリアル演算の導入により、計算量削減を図った。
重み固定アクセラレータにおいては、学習済みのバイナリまたはターナリ重みを用い、RTL生成から論理合成、配置配線までを実施した。その結果、ターナリ重みの2048×2048行列を、配置後面積1989.5×2015μmで実装可能であることを示し、低消費電力性と高速性を両立できることを示した。
以上より、本研究では演算器構造の自由度に着目した可変並列性アーキテクチャと、タスク自由度に着目した重み固定LLM推論アクセラレータを提案し、汎用性と演算効率を両立するエッジデバイス向けAI推論アーキテクチャの有効性を示した。