半導体

シミュレーションのための推測。検証の革新

タイムスタンプ: 28 年 2023 月 XNUMX 日 9：00
ソースノード: 2460229

プラトン再発行

これは興味深いアイデアで、ハードウェアがサポートする投機的並列処理を使用してシミュレーションを高速化しますが、ひねりを加えてカスタムハードウェアを必要とします。 Paul Cunningham (Senior VP/GM、Cadence の Verification)、Raúl Camposano (Silicon Catalyst、起業家、元 Synopsys CTO、現在 Silvaco CTO) と私は研究アイデアに関するシリーズを続けます。いつものように、フィードバックを歓迎します。

イノベーション

今月のおすすめは Chronos: アクセラレータの効率的な投機的並列処理. 著者は、2020 Conference on Architectural Support for Programming Languages and Operating Systems で論文を発表し、MIT 出身です。

マルチコアプロセッサを使用して並列処理を利用することは、並列処理が自明であるアプリケーションの XNUMX つのオプションです。他のアルゴリズムはそれほど簡単に分割できないかもしれませんが、固有の並列処理を利用した投機的実行の恩恵を受ける可能性があります。通常、投機的実行はキャッシュコヒーレンスに依存し、特にシミュレーションではオーバーヘッドが高くなります。この方法はコヒーレンスの必要性をバイパスし、タスクの実行を物理的にローカライズして、ターゲットの読み取り/書き込みオブジェクトによってタイルを計算し、グローバルなコヒーレンス管理を必要とせずに競合検出をローカルで検出できるようにします。タスクは投機的に並行して実行できます。検出された競合は、子タスクを介してタスクからアンロールされ、他のスレッドを停止する必要なく再実行できます。

ここでもう一つ注意点。この方法は、ほとんどのハードウェアアクセラレーション手法とは異なり、遅延ベースのシミュレーションをサポートします。

ポールの見解

うわー、なんて素晴らしいMITのハイオク紙だ！並列計算について聞かれると、すぐにスレッド、ミューテックス、メモリコヒーレンシについて考えます。もちろん、これは最新のマルチコア CPU の設計方法です。しかし、ハードウェアで並列化をサポートする唯一の方法ではありません。

この論文では、順序付けられたタスクのキューに基づく Chronos と呼ばれる並列化のための代替アーキテクチャを提案します。実行時に、タスクはタイムスタンプ順に実行され、各タスクはキューに動的に追加される新しいサブタスクを作成できます。実行は、いくつかの初期タスクをキューに入れることで開始され、キューにタスクがなくなると終了します。

キュー内のタスクは複数のプロセッシングエレメント (PE) に並行してファームアウトされます。これは、現在のタスクが完了する前に、Chronos が将来のタスクを投機的に実行していることを意味します。現在のタスクが投機的に実行された将来のタスクを無効にする場合、それらの将来のタスクのアクションは「元に戻され」、再度キューに入れられます。この概念をハードウェアに正しく実装するのは簡単ではありませんが、外部ユーザーにとっては美しいことです。タスクキューが単一の PE でシリアルに実行されているかのようにアルゴリズムをコーディングするだけです。ミューテックスをコーディングしたり、デッドロックを心配したりする必要はありません。

著者は、Chronos を SystemVerilog に実装し、それを FPGA にコンパイルします。紙の多くは、彼らがどのようにタスクキューを実装したか、および最大限の効率を得るためにハードウェアで必要な展開を行う方法を説明することに専念しています。 Chronos は、タスクキューベースのアーキテクチャに適した 32 つのアルゴリズムでベンチマークされています。各アルゴリズムは 3 つの方法で実装されます。15 つ目は専用のアルゴリズム固有の PE を使用する方法、3 つ目は市販のオープンソース 14 ビット組み込み RISC-V CPU を PE として使用する方法です。 Chronos のパフォーマンスは、Chronos に使用されている FPGA と同様の価格の Intel Xeon サーバーで実行されているアルゴリズムのマルチスレッドソフトウェア実装と比較されます。結果は印象的です。Chronos は、Xeon サーバーを使用する場合よりも XNUMX 倍から XNUMX 倍優れたスケーリングを行います。ただし、表 XNUMX と図 XNUMX を比較すると、これらの利点のほとんどが Chronos アーキテクチャ自体ではなく、アルゴリズム固有の PE によるものであることが少し心配になります。

これが検証ブログであることを考えると、私は自然にゲートレベルのシミュレーションベンチマークに注目しました。 EDA 業界は、ロジックシミュレーションを並列化するために多額の投資を行ってきましたが、いくつかの特定のユースケースを超えて大きな利益を得ることは困難であることが証明されています。これは主に、ほとんどの現実世界のシミュレーションのパフォーマンスが、L3 キャッシュで欠落し、DRAM に送信されるロード/ストア命令によって支配されるためです。このホワイトペーパーでベンチマークしたテストケースは 32 つだけで、それは小さな XNUMX ビットのキャリーセーブアダーです。もしあなたがこのブログを読んでいて、もっと徹底的なベンチマークを行うことに興味があるなら、私に知らせてください - Chronos が現実世界のシミュレーションで本当にうまくスケーリングできるなら、それは巨大な商業的価値を持つでしょう!

ラウルの見解

この論文の主な貢献は、 Spatially Location Ordered Tasks (SLOT) 実行モデル これは、並列処理とスペキュレーションを利用するハードウェアアクセラレータや、実行時にタスクを動的に生成するアプリケーションにとって効率的です。シミュレーションには動的な並列処理のサポートが不可欠であり、投機的な同期は魅力的なオプションですが、コヒーレンシのオーバーヘッドが高すぎます。

SLOT は、各タスクが XNUMX つのオブジェクトに対して操作 (書き込み) するように制限することで一貫性の必要性を回避し、順序付けられたタスクをサポートしてマルチオブジェクトの原子性を有効にします。 SLOT アプリケーションは、タイムスタンプとオブジェクト ID によって特徴付けられる順序付けられた、動的に作成されるタスクです。タイムスタンプは順序の制約を指定します。オブジェクト ID は、データの依存関係を指定します。つまり、タスクは、同じオブジェクト ID を持つ場合にのみ、データに依存します。 (読み取り依存関係がある場合、タスクは投機的に実行できます)。オブジェクト ID をコアまたはタイルにマッピングし、各タスクをそのオブジェクト ID がマップされている場所に送信することで、競合検出は (複雑な追跡構造なしで) ローカルになります。

　 クロノス システムは、16MHz で動作する 4 つのアプリケーション固有の処理要素 (PE) を持つ 125 タイルのシステムとして AWS FPGA フレームワークに実装されました。このシステムは、20 コア/40 スレッドの 2.4 GHz Intel Xeon E5-2676v3 で構成されるベースラインと比較されます。これは、価格が FPGA のもの (約 2 ドル/時間) に匹敵するという理由で特に選択されたものです。 2.45 つの PE で 44.9 つのタスクを実行すると、Chronos はベースラインよりも 8 倍速くなります。同時実行タスクの数が増えると、Chronos 実装は 15.3 タイルで 5 倍の自己相対スピードアップにスケールアップします。これは、CPU 実装の XNUMX 倍のスピードアップに相当します。彼らはまた、アプリケーション固有の PE ではなく、汎用 RISC-V に基づく実装を比較しました。 PE は RISC-V よりも XNUMX 倍高速でした。

この論文は、SLOT 実行モデルの概念から定義、ハードウェアの実装、4 つのアプリケーションの従来の Xeon CPU との詳細な比較まですべてをカバーしているため、印象的でした。その努力は相当なもので、Chronos は SystemVerilog の 20,000 行を超えています。その結果、(5.4 つのアプリケーションの) 平均 4 倍の高速化がソフトウェア並列バージョンよりも高速化されました。これは、並列処理の増加と投機的実行の使用の増加によるものです。この論文は、シミュレーション以外のタスクへの適用についても読む価値があります。この論文には XNUMX つの例が含まれています。

この投稿を共有する：

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://semiwiki.com/eda/326261-speculation-for-simulation-innovation-in-verification/

タグ： 000, 10, 14, 2020, 2023, 8, a, 私たちについて , 腹筋, 加速する, 加速, 加速器, ACM, 行動, 追加されました, アルゴリズム, アルゴリズム, また, 頭の中, 代替案, 常に, an, &, 訴える, 申し込み, , 建築の, 建築, です, AS, 尋ね, At, 原子性, 著者, AWS, ベース, ベースライン, BE, 美しい, なぜなら, になる, , さ, ベンチマーク, ベンチマークされた, ベンチマーク, 恩恵, 優れた, 越えて, BIG, ビット, ブログ, だけど, by, キャッシュ, キャッシュコヒーレンス, ケイデンス, 呼ばれます, 来ました, 缶, キャリー, 例, 触媒, 特徴付けられた, 子, 選ばれた, class, コード, 一貫性, コヒーレンシー, COM, コマーシャル, 匹敵します, 比べ, 比較, 比較, コンパイル, 完成した, 複雑な, 計算, 計算, コンセプト, 同時, 講演, 紛争, なります, 制約, コンテンツ, 続ける, 貢献, 基本, 　　, 対応する, ここから, カバー, CPU, CPU, 作ります, 作成した, CTO, 電流プローブ, カスタム, データ, 専用の, 定義, 遅らせる, 依存関係, 依存, 依存, 設計, 詳細な, 検出された, 検出, 献身的な, 難しい, DL, 優勢, DRAM, 原因, ダイナミック, 動的に, e, 各, 簡単に, 簡単に, EDA, 効率, 効率的な, 努力, 要素は, EM, 埋め込まれた, enable, 終了, 確保する, 起業家, 特に, エブリシング, 例, 実行します, 実行された, 実行中, 実行, 説明, 悪用する, 悪用, 速いです, フィードバック, 少数の, フィギュア, 名, , 前者, 発見, FPGA, フレームワーク, から, 未来, 利益, , 生成する, GHzインテル, 与えられた, グローバル, GM, 行く, H2, Hardware, ハードウェアアクセラレータ, 持ってる, 重く, 高さ, こちら, ハイ, 認定条件, しかしながら, HTTPS, 巨大な, i, ID, アイデア, アイデア, IDが, 画像, 直ちに, 実装する, 実装, 実装, 実装, 実装, 印象的なボーナス , in, 含ま, 増加, 産業を変えます, 避けられない, 初期, 革新的手法, 説明書, インテル, 興味がある, 興味深い, に, 本質的な, 無効にする, 投資, Is, IT, ITS, 自体, ただ, 知っています, ESL, ビジネスESL <br> 中国語/フランス語、その他, させて, レベル, ラインズ, 負荷, ローカル, 局部的に, 位置して, メイン, 主に, 作る, 管理, マッピング, MAX, 最大幅, , 意味する, 手段, ミディアム, メモリ, 方法, マイト, 行方不明, マサチューセッツ工科大学（MIT）, , モダン, 月, 他には？, 最も, 多く, マルチ, の試合に, 自然に, 必要, 必要, 新製品, 注意, Now, 数, オブジェクト, オクタン, of, もちろん, オフ, 既製品, on, ONE, の, 開いた, オープンソース, 操作する, オペレーティング, OS, オプション, 注文, 順序付けられました, その他, でる, 外側, オーバー, オーバーヘッド, P, 紙素材, 並列シミュレーションの設定, 並列化, 仕切られた, Paul Cairns, ポールカニンガム, PE, パフォーマンス, PES, 物理的に, 選ぶ, プラトン, プラトンデータインテリジェンス, プラトデータ, お願いします, ポイント, 役職, PLM platform., ブランド, 処理, プロセッサ, プログラミング, プログラミング言語, 提案する, 実績のある, 目的, パッティング, キュー, むしろ, ラウル・カンポサーノ, RE, read, リーディング, リアル, 現実の世界, 相対, 必要, 研究, 制限する, 結果, 結果, RISC-V, ランニング, ランタイム, s, 同じ, 保存, 規模, 秤, 2番目の, 自己, セミウィキ, 送信, 上級, シリーズ, , シェアする, 棚, シリコン, シリコン触媒, 同様の, , シミュレーション, , サイズ, サイズ, スロット, So, ソフトウェア, 一部, source, スパン, 特定の, 特に, 指定する, 投機, 投機的な, 投機的実行, SRC, ストール, 店舗, 構造, かなりの, 適した, サポート, サポート, サポート, 同期, シノプシス, 　, システム, システムVerilog, テーブル, TAG, ターゲット, タスク, タスク, テクニック, より, それ, 　, その後, そこに, ボーマン, 考える, 徹底的に, 糸, 三, 介して, タイル, タイムスタンプ, 小さな, 〜へ, あまりに, 高すぎる, 追跡, 伝統的な, 真に, 試します, ツイスト, 2, 取消, つかいます, 中古, ユーザー, , 通常, v, 値, Verification, バージョン, ビア, 詳しく見る, VP, 方法, 方法, 歓迎, WELL, この試験は, 日時, コラボレー, どちら？, 　, 無し, 素晴らしい, 世界, 不安, 価値, でしょう, ワオ, 書きます, You, あなたの, ゼファーネット

Tips For Your Body After Hours Of Sitting

2024 年 5 月 2 日 12：26午後

How Nancy Whiteman and Wana Brands Found Sweet Success

2024 年 5 月 2 日 12：13午後

CBD Nutraceuticals Market Size, Share And Growth Analysis For 2024-2033 – World News Report – Medical Marijuana Program Connection

2024 年 5 月 2 日 11：01午前

エクスレラ8

シミュレーションのための推測。検証の革新

プラトン再発行

イノベーション

ポールの見解

ラウルの見解

Why Falling THC Test Results Matter

Democrats See Marijuana Policy as Wedge Issue – Medical Marijuana Program Connection

Ordify はブロックパスを採用して誰でも投資をオープンにできる

私たちとチャット

シミュレーションのための推測。 検証の革新

プラトン再発行

イノベーション

ポールの見解

ラウルの見解

私たちとチャット

シミュレーションのための推測。検証の革新