Rustのasync/awaitがGPU上で動作 - VectorWareが初の実装を発表

VectorWareが、RustのFutureトレイトとasync/awaitをGPU上で動作させる初の実装を発表した。GPU上での並行処理に構造化されたプログラミングモデルを持ち込むという、かなり野心的な試みだ。

GPUプログラミングの現状の課題

GPUは伝統的にデータ並列性に特化している。より複雑なプログラムでは「warp specialization」を使って異なるワープが異なるタスクを並行実行するが、並行処理と同期の手動管理が必要でエラーが起きやすい。

JAX、Triton、CUDA Tileといった既存フレームワークは「計算グラフ」や「ブロック」の概念を導入しているが、新しいプログラミングパラダイムの習得が必要で、採用障壁が高い。

RustのFutureトレイトには、GPU上の並行処理に適した特性がある。

初期段階では単純なblock_onエグゼキューターを実装した。単一のFutureを繰り返しポーリングして完了させる素朴な実装だ。

その後、組み込みシステム向けに設計されたEmbassyエグゼキューターをGPU環境（no_std環境）に適応させた。変更は最小限で済んだとのことで、Embassyの設計の汎用性が活きた形だ。

デモでは以下が動作している。

記事は以下の制限事項を正直に認めている。

制約だらけだが、Futureトレイトのミニマルな設計がGPU上でもそのまま動くことを見せたのは面白い。AIワークロードが複雑化する中で、GPUの並行処理モデルを再考する実験としては意義がある。