並行快速傅里葉變換

串行算法回顧

在快速傅里葉變換（FFT）的並行算法中使用了蝶形連接網絡。

並行算法

二維網孔連接網絡上的FFT：

將n個處理器排成 ${\sqrt {n}}\times {\sqrt {n}}$ 的二維網孔連接網絡，假設輸入序列 $\{a_{0},a_{1},......,a_{n-1}\}$ 已經存放在了各個處理器中。

下面以16點變換來解釋這個問題，連成的網絡及編號如下圖所示：

根據快速傅里葉變換的算法，我們來研究這16個點計算時四次循環的具體執行情況。

同一列間隔一行的元素運算。
同一列間相鄰行的元素運算。
同一行間隔一列的元素運算。
同一行間相鄰列的元素運算。

由上面的算法執行過程，我們發現，數據交換只在同一行或同一列之間的節點間進行。如果我們在第一，二步循環之後對網孔中的數據進行矩陣轉置，那麼就可以只在同一列節點之間進行運算。

超立方體連接網絡上的FFT：

如果我們按超立方體連接的格雷碼將待變換點列填入，那麼我們發現，數據交換將只在相鄰節點間進行。因此數據通信花費恆為O(1)。

算法複雜度分析

可擴放性分析

首先，我們設消息傳遞並行計算機中通信模型使用的是Store-and-forward而不是cut-through模型。下面令 $T_{o}$ 表示通信開銷， $T_{s}$ 表示通信開始時間， $T_{w}$ 表示傳送一個字的通信時間， $T_{h}$ 表示數據每一跳的延遲， $z_{l}$ 表示第l次循環時的開銷，而 $t_{c}$ 表示進行一個單位運算的時間。p為處理器數，d=log(p)，n為待變換的序列大小。那麼我們有公式：

$T_{o}=\sum _{l=0}^{d-1}(T_{s}+(T_{h}+T_{w}{\frac {n}{p}})z_{l})$

有這個公式，我們可以得出：

在二維網孔上的等效率標準函數為： $W=2Kt_{w}{\sqrt {p}}\times 2^{2K{\frac {t_{w}}{t_{c}}}{\sqrt {p}}}$
在超立方體上的等效率標準函數為： $W=Kt_{w}\times p^{K{\frac {t_{w}}{t_{c}}}}\times \log p$ ；

參考文獻：The Scability of FFT on Parallel Computers, Anshul Gupta and Vipim Kummar。

參閱

並行計算