相位聲碼器

相位聲碼器是聲碼器的一種，它藉由改變聲音訊號的相位資訊，而達到音訊時域與頻域上的延展。時域與頻域的延展分別對應到此音訊在時間上的縮放（速度快慢改變），與聲音音高的改變。

原理

相位聲碼器的與傳統聲碼器最主要的差別在於：不同於傳統聲碼器將音訊切割成多個頻帶，相位聲碼器是使用短時距傅立葉變換（STFT），得到不只各頻格(frequency bin)的強度(ampiltude)，也得到相位(phase)的資訊。此技術之所以被稱為「相角」音碼器，是因為我們把聲音訊號轉為頻譜之後，並非只是單純地在強度頻譜上，時間或者頻率的維度內插，還必須考慮相角與頻率的關係，並在相角頻譜上進行相對應的調整。相位聲碼器將特定頻率分量的振幅或相位修改後，透過反向短時傅立葉轉換(inverse STFT)將頻譜還原成時域的音訊。若改變STFT音框在時間上的位置，可以改變重新合成的聲音的時間演變。

STFT的物理意義

振幅

由於傅立葉轉換的物理意義，是將一段訊號表示為許多正弦波成分(sinusoid component)之疊加，現假設訊號的取樣率(sampling rate)為R，則Xm[k]可視為在第m個音框之中，頻率落在R⋅ k 附近的正弦波成分；而Xm[k]的強度就是這個正弦N波成分的振幅(amplitude)，它的平方就是這個正弦波成分的能量(energy)大小。然而根據訊號處理的原理，若訊號的取樣率為R，至多只能觀察到頻率為 R/2，也就是小於或等於奈奎斯特頻率(Nyquist frequency)的正弦波成分。因此經由短時間傅立葉轉換得到的頻譜，實際上只有前(N/2 +1)個元素是有效的，之後的元素皆對稱於第 ( N /2+1) 個元素，與之前的元素為共軛複數對(complex conjugate pairs)。

相位

至於頻譜中的另一個成分: 相角，其物理意義則與正弦波成分的「瞬時頻率」(instantaneous frequency)有關。考慮兩個相鄰音框中，同樣位於第 k 個頻道(frequency channel)的頻譜元素：X(m,k)以及 X(m−1,k)。這兩個元素的相角差(phase difference)除以音框平移時間量 Δt ，計算第 m 個音框的第 k 個頻率箱中，正弦波成分的角速度ω(m,k) :

ω(m,k) =2π⋅f(m,k)

=Δθ/Δt

= (∠X(m,k)−∠X(m−1,k))/Δt

其中Δθ ≥0, f(m,k) 即為瞬時頻率。

從另一個方向來說,此正弦波成分之所以落在第 k 個頻道中,就是因為它的頻率位於此頻道所代表的頻率值範圍之內。它的頻率可以表示為此頻道的中心頻率 f(k) ，加上一個極小的頻率值:

f(m,k) = f(k) + δ(m,k)/Δt

其中 f(k)= R⋅k/N ， δ(m,k) 是一個極小的相角改變量。

利用頻譜上相鄰音框的第 k 個頻率箱成分之相角差，可以計算此正弦波成分之瞬時頻率。但在實際情況中，相角只會落在一個 2π 的區間之內,因而無法得知真實的相角差。利用上式將相角差分為兩項，一項是落在此頻率箱的正弦波必然具有之相角改變量，另一項則記錄了漏未計算的相角改變量:

∠X(m,k)−∠X(m−1,k)= 2πk ⋅Δn/N+δ(m,k)

其中 Δn = Δt ⋅ R 是音框平移的取樣值數目。

因此 ( 2π k/N ⋅ Δn) 代表的是一個頻率為 f(k)= R⋅k/N 的正弦波，在經過時間 Δt 之後的相角改變量。之後將δ(m,k)加上或減去2π,直到0≤δ(m,k)<2π，並重新加上2πk⋅Δn。如此一來就可以得到一個大於 0 的相角差值。

以上的步驟稱為「相位重建」(phase unwrapping)。

注意到如果δ(m,k)在訊號中真實的相角變化超過 2π，會使得相位重建無法實行。因此必須限制時間框的平移量。

相位連貫性問題

在操縱短時傅里葉變換的時，會遇到的一大問題，是各個信號分量（正弦信號，脈衝）將分散在多個時間框，以及頻譜的多個頻格。這是因為STFT分析是通過使用重疊分析窗函數。如果考慮的是離散的時間軸，則我們對一離散訊號 x[n] 進行短時間傅立葉轉換，可表示為：

X(η,ω)= ∑x[n]w[n−η]exp(−jωn) for n= -∞ to ∞

其中 n 跟η 為離散時間索引(discrete time index)，ω 為頻率索引，w[n] 為離散窗函數。

經過窗函數的訊號使得單個正弦分量的信息分佈在相鄰的時間框中。為了避免邊界效應，短時傅里葉分析的時間框會有時間上的重疊。這樣的重疊使相鄰的時間框有強烈的相關性（一個存在於時間“t”時間框中的正弦成分，在時間"t+1"中也會存在）。因此相位聲碼器的信號轉換問題涉及到相位連貫性的問題，也就是在做短時傅里葉與反向短時傅里葉後，相鄰的頻格應仍要保有適當的連貫性（縱向的連貫性）；而相鄰的時間框也會要保有適當的連貫性（橫向連貫性）。除極其簡單的聲音合成外，這些連貫性只能大概的被保留，而相位聲碼器的研究的主要關心便是找出適當的演算法，足以保存修改後的短時間傅立葉分析表示的垂直和水平的連貫性。時間縮放操作幅度的連貫性是一個較次要的問題，因為改變時間框在振幅上只有微小的影響。

歷史

相位聲碼器的演算法最初於1966年由Flanagan提出，可保存頻格相位水平水平的連貫性。這種原始相位聲碼器沒有顧及相鄰頻格之間的縱向的連貫性，因此這個系統做的時間縮放得到的聲音信號不清晰。

在 1981 年，波氏(Michael R. Portnoff)首先提出利用短時間傅立葉轉換，將聲音轉入頻域，並在不影響音高的前提之下調整速度，亦即時間量度調整(time-scale modification)；之後在 1982 年，齊氏(Stephanie Seneff)同樣提出利用短時間傅立葉轉換，並導入音源—濾波器分解 (source-filter decomposition)的觀念，在不改變速度的前提之下，調整聲音檔案的音高，亦即音高平移(pitch shifting)。將這兩項技術結合，便是所謂「相角音碼器」的雛形。

Griffin 和Lim在1984年提出將短時傅立葉轉換後的聲音訊號最佳化重建的演算法。此演算法不考慮連貫性的問題，但它能找到一個擁有與修改過後類似的短時傅立葉轉換的聲音信號；即便修改後的短時傅里葉轉換是不連貫的（不代表任何信號）。縱向的連貫性的問題，直到1999年仍然是一個重大的問題，直到Laroche和Dolson提出了一個相當簡單的手段來保持頻格的相位連貫性。Laroche和Dolson的發現造成相位聲碼器歷史的一個轉折點。有了垂直相位的連貫性，聲音訊號可以得到很高品質的時間縮放。

音樂

如今相位聲碼器的技術被包裝成編曲工具auto-tune，被廣泛運用在流行音樂當中，不僅可以透過時間縮放達到調整音樂節拍的效果；還可以藉由音高的微調，將音訊量化到指定的音高，達到修正走音的功能，也可以將人聲轉換成類似機器人的聲音，或是高頻類似花栗鼠的聲線。