字串搜尋演算法

字串搜尋演算法String searching algorithms)又稱字串比對演算法string matching algorithms)是一種搜尋演算法,是字串演算法中的一類,用以試圖在一長字串或文章中,找出其是否包含某一個或多個字串,以及其位置。

最直觀的解法是比對,如下例中,在字串haystack中找出字串needle

char* haystack;
char* needle;
int hlen, nlen, found;
int i,j,k;

found = 0;
hlen = strlen(haystack);
nlen = strlen(needle);
for (i = 0; i < hlen; ++i) {
    for (j = 0; j < nlen; ++j) {
        if (haystack[i+j] != needle[j]) break;
        if (j == nlen - 1) found = 1;
    };
};
return found;

上例中,若字串needle存在於字串haystack中,則傳回1,否則傳回0。

但是此直觀演算法的複雜度為 O(mn),其中haystack的長度為n、needle的長度為m,所以另有更快速的演算法。

部分演算法比較

m 為模式的長度, n 為要搜尋的字串長度, k為字母表長度。

演算法 預處理時間 匹配時間
樸素演算法 0 (無需預處理) Θ(nm)
Rabin-Karp演算法 Θ(m) 平均 Θ(n + m),
最差 Θ((n−m)m)
基於有限狀態機的搜尋 Θ(mk) Θ(n)
克努斯-莫里斯-普拉特演算法 Θ(m) Θ(n)
Boyer-Moore字串搜尋演算法 Θ(m + k) 最好Ω(n/m),
最壞 O(n)
Bitap演算法 Θ(m + k) O(mn)

外部連結