后缀数组整理笔记

后缀数组这种东西,还是不要背代码的好。。。

一些定义

  • \(s[0 \dots n - 1]\):一个长为 \(n\) 的字符串,编号从 \(0\) 开始。
  • \(suffix[i]\):后缀 \(i\) ——以第 \(i\) 个字符开始的后缀,即 \(s[i \dots n - 1]\)
  • \(sa[i]\):后缀数组,表示排名(从 \(0\) 开始)为 \(i\) 的后缀。
  • \(rank[i]\):名次数组,表示后缀 \(i\) 的排名,有 \(rank[sa[i]] = i\)
  • \(height[i]\):高度数组,表示排名相连的两个后缀的 lcp(最长公前缀),即 \(lcp(suffix[sa[i]], \; suffix[sa[i - 1]])\),故有意义的取值从下表 \(1\) 开始。

倍增算法构造后缀数组

一般我们会在字符串的最后添加一个不在字符集中的更小的字符,使得排名\(0\)的后缀一定为它,在防止过程中的各种越界中有用。

关于这一块,强烈安利Menci的博客,讲的很易于理解,另外Sengxian的博客在实现细节上与Menci有一定不同,个人觉得Sengxian的实现更为方便,也不是很难理解。

倍增算法采用双关键字排序后缀。

对于一次排序,要求出长为\(2^{k + 1}\)的字符串的的排名,第一关键字为每个字符开始的长为\(2^k\)的字串的排名,第二关键字为每个位置\(i' = i + 2^k\)开始的字串的排名,过程中越界的部分直接当作更小的字符。当每个排名都不同时结束算法。排序的实现一般为基数排序。

1
2
for (int i = 0; i < n; i++)
fir[i] = rank[i], sec[i] = i + l < n ? rank[i + l] : 0;

排序部分。

对于第二关键字的排序,用一个辅助数组\(temp[i]\)存储相关信息,使得字典序越小的字符串越在前,实现时倒序遍历,为第二关键字更大的分配到更后的排名,第二关键字相同的靠前的后缀分配到了更小的排名(cnt[i]数组的数是由大变小的),辅助数组即表示第二关键字排序后,第\(i\)小的是哪一个。

1
for (i = n - 1; ~i; i--) temp[--cnt[sec[i]]] = i;

再以辅助数组的顺序,采用同样的方法排序第一关键字, 第一关键字更大的分配到更后的排名,由于cnt[i]数组的数是由大变小的,第一关键字相同的,第二关键字更大的分配到了更大的排名,得到当前的\(sa\)数组。

1
for (i = n - 1; ~i; i--) sa[--cnt[fir[temp[i]]]] = temp[i];

计算\(height[i]\)数组

\(O(n)\)计算\(height[i]\)数组基于这么一个事实:

\(h[i] = height[rank[i]]\),有\(h[i] \geqslant h[i - 1] -1\)

证明:

\(suffix[i - 1]\)在后缀数组中的前一个是\(suffix[k] = suffix[sa[rank[i - 1] - 1]]\),那么它们的lcp即为\(h[i - 1]\)。考虑去掉它们的第一个字符,将得到\(suffix[i]\)\(suffix[k + 1]\),它们的lcp为\(h[i - 1] - 1\),记\(suffix[i]\)在后缀数组中的前一个是\(suffix[p] = suffix[sa[rank[i] - 1]]\),那么显然有\(suffix[k + 1] \geqslant suffix[p] > suffix[i]\),而显然\(lcp(suffix[k + 1], \; suffix[i]) \leqslant lcp(suffix[p], \; suffix[i])\)。证毕。(「显然」的地方意会一下就好。。。)

1
2
3
4
5
6
7
8
9
void getHeight() {
int k = 0;
for (int i = 0; i < n - 1; i++) {
k ? k-- : 0;
int j = sa[rank[i] - 1];
while (str[i + k] == str[j + k]) k++;
height[rank[i]] = k;
}
}

模版题与代码

模版题就是UOJ上的UOJ 35.

注意\(height[0]\)无意义,\(sa[0]\)\(height[1]\)均是我们在字符串末尾添的字符。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
#include <cstdio>
#include <cstring>
#include <stack>
const int MAXN = 500005;
namespace SuffixArray {
int rank[MAXN], sa[MAXN], height[MAXN], n;
char str[MAXN];
void buildSA(int m) {
static int fir[MAXN], sec[MAXN], temp[MAXN], cnt[MAXN], i;
n = strlen(str) + 1;
str[n - 1] = 0;
memset(cnt, 0, sizeof cnt);
for (i = 0; i < n; i++) cnt[(int) str[i]]++;
for (i = 1; i < m; i++) cnt[i] += cnt[i - 1];
for (i = 0; i < n; i++) rank[i] = cnt[(int) str[i]] - 1;
for (int l = 1; l < n; l <<= 1) {
for (int i = 0; i < n; i++)
fir[i] = rank[i], sec[i] = i + l < n ? rank[i + l] : 0;
memset(cnt, 0, sizeof cnt);
for (i = 0; i < n; i++) cnt[sec[i]]++;
for (i = 1; i < n; i++) cnt[i] += cnt[i - 1];
for (i = n - 1; ~i; i--) temp[--cnt[sec[i]]] = i;
memset(cnt, 0, sizeof cnt);
for (i = 0; i < n; i++) cnt[fir[i]]++;
for (i = 1; i < n; i++) cnt[i] += cnt[i - 1];
for (i = n - 1; ~i; i--) sa[--cnt[fir[temp[i]]]] = temp[i];
bool unique = true;
rank[sa[0]] = 0;
for (i = 1; i < n; i++) {
rank[sa[i]] = rank[sa[i - 1]];
if (fir[sa[i]] == fir[sa[i - 1]] && sec[sa[i]] == sec[sa[i - 1]])
unique = false;
else rank[sa[i]]++;
}
if (unique) break;
}
}
void getHeight() {
int k = 0;
for (int i = 0; i < n - 1; i++) {
k ? k-- : 0;
int j = sa[rank[i] - 1];
while (str[i + k] == str[j + k]) k++;
height[rank[i]] = k;
}
}
}
int main() {
char *str = SuffixArray::str;
scanf("%s", str);
int n = strlen(str);
SuffixArray::buildSA(128);
SuffixArray::getHeight();
int *height = SuffixArray::height + 1, *sa = SuffixArray::sa;
for (int i = 1; i <= n; i++) printf("%d%c", sa[i], i == n ? '\n' : ' ');
for (int i = 1; i < n; i++) printf("%d%c", height[i], i == n - 1 ? '\n' : ' ');
return 0;
}