后缀数组整理笔记

后缀数组这种东西,还是不要背代码的好。。。

一些定义

  • s[0n1]s[0 \dots n - 1]:一个长为 nn 的字符串,编号从 00 开始。
  • suffix[i]suffix[i]:后缀 ii ——以第 ii 个字符开始的后缀,即 s[in1]s[i \dots n - 1]
  • sa[i]sa[i]:后缀数组,表示排名(从 00 开始)为 ii 的后缀。
  • rank[i]rank[i]:名次数组,表示后缀 ii 的排名,有 rank[sa[i]]=irank[sa[i]] = i
  • height[i]height[i]:高度数组,表示排名相连的两个后缀的 lcp(最长公前缀),即 lcp(suffix[sa[i]],  suffix[sa[i1]])lcp(suffix[sa[i]], \; suffix[sa[i - 1]]),故有意义的取值从下表 11 开始。

倍增算法构造后缀数组

一般我们会在字符串的最后添加一个不在字符集中的更小的字符,使得排名00的后缀一定为它,在防止过程中的各种越界中有用。

关于这一块,强烈安利 Menci 的博客,讲的很易于理解,另外 Sengxian 的博客在实现细节上与Menci有一定不同,个人觉得 Sengxian 的实现更为方便,也不是很难理解。

倍增算法采用双关键字排序后缀。

对于一次排序,要求出长为 2k+12^{k + 1} 的字符串的的排名,第一关键字为每个字符开始的长为 2k2^k 的字串的排名,第二关键字为每个位置 i=i+2ki' = i + 2^k 开始的字串的排名,过程中越界的部分直接当作更小的字符。当每个排名都不同时结束算法。排序的实现一般为基数排序。

1
2
for (int i = 0; i < n; i++)
fir[i] = rank[i], sec[i] = i + l < n ? rank[i + l] : 0;

排序部分。

对于第二关键字的排序,用一个辅助数组 temp[i]temp[i] 存储相关信息,使得字典序越小的字符串越在前,实现时倒序遍历,为第二关键字更大的分配到更后的排名,第二关键字相同的靠前的后缀分配到了更小的排名(cnt[i]数组的数是由大变小的),辅助数组即表示第二关键字排序后,第 ii 小的是哪一个。

1
for (i = n - 1; ~i; i--) temp[--cnt[sec[i]]] = i;

再以辅助数组的顺序,采用同样的方法排序第一关键字, 第一关键字更大的分配到更后的排名,由于 cnt[i] 数组的数是由大变小的,第一关键字相同的,第二关键字更大的分配到了更大的排名,得到当前的 sasa 数组。

1
for (i = n - 1; ~i; i--) sa[--cnt[fir[temp[i]]]] = temp[i];

计算 height[i]height[i]height[i] 数组

O(n)O(n) 计算 height[i]height[i] 数组基于这么一个事实:

h[i]=height[rank[i]]h[i] = height[rank[i]],有 h[i]h[i1]1h[i] \geqslant h[i - 1] -1

证明:

suffix[i1]suffix[i - 1] 在后缀数组中的前一个是 suffix[k]=suffix[sa[rank[i1]1]]suffix[k] = suffix[sa[rank[i - 1] - 1]],那么它们的 lcp 即为 h[i1]h[i - 1]。考虑去掉它们的第一个字符,将得到 suffix[i]suffix[i]suffix[k+1]suffix[k + 1],它们的 lcp 为 h[i1]1h[i - 1] - 1,记 suffix[i]suffix[i] 在后缀数组中的前一个是 suffix[p]=suffix[sa[rank[i]1]]suffix[p] = suffix[sa[rank[i] - 1]],那么显然有 suffix[k+1]suffix[p]>suffix[i]suffix[k + 1] \geqslant suffix[p] > suffix[i],而显然 lcp(suffix[k+1],  suffix[i])lcp(suffix[p],  suffix[i])lcp(suffix[k + 1], \; suffix[i]) \leqslant lcp(suffix[p], \; suffix[i])。证毕。(「显然」的地方意会一下就好。。。)

1
2
3
4
5
6
7
8
9
void getHeight() {
int k = 0;
for (int i = 0; i < n - 1; i++) {
k ? k-- : 0;
int j = sa[rank[i] - 1];
while (str[i + k] == str[j + k]) k++;
height[rank[i]] = k;
}
}

模版题与代码

模版题就是 UOJ 上的UOJ 35.

注意height[0]height[0] 无意义,sa[0]sa[0]height[1]height[1] 均是我们在字符串末尾添的字符。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
#include <cstdio>
#include <cstring>
#include <stack>
const int MAXN = 500005;
namespace SuffixArray {
int rank[MAXN], sa[MAXN], height[MAXN], n;
char str[MAXN];
void buildSA(int m) {
static int fir[MAXN], sec[MAXN], temp[MAXN], cnt[MAXN], i;
n = strlen(str) + 1;
str[n - 1] = 0;
memset(cnt, 0, sizeof cnt);
for (i = 0; i < n; i++) cnt[(int) str[i]]++;
for (i = 1; i < m; i++) cnt[i] += cnt[i - 1];
for (i = 0; i < n; i++) rank[i] = cnt[(int) str[i]] - 1;
for (int l = 1; l < n; l <<= 1) {
for (int i = 0; i < n; i++)
fir[i] = rank[i], sec[i] = i + l < n ? rank[i + l] : 0;
memset(cnt, 0, sizeof cnt);
for (i = 0; i < n; i++) cnt[sec[i]]++;
for (i = 1; i < n; i++) cnt[i] += cnt[i - 1];
for (i = n - 1; ~i; i--) temp[--cnt[sec[i]]] = i;
memset(cnt, 0, sizeof cnt);
for (i = 0; i < n; i++) cnt[fir[i]]++;
for (i = 1; i < n; i++) cnt[i] += cnt[i - 1];
for (i = n - 1; ~i; i--) sa[--cnt[fir[temp[i]]]] = temp[i];
bool unique = true;
rank[sa[0]] = 0;
for (i = 1; i < n; i++) {
rank[sa[i]] = rank[sa[i - 1]];
if (fir[sa[i]] == fir[sa[i - 1]] && sec[sa[i]] == sec[sa[i - 1]])
unique = false;
else rank[sa[i]]++;
}
if (unique) break;
}
}
void getHeight() {
int k = 0;
for (int i = 0; i < n - 1; i++) {
k ? k-- : 0;
int j = sa[rank[i] - 1];
while (str[i + k] == str[j + k]) k++;
height[rank[i]] = k;
}
}
}
int main() {
char *str = SuffixArray::str;
scanf("%s", str);
int n = strlen(str);
SuffixArray::buildSA(128);
SuffixArray::getHeight();
int *height = SuffixArray::height + 1, *sa = SuffixArray::sa;
for (int i = 1; i <= n; i++) printf("%d%c", sa[i], i == n ? '\n' : ' ');
for (int i = 1; i < n; i++) printf("%d%c", height[i], i == n - 1 ? '\n' : ' ');
return 0;
}