第五讲 索引构建
第六讲 索引压缩
第七讲 向量模型及权重计算
第八讲 一个完整的检索系统
2-1. 给定n=2及1≤T≤30,对于图4-7(课本55页,或者ppt的25页)的算法进行逐步模拟。画出一个表格,给出在给定T=2×k个词条已处理时(1≤k≤15)所用到的I0,...,I3中的索引(为空记为0,不为空记为1)。该表前三行如下:
T | I3 | I2 | I1 | I0 |
---|---|---|---|---|
2 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 1 |
6 | 0 | 0 | 1 | 0 |
2-2. 估计Reuters-RCV1文档词典在两种不同按块存储压缩方法下的空间大小,假设将k个词项分为一组,其中,第一种方法中k=8,第二种方法中k=16。
2-3. 写出倒排记录表(777,17743,294068,31251336)的可变字节编码与γ编码。在可能的情况下对间距而不是文档ID编码。
剩下的题目将在之后逐渐揭晓。