注意!逾期提交会对你的分数产生影响,希望大家注意截止日期,逾期3天只能得80%的分数,逾期1周只能得50%的分数,逾期2周以上就没分了。
请大家不要提交课后练习作业以外的其他文件,交上去就会被删掉哦。
相关章节

第五讲 索引构建

第六讲 索引压缩

第七讲 向量模型及权重计算

第八讲 一个完整的检索系统

截止时间
2014年5月29日17:00
题目内容

2-1. 给定n=2及1≤T≤30,对于图4-7(课本55页,或者ppt的25页)的算法进行逐步模拟。画出一个表格,给出在给定T=2×k个词条已处理时(1≤k≤15)所用到的I0,...,I3中的索引(为空记为0,不为空记为1)。该表前三行如下:

T I3 I2 I1 I0
2 0 0 0 0
4 0 0 0 1
6 0 0 1 0

2-2. 估计Reuters-RCV1文档词典在两种不同按块存储压缩方法下的空间大小,假设将k个词项分为一组,其中,第一种方法中k=8,第二种方法中k=16。


2-3. 写出倒排记录表(777,17743,294068,31251336)的可变字节编码与γ编码。在可能的情况下对间距而不是文档ID编码。


剩下的题目将在之后逐渐揭晓。

题目提交
提交说明:可以提交任何支持肉眼阅读的常见文件类型(例如:.txt,.pdf,.jpg等等,只要不是太奇怪就行),以自己的学号为文件名,作业标清题号即可,允许重复提交,以最后一次提交为准。过了截止日期之后,作业内容将被更新,此时无法查阅之前的作业内容,但是依然可以提交。