第一讲 概述 |
2 |
ppt |
信息检索技术概述,课程相关情况 |
第二讲 布尔检索 |
2 |
ppt |
布尔检索的概念;倒排索引的概念;布尔查询的处理 |
第三讲 词项词典及倒排记录表 |
2 |
ppt |
文档预处理;跳表法合并;带位置信息的倒排索引索及短语查询的处理 |
第四讲 词典及容错式检索 |
2 |
ppt |
支持词典快速查找的数据结构(哈希表、二叉树等);支持通配查询处理的索引结构 ;支持拼写或发音纠错处理的索引结构 |
第五讲 索引构建 |
2 |
ppt |
硬件基础;基于块排序的构建过程;单遍内存式扫描构建方法;分布式(MapReduce)及动态索引方法 |
第六讲 索引压缩 |
2 |
ppt |
项的统计特性(Heaps定律、Zipf定律);词典的压缩;倒排记录表的压缩 |
第七讲 向量模型及权重计算 |
2 |
ppt |
硬件基础;基于块排序的构建过程;单遍内存式扫描构建方法;分布式(MapReduce)及动态索引方法 |
第八讲 一个完整的检索系统 |
2 |
ppt |
Top K检索;检索系统组成 |
第九讲 检索的评价 |
2 |
ppt |
效率和效果的评价;查全率和查准率;其他效果评价方法;用户体验及结果摘要;相关评测语料和评测会议 |
第十讲 相关反馈和查询扩展 |
2 |
ppt |
相关反馈和伪相关反馈;查询扩展及重构;全局方法及局部方法 |
第十一讲 XML检索 |
2 |
ppt |
XML的基本概念;XML检索中的挑战问题;基于向量空间模型的XML检索方法;XML检索的评价 |
第十二讲 概率检索模型 |
2 |
ppt |
概率排序原理;二值独立概率模型(BIM);概率模型的相关评论与扩展 |
第十三讲 Web搜索 |
2 |
ppt |
Web的特性;互联网广告;近似重复网页查重 |
第十四讲 Web采集 |
2 |
ppt |
Web采集器的功能和结构;一个具体的Web采集器 |
第十五讲 链接分析 |
2 |
ppt |
PageRank算法;HITS算法 |
第十六讲 上机作业展示和小结 |
2 |
ppt |
对整个课程内容进行回顾,重点说明课程的要点和启发,巩固讲授的知识内容,回答同学提问,展示程序效果 |