Atitit现代信息检索

哈根达兹
1 ℃
2020-01-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Atitit现代信息检索Line1:第1章引言Line22:第2章用户搜索界面Line44:第3章信息检索建模Line79:第4章检索评价Line104:第5章相关反馈与查询扩展Line123:第6章文档：语言及属性Line160:第7章查询：语言及属性Line175:第8章文本分类Line210:第9章索引和搜索Line238:第10章并行与分布式信息检索Line260:第11章Web检索Line307:第12章Web爬取Line333:第13章结构化文本检索Line360:第14章多媒体信息检索Line409:第15章企业搜索Line444:第16章图书馆系统Line460:第17章数字图书馆第1章引言1.1信息检索1.1.1信息检索的早期发展1.1.2图书馆和数字图书馆中的信息检索1.1.3舞台中央的信息检索1.2信息检索问题1.2.1用户的任务1.2.2信息检索与数据检索1.3信息检索系统1.3.1信息检索系统的软件架构1.3.2检索和排序过程1.4Web1.4.1Web简史1.4.2电子出版时代1.4.3Web如何改变搜索1.4.4Web上的实际问题1.5本书的组织结构1.5.1本书的重点1.5.2本书的内容1.6本书的教学资源网站1.7文献讨论第2章用户搜索界面2.1介绍2.2人们如何搜索2.2.1信息查找与探索式搜索2.2.2信息搜寻的经典模型与动态模型2.2.3导航与搜索2.2.4对搜索过程的观察2.3现今的搜索界面2.3.1启动搜寻2.3.2查询描述2.3.3查询描述界面2.3.4检索结果显示2.3.5查询重构2.3.6组织搜索结果2.4搜索界面的可视化2.4.1可视化布尔语法2.4.2可视化查询结果中的查询项2.4.3可视化词语和文档间的关系2.4.4文本挖掘的可视化2.5搜索界面的设计和评价2.6趋势和研究问题2.7文献讨论第3章信息检索建模3.1信息检索模型3.1.1建模和排序3.1.2信息检索模型描述3.1.3信息检索模型的分类体系3.2经典信息检索3.2.1基本概念3.2.2布尔模型3.2.3项权重3.2.4TF-IDF权重3.2.5文档长度归一化3.2.6向量模型3.2.7概率模型3.2.8经典模型之间的简单比较3.3其他集合论模型3.3.1基于集合的模型3.3.2扩展布尔模型3.3.3模糊集模型3.4其他代数模型3.4.1广义向量空间模型3.4.2潜在语义索引模型3.4.3神经网络模型3.5其他概率模型3.5.1BM25模型3.5.2语言模型3.5.3随机差异模型3.5.4贝叶斯网模型3.6其他模型3.6.1超文本模型3.6.2基于Web的模型3.6.3结构化文本检索3.6.4多媒体检索3.6.5企业和垂直搜索3.7趋势和研究问题3.8文献讨论第4章检索评价4.1介绍4.2Cranfield范式4.2.1历史简述4.2.2参考集4.3检索指标4.3.1精度和召回率4.3.2单值总结：P@n，MAP，MRR，F4.3.3面向用户的指标4.3.4折扣累积增益4.3.5二元偏好4.3.6排序相关性测度4.4参考文档集4.4.1TREC参考集4.4.2其他参考集4.4.3其他小规模测试文档集4.5基于用户的评价4.5.1实验室中的人工实验4.5.2并排面板4.5.3A/B测试4.5.4众包4.5.5使用点击数据的评价4.6实践说明4.7趋势和研究问题4.8文献讨论第5章相关反馈与查询扩展5.1介绍5.2反馈方法的框架5.3显式相关反馈5.3.1向量模型的相关反馈：Rocchio方法5.3.2概率模型的相关反馈5.3.3相关反馈的评价5.4基于点击的显式反馈5.4.1眼动追踪和相关性评价5.4.2用户行为5.4.3点击作为用户偏好的指标5.5通过局部分析的隐式反馈5.5.1通过局部聚类的隐式反馈5.5.2通过局部上下文分析的隐式反馈5.6通过全局分析的隐式反馈5.6.1基于相似度同义词典的查询扩展5.6.2基于统计同义词典的查询扩展5.7趋势和研究问题5.8文献讨论第6章文档：语言及属性6.1介绍6.2元数据6.3文档格式6.3.1文本6.3.2多媒体6.3.3图形和虚拟现实6.4标记语言6.4.1SGML6.4.2HTML6.4.3XML6.4.4RDF6.4.5HyTime6.5文本属性6.5.1信息论6.5.2自然语言建模6.5.3文本相似度6.6文档预处理6.6.1文本的词汇分析6.6.2去除禁用词6.6.3词干提取6.6.4关键词选择6.6.5同义词典6.7组织文档6.7.1分类体系法6.7.2分众分类法6.8文本压缩6.8.1基本概念6.8.2统计方法6.8.3统计方法：建模6.8.4统计方法：编码6.8.5字典方法6.8.6压缩预处理6.8.7文本压缩技术的比较6.8.8结构化文本压缩6.9趋势和研究问题6.10文献讨论第7章查询：语言及属性7.1查询语言7.1.1基于关键词的查询7.1.2非关键词查询7.1.3结构化查询7.1.4查询协议7.2查询属性7.2.1Web查询的特征7.2.2用户搜索行为7.2.3查询意图7.2.4查询主题7.2.5查询会话与任务7.2.6查询难度7.3趋势和研究问题7.4文献讨论第8章文本分类8.1介绍8.2文本分类的特性描述8.2.1机器学习8.2.2文本分类问题8.2.3文本分类算法8.3无监督算法8.3.1聚类8.3.2朴素文本分类8.4监督算法8.4.1决策树8.4.2k近邻分类器8.4.3Rocchio分类器8.4.4概率朴素贝叶斯文档分类8.4.5支持向量机分类器8.4.6集成分类器8.4.7关于监督算法的结束语8.5特征选择或降维8.5.1项-类别出现列联表8.5.2索引项文档频率8.5.3TF-IDF权重8.5.4互信息8.5.5信息增益8.5.6卡方检验8.5.7特征选择的作用8.6评价指标8.6.1列联表8.6.2准确率和错误率8.6.3精度和召回率8.6.4F测度和F8.6.5交叉检验8.6.6标准文档集8.7类别组织--构建分类体系8.8趋势和研究问题8.9文献讨论第9章索引和搜索9.1介绍9.2倒排索引9.2.1基本概念9.2.2完全倒排索引9.2.3搜索9.2.4排序9.2.5构建9.2.6压缩的倒排索引9.2.7结构化查询9.3签名文件9.4后缀树和后缀数组9.4.1结构：trie树和后缀树9.4.2简单字符串搜索9.4.3复杂模式的搜索9.4.4构建9.4.5压缩的后缀数组9.5序列搜索9.5.1简单字符串：Horspool9.5.2复杂模式：自动机和位并行9.5.3更快的位并行算法9.5.4正则表达式9.5.5多重模式9.5.6近似搜索9.5.7搜索压缩文本9.6多维索引9.7趋势和研究问题9.8文献讨论第10章并行与分布式信息检索10.1介绍10.2分布式信息检索系统的分类10.3数据划分10.3.1文档集划分10.3.2文档集选择10.3.3倒排索引划分10.3.4划分其他索引10.4并行信息检索10.4.1介绍10.4.2在MIMD架构上的并行信息检索10.4.3在SIMD架构上的并行信息检索10.5基于集群的信息检索10.6分布式信息检索10.6.1介绍10.6.2索引10.6.3查询处理10.6.4Web问题10.7联合搜索10.8在对等网络中的检索10.9趋势和研究问题10.10文献讨论第11章Web检索11.1介绍11.2一个有挑战性的问题11.3Web11.3.1特性11.3.2Web图的结构11.3.3对Web建模11.3.4链接分析11.4搜索引擎架构11.4.1基本架构11.4.2基于集群的架构11.4.3缓存11.4.4多级索引11.4.5分布式架构11.5搜索引擎排序11.5.1排序信号11.5.2基于链接的排序11.5.3简单的排序函数11.5.4排序学习11.5.5学习排序函数11.5.6质量评价11.5.7Web垃圾11.6管理Web数据11.6.1为文档分配标识符11.6.2元数据11.6.3压缩Web图11.6.4处理重复数据11.7搜索引擎用户交互11.7.1搜索矩形范式11.7.2搜索引擎结果页面11.7.3培养用户11.8浏览11.8.1扁平浏览11.8.2结构导向的浏览和Web目录11.9浏览之外11.9.1超文本和Web11.9.2搜索与浏览相结合11.9.3Web查询语言11.9.4动态搜索11.10相关问题11.10.1计算广告学11.10.2Web挖掘11.10.3元搜索11.11趋势和研究问题11.11.1静态文本数据之外11.11.2目前的挑战11.12文献讨论第12章Web爬取12.1介绍12.2网络爬虫的应用12.2.1通用Web搜索12.2.2聚焦爬取12.2.3Web刻画12.2.4镜像12.2.5网站分析12.3爬虫的分类体系12.4架构和实现12.4.1爬虫架构12.4.2实际问题12.4.3并行爬取12.5调度算法12.5.1选择策略12.5.2重访问策略12.5.3友好策略12.5.4组合策略12.6评价12.6.1评价网络使用12.6.2评价长期调度12.7趋势和研究问题12.7.1爬取“暗网”12.7.2在网站帮助下的爬取12.7.3分布式爬取12.8文献讨论第13章结构化文本检索13.1介绍13.2结构化能力13.2.1显式和隐式结构对比13.2.2静态与动态结构对比13.2.3单一层次结构与多层次结构对比13.3早期文本检索模型13.3.1基于非覆盖列表的模型13.3.2基于相邻结点的模型13.3.3结构化文本结果排序13.4XML检索13.4.1XML检索中的挑战13.4.2索引策略13.4.3排序策略13.4.4去除重叠13.5XML检索评价13.5.1文档集13.5.2主题13.5.3检索任务13.5.4相关性13.5.5测度13.6查询语言13.6.1特性13.6.2XML查询语言分类13.6.3XML查询语言样例13.7趋势和研究问题13.8文献讨论第14章多媒体信息检索14.1介绍14.1.1什么是多媒体14.1.2多媒体检索14.1.3文本检索与多媒体检索的对比14.2挑战14.2.1语义鸿沟14.2.2特征歧义性14.2.3机器生成的数据14.3基于内容的图像检索14.3.1基于颜色的检索14.3.2纹理14.3.3显著点14.4声音和音乐检索14.4.1指纹识别14.4.2语音识别14.4.3说话人识别14.4.4语音文档检索14.4.5音频基础知识14.5检索和浏览视频14.5.1视频摘要14.5.2静态摘要14.5.3图像拼接与跳跃剧照14.5.4动态摘要14.5.5交互式摘要14.5.6视觉与听觉浏览对比14.5.7摘要评价14.6融合模型：合并所有信息14.6.1人脸命名14.6.2图像命名14.6.3音频命名14.6.4结合音频与视频的音-视频语音识别14.6.5结合音频和视频的多媒体处理14.7分割14.7.1视频分割样例14.7.2视频分割方案14.7.3利用边缘的视频分割14.7.4语音分割14.7.5分割评价14.8压缩和MPEG标准14.8.1强度和采样14.8.2颜色14.8.3有损压缩14.8.4无损压缩14.8.5时间冗余14.8.6运动预测14.8.7MPEG标准14.9趋势和研究问题14.10文献讨论第15章企业搜索15.1介绍15.1.1企业搜索的特点和应用15.1.2企业搜索软件15.1.3工作场所搜索15.2企业搜索任务15.2.1搜索支持任务的例子15.2.2搜索类型15.2.3研究企业搜索15.3企业搜索系统的结构15.3.1收集15.3.2提取15.3.3索引15.3.4文本注释的索引15.3.5查询处理15.3.6搜索结果的展示15.3.7安全模型15.3.8联合/元搜索15.4企业搜索评价15.4.1企业搜索的公开测试集15.4.2企业搜索内部评价15.4.3企业搜索调试15.4.4所能期待的是什么15.5不满意的可能原因15.6情境化和个性化15.6.1情境化的控制