（可能由于本图书不流行，暂时只有京东封面照片）

简介

看这本书是因为自己想做个搜索引擎，不为别的，只因为google在国内不能用，百度的广告太多&搜索娱乐化&搜索广告化，bing的中文搜索质量差那么一点点。

而本书详细地讲解了搜索引擎的基本技术与先进技术，不愧是“十三五”规划教材。一般的技术书籍都是“调包侠”，介绍一些先进的工具，然后讲讲如何使用。本书从需求讲起，逐步深入到技术细节，然后建模，最后归结到数学原理和公式。

不得不说，如果是面试搜索引擎类的公司，他们完全不会问那种“调包侠”的问题，倒是大概率问这种需求导向、最后归结到数学的原理性问题。

内容

重要信息

搜索引擎分类

全文搜索
目录搜索
元搜索以全文搜索引擎为后端；代表Web Crawler， 360搜索
垂直搜索针对某一行业

分布式爬虫架构

p18

主从分布
对等分布

页面遍历策略

p23

宽度优先
深度优先
重要度优先
- Partial PageRank
- On-line Page Importance Computation
- 大站优先

开源爬虫框架比较

p31

（等待以后摘抄）

（其余的内容大多和索引、搜索排名有关，暂时没有兴趣）
（知识图谱可能会比较有用）

摘抄内容

(以下内容来自京东，等待自己总结)

《智能搜索引擎技术》以当前搜索引擎主流技术为基础，密切关注前沿技术发展趋势，结合当前人工智能和自然语言技术的发展，以深入浅出的形式介绍一套完整的大数据时代背景下的智能搜索引擎的关键技术。

《智能搜索引擎技术》在吸取国内外经典教材优点的基础上，广泛搜集合适的实例，通过实例从多个视角对智能搜索引擎的核心技术进行全面介绍，加深读者对关键概念和核心技术的理解。

《智能搜索引擎技术》还对开源软件进行了介绍，将技术理论与应用范例结合。

《智能搜索引擎技术》共分为10章，通过采用循序渐进的组织方式对搜索引擎的各个组成部分和核心技术进行了介绍。

第1章引言，对搜索引擎进行了简要概述，介绍了搜索引擎与信息检索的关系，搜索引擎的历史、分类及基本架构。

第2章信息采集，主要围绕搜索系统的核心——网络爬虫进行介绍。

第3章文本处理，对搜索引擎的文本处理功能进行了介绍，包括文本信息的提取、自然语言中的统计语言模型、中英文分词技术、网页去重算法等。

第4章搜索引擎索引构建，主要介绍搜索引擎的索引系统，包括倒排索引、建立索引的方式、索引的更新策略、分布式索引及索引压缩算法。

第5章基于文本内容的检索模型，对搜索引擎的检索模型进行了介绍，包括传统的检索模型，如布尔模型、向量空间模型、概率检索模型和基于统计语言建模的检索模型，以及基于机器学习的排序模型。

第6章基于链接的检索模型，主要对基于链接的检索模型和针对链接作弊的反作弊模型进行了介绍。

第7章查询处理与结果展示，主要对查询条件的纠正与过滤、查询处理与展示的技术进行了介绍。

第8章相关反馈与查询扩展，主要对围绕着相关反馈和查询扩展的各项技术进行了介绍，通过采用相关反馈和查询扩展的技术理解用户的查询意图。

第9章分类与聚类，主要介绍了在智能搜索引擎中用到的各种机器学习算法。

第10章基于知识图谱的搜索引擎，对未来搜索引擎的发展方向——基于知识图谱的智能搜索引擎进行了介绍，包括知识图谱的构建流程、构建中的信息抽取、知识融合、知识表示与推理等关键技术及其在搜索引擎中的应用。

《智能搜索引擎技术》适用于数据科学与大数据技术专业及其计算机相关专业的本科生或研究生以及从事该领域研究的人员。

通过对《智能搜索引擎技术》的阅读，可以使读者对智能搜索引擎的相关知识有一个基本的了解，并为将来开展研究工作打下坚实的基础。

第1章 引言
1．1 信息检索与搜索引擎
1．2 搜索引擎的历史
1．3 搜索引擎的分类
1．4 搜索引擎的基本架构
1．4．1 主要性能需求
1．4．2 总体架构
1．5 搜索引擎的主要组件及其功能
1．5．1 网络爬虫
1．5．2 解析器
1．5．3 索引器
1．5．4 检索器
1．5．5 用户交互接口
1．6 开源搜索引擎
本章小结
习题

第2章 信息采集
2．1 网络爬虫的概述
2．1．1 网络爬虫的功能特点
2．1．2 网络爬虫通用架构
2．1．3 网络爬虫分类
2．2 分布式网络爬虫架构
2．2．1 主从分布式结构爬虫（master-slave）
2．2．2 对等分布式结构爬虫（peer to peer）
2．3 信息采集涉及的协议
2．3．1 URL规范和HTTP协议
2．3．2 User Agent
2．3．3 Robots协议
2．4 页面遍历
2．4．1 宽度优先遍历策略
2．4．2 深度优先遍历策略
2．4．3 重要度优先遍历策略
2．5 页面更新
2．5．1 网页更新策略
2．5．2 爬虫更新方式
2．6 深网抓取
2．7 开源网络爬虫
本章小结
习题

第3章 文本处理
3．1 文本信息提取
3．1．1 网页数据获取
3．1．2 非网页的数据获取
3．2 统计语言模型
3．2．1 N元模型（N-gram）的基本概念
3．2．2 数据平滑方法
3．3 英文分词
3．3．1 词素切分
3．3．2 词干提取
3．3．3 去除停用词3．4 中文分词
3．4．1 中文分词概述
3．4．2 基于词典的机械分词法
3．4．3 基于统计的分词法
3．4．4 分词粒度
3．5 网页去重
3．5．1 通用去重算法流程
3．5．2 Shingling算法
3．5．3 SimHash算法
本章小结
习题

第4章 搜索引擎索引构建
4．1 倒排索引
4．1．1 倒排索引基础
4．1．2 词典结构
4．1．3 倒排表结构
4．2 建立索引方式
4．2．1 基于内存的索引构建
4．2．2 基于排序的索引建立
4．2．3 基于合并法的索引构建
4．3 索引更新
4．4 分布式索引
4．4．1 数据划分
4．4．2 冗余和容错
4．4．3 Elastic Search的分布式索引
4．5 索引压缩
4．5．1 评价压缩算法的指标
4．5．2 Delta编码（D-Gaps）
4．5．3 无参数间距压缩编码
4．5．4 参数间距压缩
4．5．5 高查询性能的编码
本章小结
习题

第5章 基于文本内容的检索模型
5．1 检索模型概述
5．2 布尔模型
5．3 向量空间模型
5．3．1 文本表示
5．3．2 查询相关度计算
5．4 概率检索模型
5．4．1 概率检索模型概述
5．4．2 二元独立模型（binary independent model）
5．4．3 BM25模型
5．4．4 BM25F模型
5．5 基于统计语言建模的检索模型
5．6 机器学习排序
5．6．1 机器学习排序概述
5．6．2 单文档方法（pointwise approach）
5．6．3 文档对方法（pairwise approach）
5．6．4 文档列表方法（listwise approach）5．7 检索质量评价标准
5．7．1 准确率和召回率
5．7．2 前k个文档的查准率（P@k）
5．7．3 平均查准率均值（mean average precision，MAP）
5．7．4 NDCG（normalize DCC）
本章小结
习题

第6章 基于链接的检索模型
6．1 Web图
6．2 Page Rank算法
6．2．1 基于简单模型的Page Rank算法
6．2．2 基于随机冲浪模型的Page Rank算法
6．2．3 主题敏感的Page Rank
6．3 HITS算法
6．3．1 HITS算法基本思想
6．3．2 HITS算法流程
6．3．3 HITS的优势与缺陷
6．4 SALAS算法
6．5 通用链接反作弊方法
6．5．1 链接作弊方法
6．5．2 反链接作弊思路
6．5．3 经典链接反作弊算法
本章小结
习题

第7章 查询处理与结果展示
7．1 查询纠错
7．1．1 查询纠错概述
7．1．2 英文纠错
7．2 搜索智能提示
7．3 不安全信息过滤
7．4 查询处理
7．4．1 “一次一文档”
7．4．2 “一次一词”
7．5 结果展示
7．5．1 页面摘要
7．5．2 查询结果聚类
7．6 查询缓存机制
本章小结
习题

第8章 相关反馈与查询扩展
8．1 相关反馈框架
8．2 显式相关反馈
8．2．1 Rocchio相关反馈算法
8．2．2 概率相关反馈
8．2．3 相关反馈策略的评价
8．3 伪相关反馈
8．4 隐式反馈
8．5 查询扩展
本章小结
习题

第9章 分类与聚类
9．1 文本分类
9．1．1 文本分类框架
9．1．2 贝叶斯文档分类
9．1．3 支持向量机
9．1．4 特征选择
9．1．5 评价
9．2 聚类
9．2．1 划分聚类
9．2．2 层次聚类
9．2．3 评价
本章小结
习题

第10章 基于知识图谱的搜索引擎
10．1 概述
10．2 知识图谱的数据获取
10．3 信息抽取
10．3．1 实体抽取
10．3．2 关系抽取
10．3．3 属性抽取
10．4 知识融合
10．4．1 实体对齐
10．4．2 实体歧义分析
10．5 知识表示与知识推理
10．5．1 知识表示
10．5．2 知识推理
10．6 基于知识图谱的智能搜索引擎
10．6．1 基于知识图谱的搜索结构
10．6．2 查询理解
10．6．3 自动问答
本章小结
习题

简介

内容