搜索
- 爬虫
- 网页抓取与解析
- URL 去重与调度
- 爬取策略
- 索引
- 文档分词与建立倒排索引
- 文档解析、元数据提取
- 分词
- 倒排
- 增量索引更新
- 索引的压缩与存储
- 文档分词与建立倒排索引
- 查询
- 用户查询解析与扩展
- 相关性打分算法
- 词频、位置、IDF
- 查询结果排序
- 查询重写、拼写纠错
- 排名
- 页面重要性评价算法
- 搜索引擎优化技术
- HITS - Hyperlink-Induced Topic Search
- 基于链接分析的排名算法,用来评价网页的重要性,由 Jon Kleinberg 提出。
- 枢纽网页(Hub)、权威网页(Authority)
- PageRank
- 主题敏感排名
- 基于用户的排名 - 个性化
- 排名操纵技术
- 用户体验
- 查询建议与自动补全
- 结果展示优化
- 用户行为分析
- 广告
- 搜索广告匹配与排序
- 广告点击率预测
- 大数据分析
- 日志挖掘
- 用户画像
- 数据报表
算法
- BM25 - Okapi BM25
- BM -> best matching
- 对长文本的处理更合理
- 根据查询词在文档中出现的词频,计算查询词与文档的相关性。
- 同时将文档长度也考虑在内,避免长文档获取过高分值