跳到主要内容

搜索

  • 爬虫
    • 网页抓取与解析
    • URL 去重与调度
    • 爬取策略
  • 索引
    • 文档分词与建立倒排索引
      • 文档解析、元数据提取
      • 分词
      • 倒排
      • 增量索引更新
    • 索引的压缩与存储
  • 查询
    • 用户查询解析与扩展
    • 相关性打分算法
      • 词频、位置、IDF
    • 查询结果排序
    • 查询重写、拼写纠错
  • 排名
    • 页面重要性评价算法
    • 搜索引擎优化技术
    • HITS - Hyperlink-Induced Topic Search
      • 基于链接分析的排名算法,用来评价网页的重要性,由 Jon Kleinberg 提出。
      • 枢纽网页(Hub)、权威网页(Authority)
    • PageRank
    • 主题敏感排名
    • 基于用户的排名 - 个性化
    • 排名操纵技术
  • 用户体验
    • 查询建议与自动补全
    • 结果展示优化
    • 用户行为分析
  • 广告
    • 搜索广告匹配与排序
    • 广告点击率预测
  • 大数据分析
    • 日志挖掘
    • 用户画像
    • 数据报表

算法

  • BM25 - Okapi BM25
    • BM -> best matching
    • 对长文本的处理更合理
    • 根据查询词在文档中出现的词频,计算查询词与文档的相关性。
    • 同时将文档长度也考虑在内,避免长文档获取过高分值