天天做网站,php网站建设公司,注册推广,soho的外贸网站搜索引擎架构 
整个搜索引擎分为三个系统 爬虫系统  索引系统  线上搜素服务  爬虫系统 
爬虫分为两个阶段#xff1a; 第一阶段#xff1a;根据目标网站的列表页#xff0c;爬对应的文档 URL  第二阶段#xff1a;根据文档 URL#xff0c;下载文档内容  触发器#xff1…搜索引擎架构 
整个搜索引擎分为三个系统 爬虫系统  索引系统  线上搜素服务  爬虫系统 
爬虫分为两个阶段 第一阶段根据目标网站的列表页爬对应的文档 URL  第二阶段根据文档 URL下载文档内容  触发器 定时任务触发  消息触发  管理后台手动触发某一个爬虫任务  
文件服务器 存储图片和视频文件  索引系统 
索引系统主要数据依赖内容库和文件服务 
依赖服务 分词服务  NLP 服务  同义词扩展  生成文档摘要  抽取文档标签  图片、文本、视频生成向量  ....  PageRank 服务  在线搜索服务 
在线服务的主要模块 Query 理解  召回  排序  
当欠召回时 在线服务会将当前 Query 发送给离线索引系统的消息队列让其为该 Query 完善索引数据。  索引系统收到消息后会使用第三方搜索引擎进行检索并且将检索的内容解析出 URL发给爬虫系统进行数据的补充。  如果第三方搜索引擎也没有检索到数据可以通过 LLM 进行生成内容将生成的内容写入 ES 索引