当前位置:网站首页>搜索引擎的日常挑战_4_外部异构资源 - 知乎

搜索引擎的日常挑战_4_外部异构资源 - 知乎

2020-11-08 07:14:12 osc_cudh2wh2

写在前面:

搜索引擎是个极其复杂的系统工程,搜索引擎上并不会大力出奇迹,需要一点点打磨。 本系列记录日常遇到的问题,以管窥豹的方式,一点点展现搜索引擎的魅力之处。


开始正文:

移动生态的孤岛效应越来越明显,但彼此又有一定的关联合作。对于通用搜索引擎而言,不可能所有资源、生态都一一满足,一定会引入外部资源。

相比于京东、携程、美团等虽然每天也都有大量的搜索,但是和通用搜索不同的是,它们检索的内容都是自家生态产出,或是结构化内容。这一点上不用像通用搜索引擎一样,承受此类"痛苦"。

外部资源的引入和检索主要的方式是阿拉丁暴露接口和卡的方式提供服务。也有小程序跳转提供服务。

(所以现在各家大厂都在大力建设自己生态内的内容,规范的格式化数据,也便于管理。如头条号、百家号、企鹅号、甚至是知乎专栏。)

但当资源需要融合到搜索引擎综合结果展示页时,就会带来很多需要思考的问题

1 外部的提供方式,是建库,还是请求api的方式。建库的量级?导流的量级?能否抗住。两者方式各有优劣,要先想明白。

2 建库的话如何建?是和本身大库融合建在一起?还是单独建库?两者方式也是各有优劣。

3 建库的字段、召回、排序的字段如何对齐?缺失字段如何处理?

4 排序侧融合的方式,以及生态上到考量。

5 可扩展性的考虑,如何将标准、入库、排序等各个阶层工作尽可能可复用,尽可能统一化管理。

6 api引入方式引入的资源,在其内容理解方面,几乎很难搞。

6 审核运营控制。没有审核方式,内容不受控,若是出现敏感、低俗内容影响可能会很大。若是入库的方式还好些,api方式的话是个问题。

版权声明
本文为[osc_cudh2wh2]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4328465/blog/4707812