澎湃Logo
下载客户端

登录

  • +1

我们用12520个热词测试了百度搜索,发现了这些规律

2019-01-26 10:57
来源:澎湃新闻·澎湃号·湃客
字号

本文经上观新闻授权转载,未经许可请勿转载。

作者|肖书瑶 脱崯

引言:搜索引擎到底是按照什么规则来排序?

百度在风口浪尖上又做修改了。这次改的是搜索结果中的显示方式。从1月24日(周四)中午开始,原本显示域名的地方变成了名称和图片,除非点击跳转,用户再也无法从观看域名来判断这条信息真实来源。

例如,对于关键词“特朗普”,同样的搜索结果与位置,前一天还显示域名,昨天已经显示“环球时报评论”。我们也注意到,只有新闻资讯类网址才会变成这种形式。

修改后:

 

你可能以为“环球时报评论”会跳转到“环球时报”,但其实指向是环球时报百家号。自媒体还是机构媒体,是“百家号”还是“网站”?傻傻分不清。

修改前:

模糊的界限

从“信息来源”来看,就像身份证一样,“域名”是唯一的。类似gov, edu,org的后缀更有着严格的注册标准。 

这次式样改动,一是模糊了信息来源,背后是谁在挑选信息,谁来为真实性把关?二是模糊了百家“号”与“网站”的差别。 

这不是百度第一次模糊界限。曾经的百度导航栏有“新闻”选项,2017年上半年,“新闻”悄悄变成了“资讯”。 

百家号“霸屏”? 

两天前,自媒体“新闻实验室”指责百度第一页搜索结果一半以上会指向百度自家产品,尤其是百家号。 

面对指责百度觉得很冤,声明称百家号全站占比小于10%。“问心无愧。”副总裁沈抖接受采访的时候说。

按“全站占比”统计有没有意义?

上海交通大学媒体与传播学院魏武挥写道:“这种回应有那么点逃避问题的诡辩感觉:方可成批评的是第一页结果,百度回应是说“搜索结果”——其实可以理解为全部结果。但问题是,除非具有特殊目的,很少有用户会对三页之后的内容感兴趣。”

搜索引擎用户行为研究显示,92%的用户在搜索时会点击前5个位置。点击次数到第三页急剧下降,第五页以后几乎没有人点击。这和我们的真实体验一致。所以说,比“占比”更重要的概念是“排序”。10%的内容在前10%的位置展示和在后10%的位置展示,效果天壤之别。

12520个热词背后

因此,我们用12520个搜索热词在百度搜索上进行了测试,看百家号或其他百度号——包括百科、贴吧、文库等网站在搜索结果第一页占多少比例,用数据来看,百度到底冤不冤? 

结果显示,50.3%关键词在第一页有一半以上的结果指向了百度自家的网站,这其中有59.3%指向了百家号。也就是说,如果第一页有10个链接是百度自己的网站,6个都是百家号。如果再把范围扩大一点,89.8%的关键词在第一页结果中包含百度自己的网站,84.5%有百家号。 

百家号不仅作为独立的搜索结果散落在页面上,还有一级链接+5个副链接的整块显示。作为中文互联网搜索最大的流量入口,2018年第一季度百度的市场份额占比达到80.09%。

什么样的关键词容易出现百家号结果?

根据我们的热词搜索结果,百家号占比排在前1%位置的关键词是:

百家号占比排在前1%位置的关键词(百家号占比在60%以上),人名(尤其是明星)、娱乐、健康、体育、生活知识等类别的关键词最容易出现百家号。搜索准确的网站名、查询工具类的关键词出现百家号的几率较低。

在百度改变了搜索结果中百家号的样式后。原有的测试方法连计算机都无法从首页源代码中获取真实的链接,必须点击进去,才能知道到底是什么网站。我们改变方法后重新进行测试,结果和第一次测试保持一致。虽然样式变了,但排序算法依旧和原来一样。

搜索引擎的“把关”逻辑

搜索引擎就像我们在互联网时代的眼睛,很大程度上决定了我们将看到什么样的内容、产生什么样的思考。有了互联网以后,“信息平等”看似触手可及,但“把关人”一直存在,只是在搜索引擎上,从人变成了机器。

搜索引擎到底是按照什么规则来排序?

回归本源,这其实一个“大家都在看什么”的数学问题。 

上个世纪90年代,最原始的排序方法是——关键词出现次数越多越排在前面。显然,排在前面的很可能是重复关键词的垃圾网页。 

谷歌主导互联网搜索后,一个新的排序方法产生了——链接流行度(PageRank),一个网页被其他网页链接得越多,排序就越靠前。

此后排序算法不断升级,纳入了关键词突出程度、网页点击量、停留时间、相似关键词等因素综合考量。排序算法至今都是各公司的“核心机密”,“大家在看什么”的朴素算法依然是排序的核心与基础。 

在信息流出现以后,排序算法又有了一次革新。决定什么在排在前面的不再是“大家都在看什么”,而是“你想要看什么”。算法会根据你的互联网使用行为来猜测你的喜好,将你爱看的相似内容自动排在前面推荐给你。百度如此,谷歌如此,几乎所有的搜索引擎都在做这件事。 

在百度这一模式被称为“搜索引擎+信息流”的双引擎分发战略。这个战略2018年为百度带来了超过1000亿元的收入,第二季度移动端净营收占比从去年的5%提至77%。信息流及AI业务占到百度核心(BaiduCore,即搜索服务与交易服务的组合)近20%收入,同比增长则超过150%。 

如此高额的盈利能力,其中一个重要的基础就在于利用百家号实现了用户的最终停留。

主动搜索行为和信息流推荐同时掌控分发渠道,190多万个百家号则是百度建立的庞大内容池。自家的引擎推荐自家的内容,流量从百度搜索来,到百度号去。

“把用户留在自己的网站上”,本没有问题。根据搜索引擎专家Rand Fishkin的统计,在谷歌上,12.6%的点击去了排名前100的大型网站,剩下87.4%的点击去了普通站点,这其中又有11%的点击去了谷歌自己的网站——包括地图、邮箱、图书等。

2016年的魏则西事件也许让百度意识到搜索引擎需要承担更大社会责任。不过,从竞价排名、贴吧广告、信息流推荐,再到百家号“霸屏”来看,百度对搜索引擎的“排序”逻辑似乎没有改变。

栏目主编:刘璐  文字编辑:刘璐

本文经上观新闻授权转载,未经许可请勿转载。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈