- +1
我们用12520个热词测试了百度搜索,发现了这些规律
本文经上观新闻授权转载,未经许可请勿转载。
作者|肖书瑶 脱崯
引言:搜索引擎到底是按照什么规则来排序?
百度在风口浪尖上又做修改了。这次改的是搜索结果中的显示方式。从1月24日(周四)中午开始,原本显示域名的地方变成了名称和图片,除非点击跳转,用户再也无法从观看域名来判断这条信息真实来源。
例如,对于关键词“特朗普”,同样的搜索结果与位置,前一天还显示域名,昨天已经显示“环球时报评论”。我们也注意到,只有新闻资讯类网址才会变成这种形式。
修改后:
你可能以为“环球时报评论”会跳转到“环球时报”,但其实指向是环球时报百家号。自媒体还是机构媒体,是“百家号”还是“网站”?傻傻分不清。
修改前:
▍模糊的界限从“信息来源”来看,就像身份证一样,“域名”是唯一的。类似gov, edu,org的后缀更有着严格的注册标准。
这次式样改动,一是模糊了信息来源,背后是谁在挑选信息,谁来为真实性把关?二是模糊了百家“号”与“网站”的差别。
这不是百度第一次模糊界限。曾经的百度导航栏有“新闻”选项,2017年上半年,“新闻”悄悄变成了“资讯”。
▍百家号“霸屏”?
两天前,自媒体“新闻实验室”指责百度第一页搜索结果一半以上会指向百度自家产品,尤其是百家号。
面对指责百度觉得很冤,声明称百家号全站占比小于10%。“问心无愧。”副总裁沈抖接受采访的时候说。
按“全站占比”统计有没有意义?
上海交通大学媒体与传播学院魏武挥写道:“这种回应有那么点逃避问题的诡辩感觉:方可成批评的是第一页结果,百度回应是说“搜索结果”——其实可以理解为全部结果。但问题是,除非具有特殊目的,很少有用户会对三页之后的内容感兴趣。”
搜索引擎用户行为研究显示,92%的用户在搜索时会点击前5个位置。点击次数到第三页急剧下降,第五页以后几乎没有人点击。这和我们的真实体验一致。所以说,比“占比”更重要的概念是“排序”。10%的内容在前10%的位置展示和在后10%的位置展示,效果天壤之别。
▍12520个热词背后
因此,我们用12520个搜索热词在百度搜索上进行了测试,看百家号或其他百度号——包括百科、贴吧、文库等网站在搜索结果第一页占多少比例,用数据来看,百度到底冤不冤?
结果显示,50.3%关键词在第一页有一半以上的结果指向了百度自家的网站,这其中有59.3%指向了百家号。也就是说,如果第一页有10个链接是百度自己的网站,6个都是百家号。如果再把范围扩大一点,89.8%的关键词在第一页结果中包含百度自己的网站,84.5%有百家号。
百家号不仅作为独立的搜索结果散落在页面上,还有一级链接+5个副链接的整块显示。作为中文互联网搜索最大的流量入口,2018年第一季度百度的市场份额占比达到80.09%。
什么样的关键词容易出现百家号结果?
根据我们的热词搜索结果,百家号占比排在前1%位置的关键词是:
百家号占比排在前1%位置的关键词(百家号占比在60%以上),人名(尤其是明星)、娱乐、健康、体育、生活知识等类别的关键词最容易出现百家号。搜索准确的网站名、查询工具类的关键词出现百家号的几率较低。在百度改变了搜索结果中百家号的样式后。原有的测试方法连计算机都无法从首页源代码中获取真实的链接,必须点击进去,才能知道到底是什么网站。我们改变方法后重新进行测试,结果和第一次测试保持一致。虽然样式变了,但排序算法依旧和原来一样。
▍搜索引擎的“把关”逻辑搜索引擎就像我们在互联网时代的眼睛,很大程度上决定了我们将看到什么样的内容、产生什么样的思考。有了互联网以后,“信息平等”看似触手可及,但“把关人”一直存在,只是在搜索引擎上,从人变成了机器。
搜索引擎到底是按照什么规则来排序?
回归本源,这其实一个“大家都在看什么”的数学问题。
上个世纪90年代,最原始的排序方法是——关键词出现次数越多越排在前面。显然,排在前面的很可能是重复关键词的垃圾网页。
谷歌主导互联网搜索后,一个新的排序方法产生了——链接流行度(PageRank),一个网页被其他网页链接得越多,排序就越靠前。
此后排序算法不断升级,纳入了关键词突出程度、网页点击量、停留时间、相似关键词等因素综合考量。排序算法至今都是各公司的“核心机密”,“大家在看什么”的朴素算法依然是排序的核心与基础。
在信息流出现以后,排序算法又有了一次革新。决定什么在排在前面的不再是“大家都在看什么”,而是“你想要看什么”。算法会根据你的互联网使用行为来猜测你的喜好,将你爱看的相似内容自动排在前面推荐给你。百度如此,谷歌如此,几乎所有的搜索引擎都在做这件事。
在百度这一模式被称为“搜索引擎+信息流”的双引擎分发战略。这个战略2018年为百度带来了超过1000亿元的收入,第二季度移动端净营收占比从去年的5%提至77%。信息流及AI业务占到百度核心(BaiduCore,即搜索服务与交易服务的组合)近20%收入,同比增长则超过150%。
如此高额的盈利能力,其中一个重要的基础就在于利用百家号实现了用户的最终停留。
主动搜索行为和信息流推荐同时掌控分发渠道,190多万个百家号则是百度建立的庞大内容池。自家的引擎推荐自家的内容,流量从百度搜索来,到百度号去。
“把用户留在自己的网站上”,本没有问题。根据搜索引擎专家Rand Fishkin的统计,在谷歌上,12.6%的点击去了排名前100的大型网站,剩下87.4%的点击去了普通站点,这其中又有11%的点击去了谷歌自己的网站——包括地图、邮箱、图书等。
2016年的魏则西事件也许让百度意识到搜索引擎需要承担更大社会责任。不过,从竞价排名、贴吧广告、信息流推荐,再到百家号“霸屏”来看,百度对搜索引擎的“排序”逻辑似乎没有改变。
栏目主编:刘璐 文字编辑:刘璐
本文经上观新闻授权转载,未经许可请勿转载。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司