当配置搜索引擎的结果显示时,主要考虑两个问题:显示哪些内容以及如何分组结果。
要显示哪些内容?
最简单的原则是,对那些已经知道要找什么的用户而言,就显示代表性的内容如标题和作者,以协助用户迅速区分搜索的结果。对那些不确定自己要找什么的用户而言,就显示描述性的内容如摘要和关键词等。例如下图Salon网站的搜索结果配有摘要,可以协助用户了解搜索到的文件内容:
下图显示了对清楚自己要什么的用户而言,网站就没有提供摘要:
搜索结果要显示多少信息?无论指定了多少,搜索结果太多而一个页面无法全部显示时,许多用户是不会看到第一页以后的内容的。
要显示多少条内容?
如果搜索引擎为每一条搜索出的文档显示很多信息,可以考虑显示小一些的结果集。一般的建议是:用户在搜索结果时,要让用户知道搜索出的文件总数,同时提供必要的导航系统,帮助用户在结果之间移动。下图中的ICON Advisers提供了这样的导航系统,显示结果总数,而且让用户可以一次移动10条结果。
列出结果
现在有一堆搜索结果,也知道针对每一条结果显示哪些内容,那么这些结果应该以什么次序列出?这个问题取决于用户想要怎么使用搜索的结果。列出结果的最常见方法是:排序(sorting)和排名(ranking)。结果可以按日期排序,也可以按照字母顺序排序,还可以由搜索算法根据相关性和受欢迎程度进行排名。
用户如果要做决策或者采取某种行动,排序就相当有用。例如,用户在比较产品时,可能想按价格或者某种特征排序,以帮助他们做决定。如果想理解信息或进行学习时,排名就相当有用。排名通常描述检索出的文档的相关性,从最相关的到最无关的。当然,相关性是相对的,用户通常假定最上面的少数几条结果就是最佳的结果。
按字母排序
字母属性是很好的通用排序方法。大部分的用户都知道字母顺序。但要注意的是,如果把“a”、“the”这样的停用词去掉再进行排序,那么像“The naked Bungee Jumping Guide”就是在“N”下面,而不是“T”下面了。
Baseball-Reference.com以字母顺序显示结果
按时间排序
如果内容相对时间敏感,时间排序就是有用的做法。如果网站提供新闻,按时间逆序排序是有意义的。
Washington Post默认的列表次序是逆向时间排序
按相关性排名
相关性排名算法通常按照下列项目之一或其中几项决定:
□ 搜索出的文档中有多少个查询字符串?
□ 查询字符串在文档中出现的频率有多高?
□ 查询字符串在文档中的位置有多近?相邻?同句?或同段?
□ 查询字符串出现在何处?例如,出现在标题时,通常比出现在正文中相关性要高
□ 查询术语出现所在文档的收欢迎程度,例如链接的频率
根据受欢迎程度排名
Google能成功是因为它以受欢迎程度对结果排名,其做法是把链接数量作为重要因素来考虑。当然这种做法不适合小型网站,因为小型网站的内容的受欢迎程度差异性不明显。
以用户或专家的评价排名
用户评价可以作为排序的基础。以Digg的情况为例,评价通过用户对内容的投票而计算得来的,对于Digg用户而言,主要使用评价来判断内容的价值,同时评价也构成整个信息经济的基础。
用户评分是Digg结果分级的基础
按订单付费排名
由于横幅广告不再是最可行的经济模式,位置付费(pay for placement,PFP)变成Web搜索中越来越常见的形式。网站出价越高,在用户结果列表中的等级就越高。Yahoo!Search Marketing就是采取这个办法的最流行网站之一。
Yahoo! Search Marketing 以拍卖价格排序,出价越高,排位越靠前
导出结果
打印、寄送或者储存结果
《纽约时报》网站让用户可以存储文章以备日后检索,提供了“Save”功能和“REPRINT”选项,这些功能就是设想用户找到信息后接下来要做什么的考虑。
选择结果的一部分
用户可以储存一部分搜索结果,然后在完成搜索之后再进行后续的处理。
Ann Arbor地区图书馆的目录系统让用户可以选择一些记录进行保存
可以把结果寄出或者下载到本地磁盘
储存搜索
如果想保存搜索本身,而不是某个结果,可以把搜索储存起来。例如想及时追踪某个领域的动态信息时,可以手动定时执行一个储存下来的搜索,使得查询定期自动执行。某些搜索工具如Science Magazine的ScienceNow服务就提供了这种功能。
转载请注明:陈童的博客 » 搜索系统——显示搜索结果