Turnbull:对我来说,最大的错误在于只关注解决方案,而不关注对搜索的评估。
在我的工作中,相关性最困难的部分在于评估搜索是不是相关的。这要回答类似下面的问题:这些结果是正确的吗?用户对这些结果满意吗?这些结果是不是用户希望能从这样的搜索程序中得到的?是在这样的上下文中吗?我们的改动是不是取得了进步?
相关性工程师事实上并没有足够的能力知道搜索结果到底是不是相关的。相反,他们需要与非技术同事和领域专家一起,对用户数据进行分析并且评估搜索的正确性。这个事实上非常困难,即使是最好的分析方法,如果给它错误的上下文,它也可能会被误导。有时候程序非常专业化,分析学完全帮不上忙。
不幸的是,有些公司直接采用了“银弹”解决方案,或者某些令人兴奋的新技术,而没有给予评估足够的重要性。他们没有把时间花在进行评估上。比如,有种名为word2vec的现在很流行的技术,可以对你的搜索文档进行某种类型的搜索。Word2vec是一种理解单词背后的语义关系的机器学习算法。理解单词“prince”和“king”是紧密相关的,或者“Anakin
Skywalker”和“Darth Vader”是。对我们技术工程师来说,一想到“哦,如果我搜索Darth
Vader,结果就会出来Anakin
Skywalker”,这似乎是件很酷的事。但事实上有可能这恰好是这次搜索想要得到的答案,也有可能这完全与搜索的目标不相关。
那些非常重视搜索效果的公司是绝不可能把搜索评估这项工作外包出去的。在这本书中,我们也写到了等方法来解释分析方法和技术,可以用这些来帮助解决这些问题。当你非常习惯于衡量相关性时,你就可以开始使用一些高级技术了,比如学习分级。
来源: http://www.infoq.com/cn/articles/relevant-search-book-q-a