神州乐器网讯 实体搜索引擎现在的发展状况如何?未来是否明晰?前Baidu搜索引擎rank工程师姚旭对在知乎里就这个问题进行了回答,原文如下:
背景:
实体(entity)搜索是相对于关键词(keyword)搜索而言的。
传统的关键词搜索虽然目前已经可以达到很高的"智能"水平,搜索结果在很大程度上可以帮助用户找到需要的信息。
但对于"搜索引擎"这个系统自身而言,其实并不了解搜索query本身有什么意思,对于搜索"盗梦空间"和"喵喵喵",搜索引擎做的事情基本差不多。 你告诉他要找什么,他就去按照字面意思勤勤恳恳的去找。 搜索引擎无法直接回答query,只能做一个信息的中转。
实体搜索关注的重点不是"关键词"级别的信息,而是"对象",比如:人,电影,软件,小说,公司,组织等等。 从关键词向实体转化,希望可以从更精细的角度来理解和组织搜索结果。 在一定程度上可以理解query的意思,并给出自己的答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如"好看的电影"。
数据:
实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法,比如Ontology,语义网等等)。 传统的html并不是一个有效的信息载体,至少截至目前,主流的html tag对于信息组织而言是没有实际意义的。 结构化数据通过html展现出来以后,原有的属性信息都丢失了。 也许在数据库中,一部电影和导演的关系是可以通过关系数据库表体现出来的,但html中td,tr之类的标签是无法表示这种关系的。
所以,对于搜索引擎而言,要从数据建设做起,基本上的通用做法大概分以下几个方面:
1) web实体属性的提取和消歧
2) 实体信息分类
3) 实体关系挖掘
产品:
数据建设是为了搜索引擎产品服务的,在数据层面积累的基础上,需要通过搜索产品来体现数据的价值。 除了将实体信息直接作为类似百科形式直接使用外,产品层面上已经逐步产生了很多有意思的新内容。
举一些有趣的例子:
1、实体的关联关系
"类似XXX的电影"这类query是实体关系的一种表现,传统关键词搜索在这类信息上是完全不够用的,产品上从"搜索"逐步向"发现"转变。
类似盗梦空间的电影
2、实体的属性信息
"张艺谋导演的爱情电影"
莫言的书
3、 实体的分类信息
"杀毒软件",这个是网上新闻看来的。
最后说说未来
实体也好,ontology也好,语义网也好,这些名词在搜索这个应用场景下很大程度上在说一件事情。 就是在关键词的基础上,可以扩展出更多隐藏在关键词背后的信息,用于搜索结果的组织,展现,排序。 搜索引擎不再定位于一个单纯的索引机器,而是将信息进行扩展和重组。 至少从目前工业界的实际进展来看,效果还是很振奋的。
责任编辑:陈星