电脑、智能手机、智能电视等产品不断普及与发展,越来越多的人开始接触互联网,中国网民的数量飞速增长。与此同时,互联网上的各种信息如博客、购物信息及电子图书等也呈现了指数型的增长。虽然互联网上的信息资源种类多、信息全,但是信息组织相对松散,互联网上的信息都散落在各个网页当中,并且更新速度异常迅速。互联网用户想要在这海量并且组织无序的信息当中找到对自己有用或者感兴趣的信息越来越困难。在这样的背景下搜索引擎应运而生。搜索引擎提供商利用各种爬取技术从互联网上爬取大量的网页,并对这些网页进行解析、整理、挖掘和组织,形成一个庞大的信息检索系统,为互联网用户提供基于关键字的检索服务,使用户能够轻易地从信息的海洋当中获得有用的信息。所以搜索引擎己经成为互联网用户获取信息的入口及上网不可以或缺的网络应用。
目前搜索引擎所使用的技术主要包含:互联网爬虫、网页页面解析、倒排索引技术、检索系统、自然语言处理和用户兴趣挖掘等。由于互联网上的信息种类多、覆盖面全、组织复杂,所以搜索引擎单纯依靠用户提交的搜索词从这庞大的数据库当中抽取用户感兴趣的信息显然是一件非常具有挑战性的任务。只有搜索引擎充分理解用户的兴趣、搜索意图等才能返回给用户真正需要的信息。其中搜索词是指用户使用搜索引擎时提交给搜索引擎的搜索关键字,是用户与搜索引擎交互过程当中最为重要的信息载体,能够直接或者间接地反应用户的搜索意图、兴趣和需求。所以利用自然语言处理方法、机器学习、数据挖掘等技术对用户提交的搜索词进行分析和挖掘从而得到用户的搜索意图或兴趣等搜索引擎最常用的挖掘方法之一。
评论(0人参与,0条评论)
发布评论
最新评论