投稿邮箱:wdwxtg@qq.com 论文发表QQ:329612706 微信:lianpu13
当前位置首页学术中心 学术论文 科技论文
  • 正文内容

万维网中的信息和模式发现的Web挖掘

阅读:909 次 作者: 来源: 发布日期:2018-03-23 19:33:01
基本介绍:

  摘 要:在万维网中应用数据挖掘技术称之为Web挖掘,这是最近研究的热点,但是由于没有建立标准导致在进行比较时产生疑惑。Web挖掘分可以分为两类。第一类就是Web内容挖掘,它是通过在万维网上的资源来发现信息资源的过程。第二类就是Web使用挖掘,它是对用户浏览和访问模式挖掘的。我们对定义Web挖掘和研究问题、技术和开发工作的进行描述和研究。

  关键词:万维网;模式发现;数据挖掘;Web挖掘;Web内容挖掘

  随着在万维网的信息资源的爆炸性增长,用户对于怎样利用自动化工具区寻找所需资源,追踪并且分析它们的使用模式已经变得越来越有必要了。这些因素使得创建在服务器端和客户端能够有效挖掘知识的智能系统变得十分的必要。Web挖掘可以很广泛定义为从万维网中发现和分析有价值的信息资源。

  1 Web挖掘的分类

  对于Web挖掘的分类主要是包括Web内容挖掘和Web使用挖掘。文中描述和分类了每个领域里面的一些最新的工作和用到的相关的工具或技术,见图1。

  1.1 Web内容挖掘

  在万维网缺少有结构的信息资源使得自动发现基于Web的信息变得困难。传统的搜索工具只能是提供友好的界面给用户,它既不能提供结构化的信息模块也不能进行分类、过滤或者筛选用户喜欢的信息。在最近几年以上的因素推动和促进对信息检索发展更多的智能工具,比如智能Web代理搜索,并且极力发展数据挖掘技术用于支撑更高水平Web半结构化数据可靠性。

  1.1.1 基于代理的方法

  基于Web挖掘系统的代理方法通常可以分为三类。

  智能搜素代理:几个已经被开发智能Web代理利用信息的特点和用户的配置文件来搜素有价值的信息。这些智能代理比如Harvest,OCCAM及ParaSite,它们既依赖于特殊类型文件的预指定领域信息也依赖于信息资源的编码模型检索并解释文件。

  信息过滤/分类:一些Web代理使用各种信息检索技术和开放超文本的Web文档的特点,自动检索、过滤和分类信息。比如HyPursuit采用语义信息嵌入链接结构和文档内容的用于创建超文本的层次结构和结构的信息空间。BO(Bookmark Organizer,书签管理)结合层次集群技术和用户交互来组织收集基于概念信息的Web文档。

  个人Web代理:这一类的Web代理抓取用户的偏爱属性并且发现基于这些属性Web信息资源,并且利用这些属性来过滤找到基于相同偏爱属性其它用户。最近这些代理包括WebWatcher,PAINT,Syskill&Webert,GroupLens等。比如,Syskill&Webert利用一个用户的偏爱属性和贝叶斯分类器来定义这个用户是否对这个Web页面兴趣度。

  1.1.2 基于数据库方法

  Web挖掘所用的数据库方法都集中在网络上半结构化的数据组织成更有结构的资源集合的技术,并采用标准的数据库查询机制和数据挖掘技术来分析。

  多级数据库:这种方法的背景是在各种Web资源库中存储包含半结构化信息的底层数据库,比如超文本文档。较高级的元数据或者元组织是在结构化的集合、关系型或者面向对象的数据库中从较低级的元数据或元组织中提取的。

  Web查询系统:许多基于Web查询系统和语言利用标准的数据查询语言,比如SQL,结构化信息的Web文档,以及被利用在万维网搜索中的自然语言查询过程。W3QL结合了基于超文本文档组织的结构查询和基于信息检索技术内容和查询。

  1.2 Web使用挖掘

  Web使用挖掘时从Web服务器总自动发现用户访问的模式,在日常的操作中能够自动的在Web服务器和服务器日志上组织和收集庞大的数据信息。其它用户信息的资源包括对每个页面访问的属性日子以及用户注册或调查收集的数据的CGI脚本。

  分析这些属性数据能够帮助确定消费者的生活习惯、通常产品制定市场策略以及怎么做好宣传活动等等。这还可以提供怎么做好一个更有效率组织的网站的信息用来吸引更多的消费者以及提高团队交流和组织设备的效率。在万维网上进行广告宣传,通过分析用户访问的模式来建立对特殊群体的广告吸引力。

  目前绝大多数现存的Web分析工具都对用户在服务器上活动的记录及各种属性数据的过滤提供模式分析,通过使用这些工具可以记录访问服务器的用户人数、用户个人逗留的时间、用户的个人属性文件、用户访问的域名以及用户访问的URLs等。但是这些工具只是被用来处理中度拥塞的服务器,并且常常在Web网站集上对被访问的文件和属性之间很少提供或者没有数据来分析它们之间的直接或者间接联系。随着更多复杂系统和技术的发现以及分析模式的出现,这些工具总体可以划分为两类。

  1.2.1 模式发现工具

  用户模式挖掘的工具是利用复杂智能的技术从AI、数据挖掘、心理学及信息逻辑来挖掘和收集有价值的用户属性文件夹。比如:WEBMINER系统能够自动从服务器访问日志中发现关联规则和序列模式,它主要是运用最大定向属性和大参考模式序列,这些算法可以反过来对不同偏爱用户轨迹路径进行模式和方向分析。后略。


注:本网发表的所有内容,均为原作者的观点。凡本网转载的文章、图片、音频、视频等文件资料,版权归版权所有人所有。