基于数据挖掘的web行为特征分析与研究
18福建电脑2004年第3期基于数据挖掘的行为特征分析与研究陶欢华蒋凌雁。(新疆农业走学计算机与信息工程学院,鸟鲁木齐830052)摘要目前是一个巨走的、分布广泛的、奎球性的信息服务中心.挖掘不但但是数据挖掘算法在数据上的应用,同传统的教据库数据相比。敷据具有其特殊性,英特点就是数据没有严格的蛄构模式、台有不同格式的敷据(文本、声音、图像等)、面向显示的文本无法区分数据类型,井且存在大量的冗余和噪声,同时是一个动态性极强的信息源,所以面向的敷据挖掘研究极具挑战性。奉文舛挖掘的特征进行了分析与研宄。关键词数据挖掘信息服务、引言数据挖掘是信息技术领域中最热门话题之一。
数据挖掘就是从大置的、不完全的、有噪声的、模糊的、随机的实际应用数据中.提取隐古在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术应用于网络环境下的中就成为挖掘.挖掘可以定义为从中发现和分析有用的信息,面向的数据挖掘研究极具挑战性。2、挖掘的概念挖掘是对文档的内容、上可利用资源的使用情况以及资源之间的关系进行分析.从中发现有效的、新颖的、潜在有用的、并且最终可理解的模式。挖掘的概念范围目前尚未明确定义,目前一种比较流行的分类方法是根据挖掘的数据对象将挖掘分为三类:内容挖掘、结构挖掘和志挖掘如图1所示。同时挖掘分为四个子任务:1.资源搜索优秀传奇,检索所需要的文档或资源。2.信息选择和顼处理,从搜索到的铀资源中自动选择特定的信息,并对其进行预处理。3.模式发现,自动发现一个或多个站点的模式。4.模式分析。
对于发现的规则进行有效性验证或解释。3、挖掘的分类比较内容挖掘是从传奇装备文档的内容或描述中抽取知识,目的是联机自动搜索研上的信息资源;结构挖掘是从站点的页面结构推导出知识;日志挖掘是从服务器上的日志中分析站点的使用情况.发现用户的访问模式。
在挖掘过程中,有时为了提高挖掘结果的兴趣性,将页面内容、站点结构以及日志这三类数据融合在一起进行模式的挖掘。表1对内容挖掘、结构挖掘和日志挖掘中的数据特征、表现形式、挖掘方法以及应用领域等方面进行了比较。
图1挖掘技术的分类3.内容挖掘内容挖掘是从文档的内容或其描述中提取知识的过程。内容挖掘可以协助用户搜索信息或者根据用户的配置文件为用户过滤无用的信息。基于文档的文本挖掘是内容挖掘的主要研究内窖.这里把基于的多媒体数据挖掘也归为内容挖掘。在文本挖掘中,通常利用向量来表示文档,有很多方法可以定义向量中的值,例如,向量值可以用布尔类型表示。如果某个单词出现在文档中,则对应的值为1;否则为0。也可以利用词频值。即单词在文档中出现的次数。还有一些其它的表示方把1,?表内容挖掘、结构挖掘和日志比较法,如利用单诃在文档中的位置、一辨(长度为的有序单词集合)、短语、文档概念分级、术语、。”从属关系等来表示文档。文本挖掘主要包含文本分析(伽;)、文本解释(叫)、文档分类和文档可视化等挖掘技术。文本分析详细检查文档的内容,寻找术语之同的语义和语法相关性.抽取主要概念和短语(关键宇)代表文档。文本解释是通过解释文档舶内容以简洁的形式概括文档。文档分类将文档以组的形式收集。文档可视化则是将提炼的信息表示出来。文本挖掘目前主要用于页面归这里介绍传奇纳和搜索结果归纳,倒如,!(:.馏.蚰姆.叫地11)是用于发现个人主页的工具。输八查询的个人信息.[利用搜索引擎、电子邮件列表等,服务查询有关的数据,应用启发式方法分析文档的特征来识别个人主页。(:,,.加.帅)分析商家的主页和电子商务站点的文档结构.抽取价格列表。
文献可以通过分析搜索引擎查询出的结果,收集、标题、内容类型、内容长度和超文本链接等信息。然后利用类的查询语言进行提炼得到更合适的结果。也可以依赣搜索结果中页面的标题、侠照(描述或页面内容的第一行)等对文档进行聚集,然后再将它们分类。另外一些研究则是为数据建模,将各种数据集成到一起,在此之上执行一些复杂的查询,而不仅仅是基于关键字的搜索。一般的方法是利用(包装器)将文档映射到某个数据模型,目前已经存在用于查询这些数据模型的类语言,如将文档象数据13志那样进行组织;使用树图抽取知识并重组文档。3.2蛄构挖掘结构挖掘主要是通过对坫点的超链接结构进行分析、变形和归纳,将页面进行分类,以利于信息的搜索。2004年第3期福建电脑19不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。超链接信息包古了人类潜在的注释,大量的超链接信息提供了关于页面内容相关性、质量和结构方面的信息.它有助于自动推断该网游这一点真好出页面的权威性。当一个页面包含指向另一个页面的超链接时。可以认为是对另一个页面的认可。把对一个页面的不同注解收集起来。就可以用来反映该页面的重要性。这就类似于信息检索额域中使用论文引用情况来评估该论文的质量。然而,与论文引用率不同。
链接结构具有特殊的特征。首先,不是每一个超链接都对页面的权威性有贡献,有些链接是为其它目的创建的.如导航或是付费广告。其次,基于商业或竞争的考虑,很少有页面指向其竞争颁域的权威页面。
倒如,可可乐不会链接到其竞争对手百事可乐的页面。同时,权威页面很少具有特别的描述。由于链接结构的这些局限性.人们提出利用页面寻找权威页。页面是一个或多十页面,它提供了指向权威页面的链接集合。
页面提供了就某个主题而言最有价值的站点链接.它隐古地说明了页面的权威性。通常.好的指向许多好的权威页面;好的页面被许多好的所链接。这种与权威页面之间的相互关系,可用于权威页面的挖掘和高质量结构和资源的自动发现。[算法(嘶?啦)是利用页寻找权威页面.基于算法的系统包括[],小(:..)也基于了同样的原理。
这些系统由于纳入了链接和文本内容信息.查询效果明显优于基于词类索引引擎产生的结果。如(:..)。和基于人工的本体论生成的结果,如-1100!(:..)。3.3目志挖掘日志挖掘是通过分析服务器的日志文件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于站点改进或可以带来经济效益的信息。例如,聚类分析可以把具有相似特征的用户或数据项归类,它能够帮助进行市场决策。
服务器日志也可以结台其它数据库(如:客户、电子商务、银行数据库)一同进行挖掘。
以获得更详细的信息(如:用户的性格与他在上进行浏览的行为有什么联系,哪一个广告条带来的收益最高等)。日志挖掘能给我们带来许多方面的好处。
通过分析网站流量模式.找到网站最重要的部分;发现系统性能瓶颈.找到安全漏洞;测定广告和促销计划的成功度以及测定投资回报率;测定合作和结盟网站对自身的价值。同时,日志挖掘可以发现用户的需要和兴趣,因此,对同站的修改更加有目的、有依据,从而稳步的提高用户满意度。4、小结挖掘实现对存取模式、结构和规则,以及动态内容的查找。挖掘可以将文档进行分类、寻找文档主题、汇总搜索结果,使用户在上查找信息更加全面准确。对站点分析的结果可用于重新组织站点结构,以便更好地为用户提供服务。冗长且有回路的遍历路径或是包告重要的信息但访问率很低的页面,这些不合理的站点设强悍装备计都可以借助挖掘进行修正。通过分析用户浏览站点的行为.可以对分布式或井行服务器的页面布局以及高速缓存机制进行改进;也可以为用户提供最受欢迎的站点列表,帮助用户导航。参考文献11毗'孙咖‰."0,,厶札22,锄.工:."瑚.9-|《97)。1997.3韩窑玮.盂小峰.王静等.挖掘研兜.计算机研究与发展.2001.38(4):405?4134,..:..眦.一6203旷6卅嘲..2001陋,.'..:。..2000.:.2000。
一126,6..:。.1-.蚰.:嘲,2002,229?238.3(上接弟2酉)软盘和磁带上的备份数据就可以使出现故障的2000服务器在7)、采编数据的实时镜像(图三)通过。-短时间内恢复正常,大大减少恢复系统所花的时间与资金。将采编系统的数据实时的复制到异地的机房的一台6)、使用代理加速器备份客户端备用服务器上,当主服务器遭到破坏后,经过略微配置后它可立这些备份代理都采用了代理加速器技术。刻接管系统,不会中断正常的业务办理。即通过主备份服务器向要备份的%端发出请求,建立与被备份的端的服务器的通讯联系机制,由所要备份的端将所要备份的数据打包送至主备服务器进行备份,整个备份传输过程自动进行,不需主备份服务器做过多的干预,减少了同络上的数据传进。这样提高了主备份服务器备份效率。图二图三2.5方案实施效果本方案在设计过程中,充分考虑了系统的现状,遵循了经济性和实用性相结合的原则。通过实施本备份及复制方案,能保证数据备份的各个环节均有条不紊的进行,减少数据存储管理方面的复杂度,提供了高效、安全的系统备份策略,完全满足该系统数据备份和恢复的要求。
基于数据挖掘的行为特征分析与研究作者:陶欢华,蒋凌雁作者单位:新疆农业大学计算机与信息工程学院,乌鲁木齐,830052刊名:福建电脑英文刊名:年,卷(期):2004(3)参考文献(6条)1.;;[外文会议]20022.;;20003.;;20014.韩家炜;孟小峰;王静挖掘研究[期刊论文]-计算机研究与发展2001(04)5.;;:19976.2001。
上一篇:利用拨号网络实现计算机的远程连接
下一篇:硫化过程的微机控制