当前位置: 首页 > 工作计划 >

浅谈如何做好建设工程档案编研工作

发布时间:2022-04-01 09:47:59 | 浏览次数:

摘 要:介绍了关联规则,应用Apriori算法对图书馆读者借阅记录进行分析,发掘存在其中的关联规则,在图书馆提供的个性化服务中具有很大的价值。

关键词:数据挖掘;关联分析;Apriori算法

紧跟着教育体制的不断改革深化的步伐,高等院校办学的规模也随之扩大,相应的图书馆藏书也日益丰富起来。不断扩充的藏书容量在提供大量知识的同时,人们查找自己所需信息的难度也在逐渐增大,在信息时代迅猛发展的今天如何给读者提供方便快捷的搜索方式也已摆在管理者眼前。鉴于高校图书馆目前广泛采用了信息化的管理系统,会产生大量借阅数据资源,如果发掘这些海量数据资源中的关系和规则,寻找出背后隐藏的借阅信息,进而可对不同的读者提供具有针对性的个性化服务。数据挖掘经过近些年的逐步发展,在提供关联分析等方面能够便于发现隐藏在大量数据后的有用资源,可为读者提供更为主动地服务,提高知识的利用效率。

1 关联规则的相关概念

1.1 关联规则

关联规则(association rule)是是数据挖掘的主要技术之一,它对数据库中的数据项的依存性和关联性进行描述,从而在已知项的基础上对未知项进行预测,是形如X→ Y的表达式,其中X和Y是不相交的项集,即X ∩ Y= Ф。关联规则的强度可以用它的支持度(support)和置信度(confidence) 来度量。支持度代表该规则所代表的事例(元组)占全部事例(元组)的百分比;而置信度代表该规则所代例占满足前提条件事例的百分比。即:

使用支持度和置信度是由于一方面支持度是一种重要度量,低支持度概率的规则可能仅为偶然出现,多数是无意义的,通常可将其删去。另一方面,置信度度量通过规则进行推理具有可靠性。对于给定的规则X Y,置信度越高,Y在包含X的事务中出现的可能性就越大。但由关联规则做出的推论只表示规则前件和后件中的项明显地同时出现,而不能说明其必然蕴涵因果关系。

关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值。

挖掘关联规则的一种原始方法是:把每个可能存在的规则的支持度和置信度都计算出来。但是这种方法将会花费相当大的代价,从包含d项的数据集提取的规则的数目可以达指数级3395988.png ,但最终大部分规则将被丢弃。因此,对规则事先进行剪枝并拆分其支持度和置信度要求可免于将它们计算出来。例如,涉及同一个项集的{甲,乙,丙}的规则:{甲,乙} {丙},{甲,丙} {乙},{乙,丙} {甲},{甲} {乙,丙},{丙} {甲,乙},{乙} {甲,丙}。如果能够判断出项集{甲,乙,丙}是非频繁的,则可以将这6个候选规则给剪掉,从而能够有效地减少算法开销。因此,通常釆用将挖掘任务分解为如下两个主要的过程的挖掘算法:

(1)频繁项集产生:寻找满足最小支持度阈值的所有项集作为频繁项集(frequent itemset)。

(2)规则的产生:从上一步发现的频繁项集中提取所有高置信度的规则作为强规则(strong rule)。

1.2 Apriori算法

Apriori算法采用通过候选项集产生频繁项集的基础上再由频繁项集产生关联规则的方法,来达到系统地控制候选项集指数增长的目的。首先扫描事务数据库,从中寻找出频繁项集1的集合L1,然后用L1寻找频繁二项集2的集合L2,再用L2找出L3,直到不能再找到频繁项集K为止,来完成了频繁项集的挖掘,其中连接和剪枝是两个最关键的步骤。

1.2.1连接(join)

合并筛选后的候选k-项集与L k-1,产生下一个项集支持度。即为寻找L k,通过L k-1与自己合并候选k-项集的集合。

1.2.2剪枝(prune)

由于C k是L k的超集,可能有些元素不是频繁的。C k很大是会带来巨大的计算量,为减少C k的规模,Apriori遵从下列性质:任何非频繁的(k-1)项集必定不是频繁k-项集的子集。所以,当候选k-项集的某个(k-1)子集不是L k-1中的成员时,则该候选项集不可能是频繁的,可以从L k-1中移去。

2 Apriori算法在图书馆推荐服务中的应用

2.1 数据预处理

对于大量的借阅数据来说,借阅次数较少的读者产生的借阅记录对于关联分析分析没有太大的参考价值,因此在录入数据库时要剔除借阅量少于十本的读者记录,而仅将活跃读者的借阅数据信息录入到数据库中;将在架图书按标准的中图法进行编号归类,分为基于类型的多个借阅记录来避免出现一个较大的数据库,减少一次数据库扫描的容量;在借阅记录中出现借阅两本完全相同的概率很小,关联中只考虑到类别的书籍,而推荐出在此类别中借阅记录最高的一本来处理。设置最小支持度0.0255和最小置信度0.85。

以下是部分经提取后的读者借阅信息:

将获得到的数据进行变换和分类,得出每个读者的借阅记录

2.2 对处理的数据通过Apriori算法的处理,可得到以下规则

2.3 对规则作出分析

查阅书号从关联规则中可知,有2.58%的人同时借阅了O182(数学建模、控制论、分析基础类的书籍,而且在这些人中借阅了数学建模、控制论后有86.5%的人同时借阅了分析基础类的书籍;有2.55%的人同时借阅了工程力学和机械原理类的书籍,而且在这些人中借阅了机械原理后有88.2%的人同时借阅了工程力学类的书籍;有2.59%的人同时借阅了考古学和世界史类的书籍,而且在这些人中借阅了考古学后有89.1%的人同时借阅了世界史类的书籍……通过对算法处理结果进行分析,我们可以很直观地发现读者借阅信息中存在的某些信息,读者会倾向于在选择某类书籍的同时捎带上另一类或几类需要的书籍。因此,我们可以建立一种数字化图书馆的推送业务,对借阅了数学建模、控制论后的读者推送分析基础;对借阅了机械原理的读者推送工程力学;对借阅了考古学后的读者推送世界史等等,这样虽然可能不适用于小部分群体,但方便了大部分读者,为他们创造了方便。同时,我们还可以尝试调整这些书籍的放置位置,将具有关联性质的书籍放置在互相靠近的地方,使读者能够一次性借阅到自己所需要的书籍,从而减少去各个不同类型的书籍场馆借阅所带来的不便,更好的发挥出这些数据的潜在价值。

3 总结

为找出存在于读者中的谱遍性阅读习惯,本文对图书馆的读者借阅记录采用Apriori算法分析了其中可能存在的关联规则,为图书馆的读者借阅提供方便的图书推送业务和图书关联放置模式;同时,也要发现存在的某些不足:由于存在读者帮别人借阅书籍的情况,会使相互关联性存在误差,影响到对个体行为的分析以及总体的关联情况,导致降低了数据分析的普适性,因此,需要在数据的录入阶段需要对这种读者的节借阅波动性建立滤波矩阵,予以滤除这种“噪声”的干扰,以便更加精准的分析可能存在的关联规则。后续的研究中还可对不同的年级的学生、教员建立单独的借阅数据库,以便能够发现关联性更强的准则,做出更加精准的预测,为广大读者提供针对性更强的服务。

参考文献

[1] Mehmed Kantardzic 数据挖掘:概念、模型、方法和算法[M].闪四清,陈茵,程 雁,等译.北京:清华大学出版社,2003

[2]李爱凤.基于数据挖掘技术的课程相关性模式研究与实现[D].华南师范大学,2006

[3]许成香.基于数据挖掘技术的学生信息系统开发[J].硅谷,2009,16:57

[4]Han Jiawei,Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社,2008:150-167

推荐访问: 建设工程 浅谈 如何做好 档案 工作
本文标题:浅谈如何做好建设工程档案编研工作
链接地址:http://www.yzmjgc.com/gongzuojihua/2022/0401/38898.html

版权声明:
1.赢正文档网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《浅谈如何做好建设工程档案编研工作》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。

版权所有:赢正文档网 2010-2024 未经授权禁止复制或建立镜像[赢正文档网]所有资源完全免费共享

Powered by 赢正文档网 © All Rights Reserved.。粤ICP备19088565号