《计算机科学与技术前沿》
课程论文
学院 学号 名 姓 师 指 导 老
日 期 题 目 大数据背景下数据挖掘技术的应用
2016年1月7日
大数据背景下数据挖掘技术的应用
摘 要
当今社会是一个信息化社会的时代,同时又是一个大数据时代。随着互联网、物联网、云计算和人工智能等信息技术和计算机产业的不断发展和进步,使得数据的处理成为一个亟待解决的问题。因此在大数据的背景下,如何高效地从大量包含有用数据的库获得有用信息已成为企业和科研工作重点关注的点,而这一工作涉及的关键技术就是数据挖掘技术。总得说,数据处理的需要既给数据挖掘技术带来了机遇,于此同时带来了一系列的挑战。
本文分别从企业、图书管理和情报学领域三个方面阐述数据挖掘技术的应用,同时对它的发展现状、存在的问题和未来的发展趋势进行了一些阐述,从而加深了对数据挖掘技术的理解,以便更好地了解数据挖掘在各个领域的应用,最后对数据挖掘技术的应用进行一个整体的总结。 【关键字】:大数据;数据挖掘;数据挖掘的应用
I
Application of data mining technology
in the context of data
Abstract
Today is the age of information society,but it is also an age of big data.With development and progress of information technology and the computer industry which include the Internet, the Internet of things, cloud computing and artificial intelligence, data processing has become an urgent problem.Therefore,in the context of big data,how to get useful information from a large library of useful data have become focuses of enterprises and scientific and research work.The work involved is the key technology of data mining.In General spedking, data processing needs for data mining technology, and at the same time poses a series of challenges.
The paper aims to account the development present situation,existing problems,and developmenttrend in the future based on companies,library management and the field of information science development,so as to enhance understanding of the data mining technology ,to better understand data mining applications in various fields,and to draw an overall summary of the application of data mining technology.
【Key words】:Large amounts of data;Data mining;Application of data mining
II
目 录
1.引言.......................................................... 1
1.1数据挖掘的定义 .......................................... 1 1.2数据挖掘的基本原理 ...................................... 1
1.2.1数据准备环节 ...................................... 1 1.2.2数据挖掘阶段 ...................................... 2 1.2.3结果的解释和评价 .................................. 2 1.3数据挖掘的发展现状 ...................................... 2 1.4数据挖掘的意义 .......................................... 3 2.数据挖据技术的应用........................................... 4
2.1数据挖掘技术在企业中的应用 .............................. 4
2.1.1在营销中的应用 .................................... 4 2.1.2在银行中的应用 .................................... 5 2.2在图书馆管理中的应用 .................................... 6
2.2.1图书馆自动化业务管理系统中的应用 .................. 6 2.2.2在“云图书馆”中的应用 ............................ 6 2.3 在情报学领域中的应用.................................... 6 3.存在的问题................................................... 8 4.发展趋势...................................................... 9
4.1探索新的应用领域 .................................... 9 4.2数据挖掘方法面向可伸缩性 ............................ 9 4.3挖掘语言标准化 ...................................... 9 4.4数据挖掘可视化 ...................................... 9
5.总结........................................................ 10 参考文献....................................................... 11
III
1.引言
近年来, 互联网的发展使计算机、网络和通信三者融为了一体。网络经济、注意力经济等一大批新概念的提出,以它独特而又巨大的社会效益、极具挑战和机遇的内涵,成为了信息科学中一个十分引人注目的研究课题。但是,网络在迅速、方便地给我们带来大量信息的同时, 也带来了一系列的问题。比如说,信息量过大而又难以及时消化;信息的真伪性难以准确识别;信息的安全难以妥善保证;信息的形式难以实现一致和统一处理等。因此,如何迅速、高效而又准确地获得有重要价值的信息,如何利用已经建立的历史数据去用于预测和指导未来的行动,以及如何从这些大量数据中去发现知识等问题,促进了知识发现和数据挖掘技术的发展,下面对数据挖掘的一些相关概念进行了相应的阐述。
1.1数据挖掘的定义
数据挖掘简单的说就是一个从大量、不完全、有干扰和随机的数据库中去获取隐藏在它们当中的、我们事先不知道的、但是包含大量潜在的有用信息和知识的过程。它是能够实现智能化和自动地把数据转变成有用信息和知识的一种技术和辅助工具,又是我们对数据库技术进行研究和改善的结果。数据挖掘,它又是一门非常广义的交叉学科, 它汇聚了各个不同领域的研究人员, 特别是数据库、人工智能、数理统计、可视化、并行计算等相关方面的专家和技术人员[1]。
1.2数据挖掘的基本原理
数据挖掘又叫数据库知识的发现,它是一个从数据库中发现并提取隐含的、未知的有用数据。数据挖掘主要包括数据准备、数据挖掘以及结果解释和评价这三个阶段。而在数掘的整个处理过程中,数据挖掘的分析方法是整个过程中最为关键的一个环节。 1.2.1数据准备环节
数据准备是指在有一定的干扰,数据存在形式不一致和有数据缺失的情况下,对数据进行整理、清洗和预处理的一个准备过程。
1
1.2.2数据挖掘阶段
数据挖掘阶段指的是取数据的模式,即数据准备是从大量庞杂的数据源获得数据挖掘所用的目标数据,由于在数据收集的阶段可能得到脏数据。因此,数据挖掘过程中最关键的一步是使用智能的方法对数据进行提取、分类和聚类等。在此之前,首先需要确定是采用哪种形式的提取模式,然后紧接着就是根据提取模式选择相应挖掘算法的参数,通过这种分析数据的方式才能形成合适的提取知识的模式。
1.2.3结果的解释和评价
通过数据挖掘出来的数据需要根据实际需要转变成为面向用户的数据模型,即用户能够理解的模式,然后跟据其对要解决的决策问题是否有真正的作用得出所获得数据是否具有现实的意义。
1.3数据挖掘的发展现状
数据挖掘的应用领域十分广泛,大概的可以这样说只要有数据存在的地方,就会存在数据挖掘的使用价值。当前国内数据挖掘的研究领域主要分布在:数据挖掘方法的研究、数据挖掘应用的研究、Web挖掘研究这三大块。
国内数据挖掘的研究与国外研究状况相比较,我国对于数据挖掘知识的发现整体研究态势比较晚,而且没有形成统一的、比较完整的研发力量。20世纪前,也只有国家的自然科学基金第一次提供项目资金支持中科院对于数据挖掘的研究。当前,从事数据挖掘的研究和应用开发的人员主要是高校的教授,也有一部分研究力量是公司员工或者国家研究院所的研究人员;比方说,阿里巴巴集团的数据挖掘研发团队以及百度、腾讯等大型互联网集团的从事数据挖掘研究的职工。并且,在大多数情况下,数据挖掘研究的领域主要集中在挖掘算法的研究、数据挖掘相关理论的研究以及数据挖掘的实际应用等方面。现阶段,一些数据挖掘科研项目的经费主要由资助,研究工作也大多是在这样的条件下进行的。
值得注意的是,国内大多数科研单位和高等院校也正在争相开展数据挖掘和知识发现的基础理论以及实际应用研究分析。比如,复旦大学和华中理工大学等院校针对的是关联规则的开采算法的优化和改造;而其他的单位则对针对非结构化的数据知识和已经发现的网页数据进行挖掘技术的研究[2]。
2
1.4数据挖掘的意义
大数据时代的到来意味着我们在应用和利用数字信息技术的同时,需要花费比较多的人力、物力和财力去删选、存储以及利用建立起来的大数据库。比方说,在一个银行系统中,每天会有数以万计的银行运转和ATM终端产生的庞大交易数据,那么他们需要解决的问题是如何从这样一个庞大的数据库中去筛选、分类和聚类并获得有价值的数据;而这正是数据挖掘要解决的问题,所以说在当下的大数据时代背景下,数据挖掘的作用其他技术不可替代的[3]。
3
2.数据挖据技术的应用
2.1数据挖掘技术在企业中的应用
2.1.1在营销中的应用
传统无差别的大众媒体营销策略已经无法满足现在的零售市场环境下激烈的竞争需求。由此而出现的精准营销策略将是当前以及未来的企业发展方向;在精准营销领域中最常见的数据挖掘和分析方法主要包括三类,分别是分类、聚类和关联规则[4]。
(1)关联规则
数据挖掘的关联规则指的是在大量数据中去发现它们之间集中的相关性。比如,用数据间存在的空间联系去发现啤酒与尿布之间联系,从而提高尿布和啤酒销量;另外一个案例是利用数据间的时间关联规则去发掘出孕婴用品和家居装修之间潜在的关系,以便增加这两种商品的销量;或者是用时间关联规则发掘出调味品、纸巾和化妆品之间的关联等。
(2)分类
分类就是假设数据库中现有的对象同属于一个预先就已给定的类集,然后将数据库中的这些数据分给指定的类,本质上讲它是属于一种基于模型的预测。比方说,实名制后电信或移动公司会事先将用户的信用状况分为信用好与信用坏两大类。然后,对于一个新的用户,他的信用状态确定可以采用“决策树”法建一个事先的分类模型,并从一组没有次序并且毫无规则的用户数据库中推测出一个决策树表样式的分类规则。具体是:树的非叶子节点表示一些基本的客户特征,而其中的叶子节点表示各个客户分类标识,从树顶端的根节点由上而下到每个叶子节点表示一条分类规则,所以通过决策树能够得出很多分类规则,形成一个分类规则集合,利用得到的规则集合就可以得出一个未知用户的信用状态。
4
(3)聚类
聚类指的是将一个数据中抽象的对象集合进行一定规则的分组,然后根据每个元素的共同特征组成一个新的多个类的分析过程。这样做目的是通过这种具有相似性的聚类方法去获得已有数据的分类。
比方说在精准营销中,为某个特定的品牌找到目标客户,解决品牌由“谁来卖”这一问题是关键,科学的划分和分析客户数据确是解决这一问题的一个十分有效的手段。通过聚类,可以实现把目标客户分成为多个类的目标,其中的同一个类的客户都是具有很大程度相似性的,主要表现在他们的购买行为十分一致,但是不同分类之间的客户确存在很大的差异性,主要表现在他们的购买行为是完全不同的。
2.1.2在银行中的应用
(一) 在信用风险评估中的应用
在银行的贷款方进行的信用风险评估是银行根据已有的数据库利用数据挖掘技术的主要形式之一,银行可以利用这种方式建立一个客户等级评判模型。比如,仿生物的神经网络模型和数理统计样式的贝叶斯分析模型等模型,对贷款方的信用风险进行评估。所以当银行在评估账户的信誉时,可以根据需要使用适当的直观的量化方式。根据信用评估在确定信用权重时,依照已经建立的数据挖掘模型,对每一个申请过程中的所有项进行公正的给分,然后把这些评分全部加起来就得出了一个申请人的实际信用度评分。最后银行根据得出的信用度评分来决定是否需要接受申请人的申请和其申请的信用额度。
(二) 客户关系管理中的应用
银行客户关系的管理同样也是银行的利用数据挖掘技术一个进行重要的应用方面。发掘并开拓新的客户是一个银行发展进程中非常重要的环节,因而银行通过利用这种探索性的挖掘数据方式,能够很好的发现那些数据中心存在的特征并且也能够预测出一场营销活动将会获得的实际影响率[5]。比如,银行可以利用聚类分析的方法对客户进行适当的分类,然后根据客户的风险评分、服务将会获得收入和成本等数据去分析、预测和优化相关的影响因素,从而能够达到最佳盈利的目标。同样银行也可以利用决策树的分类方法来进行合理的计算客户将会贡献的利益期望值,由此去分类客户,然后根据不同的期望值进行适当的分组,可
5
以将客户划分为黄金客户、顶级客户和普通客户这三种类型。从而能够依照分类之后的客户他们的一些实际特点去提供一些针对特殊人群的服务,以便有效的提高他们的忠诚度。并且,将数据挖掘技术运用到银行管理中,可以很好的预防客的户流失,能够在将要出现客户流失风险的时候,给他们提供一些特殊的待遇、服务和额外增值来保留客户。比如,当预测出客户将要停止在当前银行的放贷,转而去别的银行时,能够及时适当的降低利率和增加额度以确保留客户的流失。
2.2在图书馆管理中的应用
2.2.1图书馆自动化业务管理系统中的应用
目前,外国许多的图书馆自动化业务管理系统已经利用了数据挖这一技术。国内的数据挖掘技术在图书界的研究也十分活跃,但主要针对的是如何利用一些问题进行探讨,而真正具有可操作性强,并且能够指导实际中的业务的成熟产品相当的少,只是少数的大学图书馆自己研发带有个性化服务的管理系统。例如,自行研发的KBDL系统,就是其中之一。而且,图书馆的技术力量一般是相对薄弱的,所以进行自主研发数据挖掘系统的困难比较大。但是,由业务公司开发的那些具有数据挖掘功能的图书馆业务管理系统,将会在图书馆中进行推广和使用,也将推进数据挖掘技术在图书馆应用领域的普及和发展。 2.2.2在“云图书馆”中的应用
自从云计算的框架提出以来,它就得到了广泛的关注和应用。“云图书馆 ”也就是“图书馆云”,它是一种建立在云计算基础上的服务,也是一个建立在整个云计算模式架构下的功能层,又是互联网上的一朵“云”。由此可以得出,在云计算的环境下,“云图书馆 ”其实质是一种服务。各地图书馆终端能够共享“云图书馆”的基础设施,从而共同组成了一个互联网中的大型数据库。“云图书馆 ”利用数据挖掘的技术去发现那些深层次的知识,从而使得“云图书馆”的服务更加人性化[6]。
2.3 在情报学领域中的应用
数据挖掘在情报领域的应用是非常广泛的,除了商业、客户和管理等方面之外,信息化管理的主体图书馆里面的信息领域也同样有着巨大的研究空间。主要表现是通过对读者的信息、书目数据、读者借阅数据和文献检索记录等相关信息的收集,然后利用关联分析、聚类分析等方法进行数据挖掘,发现读者和借阅读
6
书之间的存在的关系、不同的读者群体的借阅倾向和不同学科间的潜在联系等,从而能够很好的管理员科学的安排书位以及采购的数量。也可以去研究管理人员的情商和服务的质量以及工作岗位之间的潜在关联性,以便为合理的安排管理人员提供恰当的决策依据。也能利用知识发现和挖掘技术进行知识的系统化管理, 从而达到最大化的信息资源利用[7]。
7
3.存在的问题
(1)数据挖掘的面临的基本问题就是其面对的数据数量和维数,而数据的结构因此变得十分复杂。那么如何进行有效的探索,恰当的选择分析的变量,也自然成为了数据挖掘首先需要解决的问题。
(2)由于数据挖掘所面对的的数据是非常庞大,并且现在的网络服务和其他一些服务产生数据十分复杂而又庞大。那么,现在的统计方法就会遇到一系列的问题,我们最直接的想法可能就是对将要进行挖掘是数据进行抽样。但是究竟如何抽样,抽取的样本选择多大,以及怎样去评判抽样后所获得的效果等,都是数据挖掘面临的难题。
(3)因为所要挖掘的数据是庞大的。因此,数据中不可避免的存在着就一定隐含的变化趋势,也就是说在数据挖掘的过程中,需要对这样的趋势做出对应的综合评价。
(4)各种各样的模型如何去运用,他们的运用效果又如何进行评价;同时,不同的研究人员对相同的数据进行挖掘,可能会得到不一样的结果,甚至是结果的差异非常大,即数据挖掘的可靠性问题,这些都是需要及时解决的关键性问题。
总的来说,数据挖掘是一个非常有用的工具和方法,但它不是万能的,而且目前在数据挖掘的研发上面还缺乏资金。虽然它能够帮助我们发现一些潜在的用户,却又不能告诉我们这是为什么;同时,它也不能绝对的保证这些挖掘出来的潜在用户会成为现实中用户。并且,数据挖掘的成功与否,需要我们对所期望解决的问题所涉及的相关领域有一个深刻的了解,全面的理解数据,并了解其中的过程,这样才能够对那些数据挖掘的结果给出合理的解释。
8
4.发展趋势
数据挖掘的任务与方法的多样性对数据挖掘提出了大量带有挑战性的问题,未来将会形成更大的研究高潮,研究的焦点可能主要会集中在下面几个方面: 4.1探索新的应用领域
目前,数据挖掘正在不断探索扩大它的应用范围,例如:生物医学和电信等领域。由于通用的数据挖掘方法在处理特定的应用问题时存在一定的局限性。所以,目前数据挖掘的一种趋势就是开发具有针对性的应用领域数据挖掘系统[8]。 4.2数据挖掘方法面向可伸缩性
数据挖掘一个非常重要的方向就是一种基于约束的挖掘方式。这一方向主要致力于如何在增加用户交互的同时,提高挖掘处理的总体效率。并且它也提供了额外的控制方法,从而允许使用用户说明与约束,引导数据挖掘的系统向有关联的模式搜索。 4.3挖掘语言标准化
标准化的数据挖掘语言和其他方面的标准化,将有利于数据挖掘工作进行系统的开发,改善多个数据挖掘系统之间的相互操作,从而推广数据挖掘系统在企业以及社会教育中的使用。 4.4数据挖掘可视化
数据挖掘的可视化指的是从大量的数据中发现具有知识的有效途径。 总的来说,数据挖掘的语言正在向形式化和标准化方向发展,这一发展的方向能使知识的发现过程更加容易被用户所理解,也有利于开发适应多种数据类型的挖掘方法,以便能够解决不同数据集中的数据挖掘问题,数据挖掘的技术也将更加成熟和完善,应用领域将会非常广泛。
9
5.总结
数据的大量产生和收集导致了信息的大爆炸,现代社会的竞争要求我们及时对这些产生的数据进行深层次的分析,以便能获得潜在数据中的有用信息。虽然我们现在有了非常强大的存储与检索系统,然而用户们却发现在分析以及使用已有的信息时变得越来越困难。数据存储的仓库虽然提供了可以容纳大量信息的地方,但是只有与数据挖掘技术的具体应用结合起来时,才能真正的解决用户所面临的困惑,从而使用户可以从大量庞杂的数据中找出真正有价值的东西。所以,现实的需要将会继续推动数据挖掘技术继续向前发展。并且,随着数据挖掘的进一步深化,数据挖掘技术也将更加成熟,能够解决更多的问题,其挖掘数据的效率将更高,比将会给用户带来更多的便利。
在此次论文的写作过程中,通过对数据挖掘相关内容的查询和了解,进一步加深了对数据挖掘的理解;从以前只是字面上知道数据挖掘这一概念,到对这一技术有了进一步的理解,在这个过程中学到了一些以前不知道的知识,收获了许多。
10
参考文献
[1] 王斌会.数据挖掘技术及其应用现状[J].统计与决策,2006,5(10):122. [2] 刘先花.浅谈数据挖掘技术及其研究现状[J].现代情报,2010,30(3):168. [3] 杜钢虎.大数据时代背景下数据挖掘技术刍议[J].电子技术与软件工程,2015,(14):
221.
[4] 宋志秋.大数据时代营销中的数据挖掘技术[J].数字技术与应用,2015,(3):209. [5] 霍魁.大数据时代下数据挖掘技术在银行中的应用[J].商,2015,(26):191. [6] 唐吉深.图书馆数据挖掘技术研究现状述评[J].图书馆界,2011,(1):42. [7] 程洁.数据挖掘技术在情报学领域的应用研究现状分析[J].现代情报,2006,25(10):15.
[8] 张春华,王阳.数据挖掘技术、应用及发展趋势 [J].现代情报,2003,(4):48.
11
因篇幅问题不能全部显示,请点此查看更多更全内容