刀刀网
您的当前位置:首页关于重塑数据湖的探讨

关于重塑数据湖的探讨

来源:刀刀网
责任编辑:季莹 投稿信箱:netadmin@365master.com基础设施与数据管理Infrastructure Mgmt. & Data Mgmt.关于重塑数据湖的探讨■ 安徽 刘扬从信息化编者按:大数据时代,可以存储原始的、不受数据类型已将数据湖建设的实践来的数据湖被视为信息化建设的技术演进方向。但数据沼泽作为向企业看,数据湖随成为建设数据湖过程中普遍遭遇的难题。如何重塑数据湖、级客户提供着Hadoop等规避数据沼泽成为目前数据湖建设的瓶颈。本文探讨了数的重要产品。技术的快速普据沼泽产生的根源,梳理了重塑数据湖的技术路径,为规避由于数及而被广泛用数据沼泽陷阱和建设高质量、高价值的数据湖提供建议。据湖最初的于大数据平台理念在于不的存储与使用。尽管目前对歧,但其核心理念已得到接对原始数据进行数据治理,数据湖的定义尚有许多分受,亚马逊、IBM等科技公司通过原始数据提升了数据使【上接第76页】权限。执“grep key /etc/ceph/ceph.“touch {1..10}.file”命行“ceph osd pool create client.admin.keyring |awk 令,创建所需的文件。执cephfs_data 128”命令,创'{print $3}' >>/etc/ceph/行“dd if=/dev/zero of=/建数据存储池,其中的“128”admin.secret”命令,生成一mnt/ceph/1.file bs=1G 为块的数量。个 Key。执行“cat /etc/count=1”命令,将“/dev/执行“ceph osd pool ceph/admin.secret”命令,zero”中的无限输入写到create cephfs_metadata 显示该Key的内容。“1.file”文件中。执行“df 128”命令,创建元数据执行“mount -t ceph -hT |grep ceph”命令,显存储池。执行“ceph fs 172.16.1.102:67:/ /示写入信息。执行“mkdir new cephfs cephfs_data mnt/ceph/ -o name=admin,s/mnt/ceph1”,“mount -t cephfs_metadata”命令,创ecretfile=/etc/ceph/admiceph 172.16.1.103:67:/ 建文件系统。执行“ceph n.secret”命令,挂载/mnt/ceph1/ -o fs ls”命令,查看文件系“server2”的MON进程,name=admin,secretfile=/e统。执行“ssh root@ceph-并指定Key文件。执行tc/ceph/admin.secret”“,df client”,“mkdir /mnt/“df -hT |grep ceph”命-hT |grep ceph”命令,在ceph”命令,远程连接客户令,显示目标分区信息。进“server3”节点上执行类似端,创建所需目录。执行入“/mnt/ceph”目录,执行的操作。www.365master.com 2020.0577Infrastructure Mgmt. & Data Mgmt.基础设施与数据管理责任编辑:季莹 投稿信箱:netadmin@365master.com用的灵活性和低成本,使得式的技术革新。这类探索顺比,数据湖的最大价值在于数据湖在建设中始终无法回应存储和计算分离的技术潮入湖数据潜在价值的再发避一个核心难题——数据沼流,充分考虑带宽和内存成现,最能产出超额收益的部泽。本下降速度远快于存储成本分来源于数据价值发掘过程一旦进入数据湖的数据的现实情况,将原本的集中中的不确定性风险。而数据完全没有经过数据治理,那式存储改为分布式存储。沼泽的产生根源不在于人工么在使用时,原始数据自身三是加强元数据管理。智能等数据价值再发现工具以及在存储、维护过程中存元数据管理的核心思路是将缺乏、数据存储与计算的能在的任何缺陷都有可能成为对原始数据的描述编纂成电力不足,也不在于元数据管使用障碍,让用户在使用时子目录,其技术实质是数据理的水平,而在于入湖无从下手,从而减少使用,而治理的基础工作。数据的数据间内在关联性的使用频率的降低又会使这些在实际应用中,第二类缺失,在于业务逻辑无法完缺陷更加难被发现并解决,与第三类探索通常结合使整的体现在入湖数据的数据最终会导致数据湖沦为数用,逐步实现数据资产存储间内在关联性上。据沼泽。但是,如果在进入从传统数据仓库向数据湖的数据间内在关联性,总数据湖时进行数据治理,那技术演进。 体来说可以分为三类:么治理成本可能高于经济效这些探索在数据湖建设一是业务逻辑上数据间益。同时,也有可能在治理过程中规避了数据沼泽陷本质的映射关系。即如果不过程中舍弃潜在的经济效阱,但也付出了相应的成本,同的系统或模块在同一个业益,难以体现出数据湖有别例如数据湖的数据来源受务逻辑上存在上下游关系,于数据仓库的根本价值。限、数据存储的复杂性与脆那么在该业务逻辑下这些系弱性上升、数据入湖时的数统或模块内的数据之间一定规避数据沼泽陷阱的探索据治理等。存在某种保持不变的特性。从规避数据沼泽陷阱的实际上,这些探索的实(这种映射关系和数据内在探索来看,主要有三类方向:质是解决数据湖建设中经济的数据映射机制在机理上相一是聚焦简单关联关系效益显著或者数据治理成本通,关于数据内在的数据映数据的分析,在单一系统或可控的部分,用确定性收益射机制可参看笔者拙作《系模块中构建数据湖。通过人规避不确定性风险。换言之,统通用模块建设思考》)例如工智能与大数据相结合,直没有触及到数据沼泽的产生在资金使用的业务逻辑下,接将结构化、半结构化、非结根源。财务模块的支付数据与采购构化数据一起计算分析。这模块中的合同数据之间的映方面的商业实践已较成熟。数据沼泽的产生根源射关系。二是专注存储与计算方事实上,与数据仓库相二是系统或模块间的耦782020.05 www.365master.com 责任编辑:季莹 投稿信箱:netadmin@365master.com基础设施与数据管理Infrastructure Mgmt. & Data Mgmt.合关系。耦合关系在数关系进行分析,看上下据层面主要关系到数游系统或模块中的数据的内在一致性,系统据之间能否以属性项或模块间的耦合程度为中心构建出1对n或一旦达到数据耦合或者n对1(n为正整数)更高类型,那么在数据的映射关系。湖建设中无需额外考图1 数据湖重塑第三阶段,使用可虑其内在一致性。视化技术逐类梳理数三是数据间时空一致约。也就是说,一旦入湖数据间映射关系,寻找在各类性。由于数据湖目前普遍采据的数据间内在关联性无法业务逻辑中可以构成单一方用分布式存储,不同节点内完整的体现业务逻辑,为了向映射关系的树状结构(或的数据在同一时点可能存数据可用,势必要再次处理者一一映射结构)。在差异,同时不同系统或模数据,从而付出高昂的数据第四阶段,回溯该树状块的数据采集机制也不尽相治理成本。结构所涉及的数据源,分析同,因此数据间时空一致性其所包含系统或模块间的耦涉及到数据的更新机制、同重塑数据湖的技术路径合关系以及数据间时空一致步策略、校验方法等,并且直针对数据沼泽的产生根性,通过关联数据技术构建接影响到数据进行关联分析源,重塑数据湖需要建立通支持该业务逻辑的底层数据时的可信度、可用性等。用的技术路径,对入湖数据关联规则。同时,数据湖中业务逻进行全面的数据重构。重塑辑直接体现在入湖数据的数数据湖的技术路径总体来说总结与展望据间内在关联性上,不再需如图1所示。本文探讨了数据沼泽产要数据仓库中业务逻辑到数第一阶段,广泛梳理业生的根源,梳理了重塑数据据逻辑的人工转换。传统的务逻辑,通过数据库切片技湖的技术路径。但是,在重数据仓库是将业务逻辑由人术将数据源按业务逻辑进塑数据湖的过程中还可能遇工操作转换成数据逻辑,即行预切片(即只提取出数据到一些复杂情况,比如说复我们通常所使用的ETL等。结构、不同属性项的完整性杂的数据间映射关系(如n这种人工操作主要凭借等关键信息,不进行真实切对m、非结构化数据间映射关人对业务逻辑和数据本质的分),确定每一类业务逻辑涉系等)、数据间时空不一致情理解,其开发质量取决于用及的上下游系统或模块。况下底层数据关联规则的建户需求的表达和开发人员对第二阶段,以业务逻辑立等。对这些复杂情况的处用户表述的了解,开发效率为出发点,使用数据建模技理解决还需要进一步的分析直接受到双方沟通效率的制术对预切片进行数据间映射探讨。www.365master.com 2020.0579

因篇幅问题不能全部显示,请点此查看更多更全内容