中国简单快捷的免费行业信息发布平台
·手机版 ·注册 ·登录 ·会员中心 ·忘了密码 ·导航 ·帮助
名站在线LOGO
·设 为 首 页
·收 藏 本 站
·新 站 登 录
网站首页
|
行业供求
|
行业产品
|
行业公司
|
站内检索
|
行业资讯
|
网站导航
|
链接交换
|
流量交换
|
网友收藏
您当前的位置: 首页 > 行业贴吧 > 话题


行业贴吧

(注意:网友的发布表不代表本站立场。)
回复话题
发新话题
返回列表
话题: 大数据BI系统如何做数据采集
183.17.228.*
2020-08-19 13:13:43
  随着数据量的不断增速,数据价值也逐渐被很多公司所关注,尤其是偏重于业务型的企业,大量数据的产生,在未被挖掘整合的过程中通常被看作是一堆无效且占用资源的;但一旦被发掘,数据的价值将无可估量。尤其像电商,银行,服务行业等等。





  数据采集系统故名思意就是将数据从数据源采集到能够支撑大数据架构环境中,从而实现数据的采集以便后期对数据的二次加工建立数据仓库。



  一、业务流程梳理



  在业务流程梳理的过程中,我们先预设个场景,如:



  当公司运营人员提出一个订单转化率的需求,作为产品人员,首先要确定分析订单转化率与哪些因素有关,*终确定从用户下单,支付这两个环节中分析,如当月有多少用户提交了订单,之后有多少用户确认了订单,有多少用户*终支付订单等;*终呈现了漏斗形的分析主题;因此分析时就需要确定所需要的这些数据要从哪些表获取,都需要获取哪些数据,获取到后要采集存储到哪个数据仓库的表中,*终被使用到。



  因此从上面的例子中我们可以从以下几点思考业务流程:



  确定主题,确定主题模型;



  确定表和数据口径;



  确定需要与目标的映射关系;



  确定表与口径需要从哪些源下获取,以及如何数据更新的频率等;



  从以上几点我们可以看出,**点主题模型我们今天不做过多的介绍,着重从2~4点分析可以将采集系统划分为数据源配置、表结构的管理、源表管理、映射配置和采集任务管理几大模块。



  数据源管理包括新增,编辑,删除等;



  表结构管理包括表结构的批量导入,查看等;因为采集过程中表是要参与映射的,结构一旦导入是不允许修改的,以免影响后面的采集配置文件的输出。



  映射配置主要是配置表与表,字段与字段的映射关系,过滤条件与增量的设置。作为采集的配置模板使用;为什么不是在之前就与数据源关联的目的是因为解耦表与数据源的关系,方便于后期的扩展和用户易用性。



  采集任务管理主要是建立源与源之间采集过程以及任务的执行情况。



  二、原型注意点



  1.数据源管理



  数据源一般会分为很多种类型,因此,我们需要建立数据源类型;如ORECAL、mysql、hive等。



  添加数据源时,对于所填写内容的校验一般会根据需要来决定,需要填写的字段大致包括源名称,服务器,端口,用户名,密码等。



  2.表管理



  表结构的获取一般会有两种方式,一种是通过连接数据库获取,一种是本地保存,直接从本地获取。具体使用哪种方式根据实际情况来决定。如果是用的第二种,则需要将表结构整理预先导入系统,以便后期使用。



  hive的表结构有一些特殊,比一般数据库的表结构多几列,如:分列名称,分区值等。



  3.映射配置



  映射配置主要是确定源表和目标表,同时建立字段映射关系;亦可设置过滤条件,数据采集的周期配置设置等。



  4.任务管理



  主要是建立源与表,源与源的关系;同时可以对任务的执行周期来进行设置;任务配置的过程中,可以是以目标源为维度,亦可以以目标表为维度建立任务,同时可对历史任务进行监测。



  三、项目上线后复盘总结



  1.需求方面



  采集系统在理解前期,产品和研发考虑的点有所不同,导致原型、规则在评审后的开发初期有一些小的改动,不过整体需求上还算可以接受。



  2.交互方面



  由于是B端的后台系统,一般会选用一套共用的的系统框架,因此在出具需求的过程中,只着重说明了需要注意的交互方式,一些共用的交互方式并未做过多的说明;因此在交互这多了很多的沟通成本。



  3.项目执行



  整体进度还好,不过由于一些组件的提前打包定义,导致在开发过程中有些不能满足需求,耽搁了一些进度。



  4.个人方面



  对数据仓库的了解和认识上有所提升,对SQL的学习也算是一次巩固,同时在做的过程中对自己以前遇到过的数据需求也有了一些新的思考思路和总结复盘。总之是收获满满。



  大数据BI系统如何做数据采集.中琛魔方大数据分析平台 (www.zcmorefun.com)表示BI系统在目前的市场上真的是比较常见的,但是总是会有着各种不一样的选择,在这种过程中我们也应该掌握好正确的选择,首先我们也应该了解bi平台数据的采集相对来说还是非常简单,但是却能够真正的给我们带来更好的一种数据,可以**地拓展企业的发挥。
共0个回复
回复话题
发新话题
返回列表



新站登录--网站简介--流量交换--名站收藏夹--广告服务--友情链接--免责声明--联系我们--意见建议--违法举报--侵权举报
Copyright 2005-2024 名站在线[fwol.cn]版权所有 经营许可证:粤ICP备17047754号