创业智慧
当前位置: 首页  >> 创业智慧  >> 查看详情

买葡萄酒免费吃饭营销模式,长思讲座第二课:全面认识BI系统

时间:2021-02-03 13:02:00   作者:www.wyx186.net   来源:网络   阅读:  
内容摘要:BI系统即商业智能系统,是用来有效地集成企业或业务中已有的数据,快速、准确地提供报表和决策依据,帮助企业做出智能化的经营管理决策。传统的BI系统供应商包括Oracle、IBM、Microsoft、microstategy等 BI系统的

BI系统即商业智能系统,是用来有效地集成企业或业务中已有的数据,快速、准确地提供报表和决策依据,帮助企业做出智能化的经营管理决策。传统的BI系统供应商包括Oracle、IBM、Microsoft、microstategy等

BI系统的挑战在于数据量和计算效率。结合大数据方面的成果,这些问题得到了较好的解决。有能力的企业现在可以建立自己的商业智能系统。

第一方数据主要是广告商和媒体返回的用户行为数据。数据一般包括用户注册、登录和检查点等事件信息。通过对这些数据的分析,可以为应用操作提供统计指标,指导操作。如果与广告数据相结合,可以对广告和用户跟踪效果进行持续跟踪和评估

第二方的数据,主要包括广告平台的显示、点击、激活等数据,可用于分析广告平台各项目在各媒体上的表现和使用情况,评估流量,如果流量相对稳定,可制作用户画像

第三方数据主要是指其他平台的合作数据,包括用户标签合作接入和基础流量数据。

第三方数据一般通过API、第三方存储(AWS S3、阿里云存储)、Rsync等方式批量传输。

对于第一方数据,通常定期传输。除非BI系统提供实时服务,否则周期性传输的数据可以满足大多数数据分析的需要。

第二方数据,由于平台一般需要进行实时监控,数据的及时性和准确性都比较高,对于及时性,基本需要实现实时传输。由于实时传输往往会因网络问题而导致数据传输混乱或丢失,这时需要引入离线机制重新传输数据,以保证数据的准确性和完整性。

一般来说,对于质量或指标要求很高的数据和结果,一般采用离线传输和计算,而实时计算则在容错范围内提供服务,具有指导意义。

第一方和第二方数据。离线分析采用批量传输和采集进行数据采集;实时分析采用水槽进行数据采集。第三方数据将通过第三方可靠存储作为媒体进行传输,如阿里云、百度云、AWS等。对于需要实时访问信息的第三方数据,采用API方式进行通信。

extract transform load的缩写,用于将数据提取、转换和加载到数据仓库中。其主要目的是根据预先定义的数据仓库模型对数据进行清理和规范化,以便后续分析。

首先,确定数据仓库模型。应考虑仓库的效率、兼容性和可扩展性。在效率方面,最常用或分析的字段以单独的列的形式设计到模型中,数据被分割成时间片和其他维度;在兼容性买葡萄酒免费吃饭营销模式方面,字段类型通常设置为字符串;在可伸缩性方面,应保留足够的字段或兼容性强的特殊字段以备将来使用。

其次,准备ETL使用的存储和计算框架。在数据量较大的情况下,建议基于Hadoop、Cassandra等文件系统进行存储,基于pregel、yarn、mesos等分布式计算框架进行ETL操作。

第三,数据存储格式。使用原始数据文件或压缩格式;对于原始文件,一般分布式计算平台会自动分段,而对于部分压缩格式,则不支持文件分段。此时,我们需要在存储和计算效率之间做出权衡。如果集群的存储容量有限,则使用压缩文件,但可以通过自动拆分文件,然后进行压缩和上载来提高计算效率。

第四,ETL数据索引信息。必须提供外部指标信息,指导分析师进行数据采集和分析。一般的方法是将数据仓库的每个分区的信息存储在数据库中,供分析人员查询。

Changsi的ETL主要是基于hive建立数据表。数据表中的每个字段都是广告平台或接入方数据映射后的字段,并预留了映射结构字段以满足未来的扩展需要。考虑到数据仓库纵向和横向分析的可能性,将数据分为平台、时间和类型。

在存储和计算框架方面,选择了Hadoop生态系统的相关实现。存储使用HDFS或HBase,计算框架使用yarn。

存储的数据格式。目前,压缩格式有GZ、scratch、LZO、bz2等多种,考虑到存储容量,特别是IO的需求,Changsi将原始数据压缩到最高级别,通过将压缩后的数据分块来提高计算效率。对于数据仓库中的数据,采用LZO压缩,压缩后的MapReduce可以用于自动分割。

数据索引信息。使用MySQL进行索引存储,全局记录数据仓库数据的起止时间。

BI系统需要支持OLAP,提供复杂的分析操作,提供直观易懂的查询结果,为决策提供支持。如何快速有效地分析和提取数据仓库中的结果是任务调度系统需要解决的问题。

首先,如何打电话给分析师。SQL是最简洁的方式,而且因为您熟悉关系数据库,SQL在语法和语义上都比较完整,并且有很多培训资料。分析师可以以较小的成本开始。

四是结果反馈。分析员得到结果后,如何将结果呈现给分析员,以及如何处理错误。

第五,任务调度,“调度”是最重要的,我们需要考虑任务是否需要周期性调度,并根据任务的优先级、等待时间等因素考虑任务调度的顺序。

昌思调度平台以交互方式提供任务提交功能。交互界面划分权限,用户根据SQL命令将指定的优先级和所需的字段操作转换为任务序列,并通过界面操作提交给任务后台。

在任务调度方面,通过任务的优先级和调度周期,将不同级别的任务分配到不同的消息队列中。任务执行器从消息队列获取执行任务。

任务调度的结果按照用户指定的方法存储或操作。如果指定为邮件发送,如果执行成功,则将结果通过邮件发送给配置好的相关人员;如果存储为仓储,则将结果存储在MySQL中,并根据需要加载到缓存中,以便后续分析或显示。

可视化系统除了提供报表显示和导出功能外,还提供多维、同比、逐月等对比分析功能。BI系统的成果和价值主要体现在可视化方面。最终的可视化版本需要根据业务的实际需要,在对产品和运营进行需求调研后,对要显示的维度进行细化。


标签: 数据  存储  系统  进行  任务  分析  
特别提醒:本网站内容转载自其他媒体,目的是传递更多信息,但并不意味着本网站同意其观点。其原创性及文中所述文字内容均未经本网站确认。我们对本条款及其全部或部分内容的真实性、完整性和及时性不作任何保证或承诺,请自行核实相关内容。本网站不承担侵权的直接责任和连带责任。如果本网站的任何内容侵犯您的权益,请及时联系(邮箱:d_haijun@163.com),本网站将在24小时内处理完毕。

本类更新

本类推荐

本类排行