如何使用亚马逊上的数据湖构建下一代分析平台

2021-11-22 23:06

数据的价值


“到 2022 年,超过一半的主要新业务系统将采用持续智能,使用实时上下文数据来改进决策。” 引自 Gartner 报告,《2019 年预测:分析和 BI 战略》

你知道Netflix的个性化推荐引擎每年价值10亿美元吗?根据 Netflix 的说法,它收集的数据如下:

查看者与其服务的交互


相似订阅者的品味和偏好


类型和演员等内容信息


订阅者行为,例如订阅者观看的时间


放入他们的算法中以向其订阅者生成推荐。这种个性化推荐引擎实际上每年为 Netflix 节省 10 亿美元,因为订阅者取消其服务以保持订阅者对 Netflix 的关注。现在 80% 的订阅者选择来自推荐。


这就是数据给企业带来的价值。然而,实际上,没有多少公司了解他们如何从数据中提取业务价值,尤其是在涉及大数据时。企业熟悉自己的正常业务运营,以及正常的业务交易数据能给他们带来什么价值,但随着大数据的趋势,企业对从现有的自有数据中挖掘不可见的商业价值非常感兴趣,以及市场可用数据。大数据这个词给企业主带来了很多幻想,然而,能够让它成功的人并不多。

企业主和 IT 团队

面临的三个常见挑战:

01

大数据项目投资大,

不知道会不会有正的ROI。

我们喜欢 Cloud 带来的革命。在传统 IT 中,只有能够负担得起数据仓库设备和分析或商业智能工具等昂贵硬件的公司才能使用数据分析功能。通常,这些沉重的内部部署工具是对企业初始投资的一次大爆炸。云的即用即付、按需模式为任何公司提供了相对较小的投资来体验数据分析。例如,在亚马逊上,使用亚马逊Glue 进行 ETL 每个作业只需花费几美元。


我们曾经历过一个用例:

与本地传统数据仓库相比,在云上构建端到端分析能力的成本仅为10% 。


02

我不知道哪些数据对我有用,

也不知道如何收集它们。

构建数据湖可帮助您集中分布在各种应用程序孤岛中的所有数据,并使数据在未来的任何分析或机器学习用途中均可轻松访问。

数据湖的重要性在于让您的数据准备就绪,并做好索引和标记。

因此,在未来的任何时间,对于任何用例,您都可以轻松地从数据湖中访问您需要的数据。在亚马逊上,如果您选择使用 S3 来构建您的数据湖,则存储成本非常低。

因此,当您不知道要收集什么时,您可以开始构建数据湖并将数据吸收到其中,分阶段、一个项目一个项目地丰富它。


03

我找不到能够将数据

从 IT 角度转化为业务价值的人才

据 Gartner 称,到 2020 年,业务部门中数据和分析专家的数量将以 IT 部门专家增长率的三倍增长,这将迫使公司重新思考其组织模式和技能组合。

很多时候,业务线用户知道他们想知道什么,但他们无法从原始数据中理解。

因此,对 IT 来说重要的是构建一个自助式分析平台,通过将数据分类为各种度量和指标来减少原始数据的原始性。

然后,业务用户可以从这些可用的度量和指标中获得所需的业务洞察力。

AWS上的下一代分析平台


图表显示了云上端到端的概念性数据旅程

从左到右,是来自各种数据源的原始数据如何逐渐变得有意义和有用,适用于不同的业务场景。通常,业务场景分为5个方面:

报告自动化


动态仪表板


自主分析


人工智能与机器学习


商业应用


这些场景中的每一个都从数据湖中提取清理过的数据,并经历不同的旅程以使其有价值。

数据的价值


我们提供模块化方法来帮助公司在亚马逊上构建他们的数据分析平台,模块化方法包括:

数据平台设计与实现


数据建模发现与开发


报告和仪表板设计


API开发


用户赋能


成功案例研究

关于客户


一家领先的泛亚零售商,在全球不同地区从事食品和个人产品的加工和批发。该公司拥有 200,000 多名员工和 10 多亿美元的收入,在亚洲 10 多个国家/地区经营着 5,000 多家商店。


客户的挑战


客户拥有传统的内部部署数据处理过程来生成报告,特别是关于以 pdf 格式发送给高级管理层的销售相关报告。但是,高级管理层希望:

执行高级零售分析

获取更及时的销售报告。以前的本地数据旅程不容易满足这些要求


来自专业云端顾问公司的解决方案


为了解决这两个挑战,我们希望利用亚马逊作为新的自动报告生成平台来执行:

1.添加了零售分析功能。

2.通过利用 Redshift 的大规模并行处理能力以及 Tableau,缩短数据处理时间,使高级管理人员不再需要等待 pdf 文件,而可以随时访问销售和零售分析仪表板。


好处:

● 将 ETL 时间从 >24 小时减少到 4 小时

● 随时随地访问及时的报告和仪表板

END


云与应用现代化
——
扫描关注微信公众号
获取更多云端资讯
联系我们
——

模板表单-2(1)

  • 姓名*

  • 电话*

  • 邮箱*

  • 公司*

  • 职称*

  • 地址*

  • 需求*