晓讲数据工程6
在这一部分中,我们(We)将讨论(Discuss)数据架构。
内容:1. 什么是数据架构2. Lambda vs Kappa 架构3. 实际项目
一 什么是数据架构
数据架构是数据系统的蓝图,它服务于产品的业务需求,并描述数据如何收集、存储、转换和分发。它由需要实施和遵循的数据模型、治理策略、规则和标准组成,以构建强大且安危的数据系统。
数据架构必须满足数据系统的业务和技术需求。
业务需求可能包括以下内容:1. 减少数据交付的延迟2. 根据需求自动扩展数据交付3. 为不同类型数据的数据模型增加更多灵活性4. 提高数据质量和一致性5. 减少存储成本和支持优化6. 提供安危性和 GDPR 等准则合规性
支持业务的技术需求包括:
1. 业务案例的最佳数据源和摄取工具2. 高效检索和存储优化的数据仓库解决方案3. 定义数据相关性和消费的转换逻辑4. 设计分析推理平台展示 KPI5. 使用云服务进行(Carry Out)分布式计算,以确保最低成本和不同团队的访问权限6. 制定安危控制和监控系统以遵守法规并维护数据完整性。
以下是数据架构师职责的概述:
这是数据架构师和数据工程师之间的区别:
二 Lambda 与 Kappa 架构
Lamba 架构被定义为具有实时和批处理能力的组合。它有 3 层:实时层,用于使用 Storm 可能 Flink 等服务处理传入流;批处理层,用于使用 Hadoop 可能 Spark 等服务批量处理历史(History)数据;服务层,提供批处理和实时的组合视图数据。例如,在电子商务业务中,需要客户(批次)的购买历史(History)记录来了解预算和质量限制,并需要实时浏览数据以提出合适的建议。
Lambda 架构面临的挑战是,您需要为实时层和批处理层复制预处理和其他常见工作,因此建议对这两种提取使用相同的服务,例如 Spark,它有助于完成这两种操作。
Kappa 架构的引入是为了采用统一的方法来应对这一挑战,并且只有一个流层,使用 Apache Kafka 等服务来处理所有操作。首先,实时数据存储在消息传递引擎中,并且可以存储在分析数据库中以便批量检索,可能者根据查询类型通过服务层提供与消息传递引擎的实时交互。
Kafka 是一种快速、容错且水平可扩展的服务,具有如下所示的许多功能,因此主要用于达成 Kappa 架构。
虽然 Lambda 的维护和运营成本更高,但 Kappa 使系统更加简单。但为了建立 Kappa 架构,需要不断调整它以确保可靠性和准确性。
因此,总而言之,当存在无法实时处理的大量可能多种数据时,会使用 Lambda 架构,而当需要根据传入的流数据 Kappa 和中的数据立即采取行动时,会更倾向 Kappa 架构。数据具有高度一致性的情况,因此不需要太多的质量校正可能复杂性。
Kappa 的一个实际用例是在 Uber 与 Kafka 一起达成的:
三 实际项目 电动汽车(Car)基础设施分析
这是一个已达成的实际项目及其数据架构:
问题陈述:分析电动汽车(Car)充电基础设施以识别任何模式并提出改进建议。数据源: Open Charge API数据编排: Airflow数据湖: AWS S3 存储数据架构理解: AWS Glue Crawler and Data Catalog数据清理和预处理: AWS LambdaETL 和探索工具: AWS Glue 和 Athena数据仓库和仪表板: Snowflake数据安危:IAM
澄清:我仅在 AWS 和 Snowflake 中使用了免费套餐服务。我认为,当所有服务都在 AWS 中时,理解为什么使用 Airflow 而不是 Glue ETL 可能会令人困惑——这只是成本因素。
我在这里进行(Carry Out)免费试用,因此存在一些限制,但如果您更舒服并且适合您的用例,您可以使用 Glue Studio 进行(Carry Out) ETL 和仓库连接!
我仅使用 Glue Crawler 和 Data Catalog 等 Glue 服务进行(Carry Out)数据探索,并使用 Athena 运行 SQL 查询以确保拥有正确的结构。如果您查看代码库,就会发现与 Snowflake 的连接是通过 SQL 查询而不是 Glue。
Open Charge API
该数据源包含有关电动汽车(Car)充电站的各种信息,您可以使用经度和纬度范围进行(Carry Out)查询,以查找该区域的电动汽车(Car)充电站。
Airflow — ELT
用于编排数据管道,并按照不同区域定期摄取API数据。
AWS Glue
AWS Glue 用于通过存储元数据的爬网程序和数据目录来理解数据架构。还可以使用 Glue通过 Glue Studio 对数据进行(Carry Out)相关转换,然后再将其加载到 Snowflake 数据仓库中。也可以定义可从 Lambda 函数调用的 ETL 作业可能对其进行(Carry Out)调度。在ETL作业中,还可以执行数据质量检查。
AWS Lambda
它用于对原始数据进行(Carry Out)数据清理和预处理,并将中间结果(Result)存储到另一个清理后的S3存储桶中。每次将新数据加载到原始 S3 存储桶中时,都可以触发它。
AWS Athena
可以使用 Athena 执行 SQL 查询来了解数据并将查询结果(Result)存储在分析数据库中以供数据仓库访问。
Snowflake data warehouse
它是最终用户(数据分析师)使用的分析存储,用于了解趋势和模式并构建仪表板以向相关利益相关者展示。
AWS IAM
身份和访问管理允许您设置定义对不同 AWS 资源的访问控制的角色和策略。您需要定义上述每个 AWS 资源的角色才能相互交互。
总之,使用 Airflow 从 API 进行(Carry Out)摄取,当 S3 存储桶放置对象事件发生时会触发 Lambda,然后当有可用的清理对象时,可以使用 Snowflake 触发加载。
Snowflake中的仪表板
1.查找可用设备的数量
从ev_table中选择前10 个“locationtitle”、“quantity”,其中“quantity” 1 order by “quantity” desc;
2. 找出不同电流类型的功率分布情况
SELECT sum ("powerkw") as "total_power","currenttypeid" FROM ev_table where "currenttypeid" 1 GROUP BY "currenttypeid" ORDER BY "currenttypeid" ;
3.找出电动汽车(Car)站的地理邻近性
从ev_table中选择“纬度”、“经度” ;
4.找出不同级别充电能力之间的功率分布
从ev_table组中按“levelid”选择“levelid”、sum(“powerkw”);
5. 按充电能力等级了解位置分布
从ev_table组中按“levelid”选择计数(“locationtitle”)、“ levelid”
6. 找到功率最高的位置
从ev_table中选择前10 个 “locationtitle”、“powerkw”,其中“powerkw” 0 order by “powerkw” desc;
本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
+12好文章,需要你的鼓励
王建峰特邀作者0收 藏+10评 论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微 博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章数据产品:CDP从0到1规划流程数字化方法、端到端思维帮助供应链发展面壁智能完成新一轮数亿元融资,春华创投、华为哈勃领投|36氪首发买个鼠标也要货比三家的企业能做好数字化吗?晓谈数据工程2-数据存储瞄准医院数字化转型,「联影智元」打造医疗领域“App Store”|早期项目To B 软件上市公司:钱去哪儿了?瑞士房地产科技(Technology)公司Properti开发房地产数字化交易平台,简化房地产交易服务 | 瑞士创新100强晓谈数据工程4-数据管道最新文章推荐进击的民营银行:从零到2万亿,十年寻路两极分化利率最低3.3%,银行“开卷”汽车(Car)贷,甚至两年0利息还送保险「窥探」小米流量密码的车企们凯文凯利2024最新演讲:帮助人类成为更好的人类,是人工智能的最终目标美团即时零售的真正问题是什么?智界S7遥遥领先,但交付遥遥无期飞天持续“降价”,贵州茅台也有“烦恼”?大润发全国闭店十几家,员工:当年三个月瘦20斤B站“恰饭”难:中小UP主收入骤降80%,百万大V年收入锐减10万IPO一周年,“深圳AI第一股”褪色王建峰特邀作者作者有点忙,还没写简介
发表文章173篇最近内容晓谈数据工程6-数据架构1小时前晓谈数据工程2-数据存储昨天(Yesterday)晓谈数据工程4-数据管道2024-04-09阅读更多内容,狠戳这里下一篇开盘暴涨177%,雷军今年(This Year)第二个IPO来了VC小米“赚”了2.3亿。
1小时前
热门标签泡泡英语福特t型车我国新型城镇化规划财务软件金蝶云企业平台沙滩车市场准入负面清单方辉云电脑(Computer)马路牙子长城皮卡坦途皮卡五十铃皮卡半衰期爱莉杨宁非虚构文学都市女孩李滨金融大数据蒋韬钢球防弹玻璃高中(High School)物理艾莎安娜闪聊品骏快递普萘洛尔ptsd关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴36氪APP下载iOS Android本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间推送和解读前沿、有料的科技(Technology)创投资讯
一级市场金融信息和系统服务提供商
聚焦全球优秀创业者,项目融资率接近97%,领跑行业
- 赞(284) 踩(35) 阅读数(9272) 最新评论 查看所有评论
-
加载中......
- 发表评论
-