亚马逊AWS官方博客
Category: AWS Big Data
【Agentic AI for Data系列】开发新范式:AI驱动的数据革命(先导篇)
本文深入探讨了从”Data for AI”到”AI for Data”的范式转变,详细阐述了Agentic AI在数据开发全生命周期中的革命性应用。文章通过电商用户行为分析的实际场景,对比传统开发模式与Agentic AI驱动模式的差异,展示核心能力。同时提供了AWS AI Stack完整生态的技术选型指南。
【Agentic AI for Data系列】Kiro实战:DuckDB vs Spark技术选型全流程
本文探讨Agentic AI在数据工程技术选型中的应用实践。针对DuckDB与Apache Spark在小文件场景下的性能差异问题,我们采用AI开发助手Kiro构建了一套系统化的性能评估框架。该框架基于AWS Glue环境,通过双重监控体系收集22+个维度的量化指标,确保测试的公平性和可重复性。
异构 ETL 环境的 AI 驱动数据血缘管理系统
介绍了一种AI驱动的数据血缘管理系统,旨在解决异构 ETL 环境下数据管道碎片化导致的数据治理和调试难题。该系统通过集成 OpenLineage 等工具,实现跨平台、端到端的数据血缘可视化和追踪,帮助用户快速定位数据问题、评估字段修改影响、识别废弃资产,并监控异常节点(如孤儿节点和僵尸节点),从而将数据资产转化为可信赖的商业智能。
使用 Amazon S3,AWS Glue 和 BladePipe 五分钟实现数据实时入湖
介绍 Apache Iceberg 是一种开放的数据表格式,解决了在数据湖管理方面的诸多痛点,如元数据混乱、文 […]
通过 ODCR 和 Prioritized Allocation Strategy 构建高效、经济的 EMR 集群(一)
本文通过实际场景,详细介绍了 EMR 集群创建与扩缩容时的两种策略:为普通集群使用 Open ODCR 实现成本与资源的平衡,为核心任务集群应用 Targeted ODCR 确保效率与可靠性。文中提供了完整配置示例供您参考。
基于 Apache Kafka 和 AWS 构建端到端的无服务器流式 ETL 管道
使用 Apache Kafka、Amazon Redshift Serverless 和 Amazon EMR Serverless 构建端到端无服务器流式 ETL 管道
利用 Serverless 方式自动化设置 EMR 集群时区
在 EMR 使用场景中,数据分析需要对 EMR on EC2 集群节点进行自动化设置指定正确的时区。
亚马逊云科技异常流量监控告警
本文将介绍一种出口流量监控方案,它融合了亚马逊云科技原生服务和第三方监控工具 Grafana,为您呈现一种全新的流量监控体验。
从 AWS DynamoDB 迁移数据到 AWS Aurora MySQL
一、概述 虽然 AWS DynamoDB 提供了高性能、可扩展的 NoSQL 解决方案,但在某些业务场景下存在 […]
Amazon OpenSearch Service 宣布 Elasticsearch 和 OpenSearch 版本的标准支持和扩展支持日期
Amazon OpenSearch Service 支持 19 个版本的 Elasticsearch 和 11 个版本的 OpenSearch
