S3 データレイクを整理する

n-ozawan

2024.08.21

クラウド基盘 AWS

皆さん、こんにちは。技术开発グループの苍-辞锄补飞补苍です。
最近、骋辞辞驳濒别検索すると础滨が回答してくれるようになりましたね。

本题です。
2006年に登场した厂3は础奥厂の中心ともいえるサービスです。厂3はその可用性や坚牢性を持ち、大规模にデータを保持することが出来ます。保持したデータを分析し可视化することにより、新たなビジネスチャンスを得られることがあります。今回は厂3を中心としたデータレイクに何があるのかを整理します。

S3 データレイク

データレイクとは

データレイクとは、構造化されたデータや非構造化されたデータまで、多種多様なデータを一元管理したレポジトリです。AWS S3はデータレイクに適したサービスです。S3に保持された多種多様なデータを分析し可視化することにより、新たな気付きやビジネスチャンスを得られるようになります。

础奥厂では、厂3に保持されたデータを分析するためのサービスとして以下があります。

AWS Glue
Amazon Athena
AWS Lake Formation
Amazon EMR

AWS Glue

AWS GlueはETLサービスです。ETLとは抽出(Extract)、変換(Transform)、格納(Load)の頭文字を取ったデータフローです。抽出可能なデータソースにはS3以外にもRDSやDynamoDBなど、構造化データから非構造化データまで、幅広く対応しています。

処理の流れとしては、まず、クローラーによりデータソースからメタデータを抽出して、データカタログとして定义します。データカタログはメタデータを扱うデータストアです。その后、骋濒耻别ジョブにより変换処理を行い、别のデータソースとして出力します。

これにより、S3に保存された多種多様な形式のデータを、Apache Parquet形式などの分析しやすいデータへ効率よく変換することが出来るようになります。

Amazon Athena

Amazon Athenaは、S3内のデータをSQLを使用して分析することが出来るサービスです。S3に格納したCSV、JSON、ParquetなどのデータをSQLで分析することが出来ます。Amazon Athenaでは、Glueデータカタログに対してクエリを実行します。なので、Glueと併用して使われることが多いようです。

また、Athenaでクエリした結果をQuickSightやPower BIなどにより可視化/分析することも可能です。

AWS Lake Formation

AWS Lake Formationは、データレイクを管理、運用するためのサービスで、データレイクの素早い構築ときめ細かいアクセス制御を提供します。特別新しい機能を提供している訳ではなく、AWS GlueやIAMなどのアクセス制御をお手軽に構築してくれるサービスになります。

Amazon EMR

Amazon EMRは、Apache HadoopやApache Sparkなどのビックデータワークフローを利用して、データの分析や処理を行うサービスです。EMRではクラスターと呼ばれる複数のノードにて分散処理を行うことにより、大規模データの分析を高速に行うことが出来ます。

Amazon Kinesisなどのストリーミングサービスと組み合わせることにより、ペタ単位の大規模データをリアルタイムで分析することが可能となります。

おわりに

データを可视化することは、现状を明确にし、正しく分析することで次の指标にもなります。ビジネスも含めて、现代の环境変化は着しく、常にその変化についていく必要があります。１度构筑したからと言って安心していると、次の年では置いて行かれるかもしれません。その為にも、日ごろからデータ分析が行える环境を构筑し、世の中の変化に柔软に対応できるようにしたいものです。

ではまた。