クラウドのかなたに

データ分析WebアプリケーションフレームワークであるDashをAWS Lambda（以下Lambda）上にデプロイする方法について説明します。 LambdaへのデプロイはZappaを使って行います。

前回、紹介した"Amazon Athena（以下 Athena）のパーティション射影と、Amazon Kinesis Data Firehose（以下 Firehose）の動的パーティショニングについて、CDKで構築します。

S3上にあるデータに対しての、Amazon Athena（以下Athena）のパーティション射影と、Amazon Kinesis Data Firehose（以下、Firehose）の動的パーティショニングの使いどころについて紹介します。この連携によって、パーティションの更新の手間が要らなくなるとともに、Kinesis FirehoseでのS3へのデータ保存に柔軟性を持たせることができます。

Amazon SageMaker（以下SaSageMaker）の組み込みアルゴリズムであるBlazingTextで学習したモデルを使って、推論エンドポイントによる推論を行います。その際にインスタンスを立ち上げるエンドポイントタイプとともに、サーバレスエンドポイントタイプでも実行します。

Amazon SageMaker(以下SageMaker)には、たくさんの組み込みアルゴリズムがあります。その中のテキスト処理で使われるアルゴリズムの一つにBlazingTextというものがあります。今回はBlazingTextを使ってWordベクトルを得るためのモデルを学習させます。

機械学習には"Garbage in, garbage out.“という言葉があります。トレーニングデータが悪ければ、そこから作成されたモデルも悪くなる、ということですが、機械学習にとって学習データというものは重要な要素です。今回はspaCyによって出力されたテキストのベクトルデータを、Feature Storeに保存し、Amazon SageMakerのプラットフォームで管理できるようにしたいと思います。

Word2Vecなどのアルゴリズムで単語ベクトル用のモデルを学習する際などに、テキストデータを1行1文のテキストデータに変換したいケースがあります。そこで、段落単位になっているデータからspaCyを使って1行1文のデータに変換します。その際に実行環境としてAmazon SageMaker Processingを使います。

機械学習にとって、前処理は学習処理と並んで重要な要素です。現実世界で発生するデータは機械学習でそのまま使えるデータということはほとんどありません。なので、前処理をして学習に使用できるようにする必要があります。今回はAWSが提供している、Amazon SageMaker Processing(以下Processing)を使ってデータの前処理をする方法について書きます。

DashをAWS Lambda上にZappaでデプロイする

Amazon Athenaのパーティション射影と、Amazon Kinesis Data Firehoseの動的パーティショニングの使いどころ（構築編）

Amazon Athenaのパーティション射影と、Amazon Kinesis Data Firehoseの動的パーティショニングの使いどころ（概念編）

Amazon SageMaker BlazingText（推論編）

Amazon SageMaker BlazingText（学習編）

Amazon SageMaker Feature Storeに特徴量を保存する

Amazon SageMaker Processing & spaCyで、段落のテキストを1行1文のデータに前処理する

Amazon SageMaker Processingで前処理を行う