Amazon Athenaのパーティション射影と、Amazon Kinesis Data Firehoseの動的パーティショニングの使いどころ(概念編)

Daisuke Asada

S3上にあるデータに対しての、Amazon Athena(以下Athena)のパーティション射影と、Amazon Kinesis Data Firehose(以下、Firehose)の動的パーティショニングの使いどころについて紹介します。 この連携によって、パーティションの更新の手間が要らなくなるとともに、Kinesis FirehoseでのS3へのデータ保存に柔軟性を持たせることができます。

Amazon SageMaker BlazingText(推論編)

Daisuke Asada

Amazon SageMaker(以下SaSageMaker)の組み込みアルゴリズムであるBlazingTextで学習したモデルを使って、推論エンドポイントによる推論を行います。その際にインスタンスを立ち上げるエンドポイントタイプとともに、サーバレスエンドポイントタイプでも実行します。

Amazon SageMaker BlazingText(学習編)

Daisuke Asada

Amazon SageMaker(以下SageMaker)には、たくさんの組み込みアルゴリズムがあります。その中のテキスト処理で使われるアルゴリズムの一つにBlazingTextというものがあります。今回はBlazingTextを使ってWordベクトルを得るためのモデルを学習させます。

Amazon SageMaker Feature Storeに特徴量を保存する

Daisuke Asada

機械学習には"Garbage in, garbage out.“という言葉があります。トレーニングデータが悪ければ、そこから作成されたモデルも悪くなる、ということですが、機械学習にとって学習データというものは重要な要素です。今回はspaCyによって出力されたテキストのベクトルデータを、Feature Storeに保存し、Amazon SageMakerのプラットフォームで管理できるようにしたいと思います。

Amazon SageMaker Processing & spaCyで、段落のテキストを1行1文のデータに前処理する

Daisuke Asada

Word2Vecなどのアルゴリズムで単語ベクトル用のモデルを学習する際などに、テキストデータを1行1文のテキストデータに変換したいケースがあります。そこで、段落単位になっているデータからspaCyを使って1行1文のデータに変換します。その際に実行環境としてAmazon SageMaker Processingを使います。

Amazon SageMaker Processingで前処理を行う

Daisuke Asada

機械学習にとって、前処理は学習処理と並んで重要な要素です。現実世界で発生するデータは機械学習でそのまま使えるデータということはほとんどありません。なので、前処理をして学習に使用できるようにする必要があります。今回はAWSが提供している、Amazon SageMaker Processing(以下Processing)を使ってデータの前処理をする方法について書きます。