ビッグデータ

Amazon EMR Studio から Amazon EMR サーバーレスでインタラクティブなワークロードを実行する |アマゾンウェブサービス

タイムスタンプ: 24 年 2024 月 XNUMX 日 12：23 PM
ソースノード: 2736249

プラトン再発行

リリース 6.14 以降、アマゾンEMRスタジオインタラクティブ分析をサポート Amazon EMR サーバーレス。 EC2 クラスター上の Amazon EMR に加えて、EMR サーバーレスアプリケーションをコンピューティングとして使用できるようになりました。 EKS上のAmazonEMR 仮想クラスター。EMR Studio ワークスペースから JupyterLab ノートブックを実行します。

EMR Studio は、データサイエンティストやデータエンジニアが PySpark、Python、Scala で記述された分析アプリケーションを簡単に開発、視覚化、デバッグできるようにする統合開発環境 (IDE) です。 EMR サーバーレスは、次のサーバーレスオプションです。アマゾンEMR これにより、クラスターやサーバーを構成、管理、スケーリングすることなく、Apache Spark などのオープンソースのビッグデータ分析フレームワークを簡単に実行できるようになります。

この投稿では、次の方法を説明します。

インタラクティブアプリケーション用の EMR サーバーレスエンドポイントを作成する
エンドポイントを既存の EMR Studio 環境に接続する
ノートブックを作成して対話型アプリケーションを実行する
EMR Studio 内からインタラクティブアプリケーションをシームレスに診断

前提条件

一般的な組織では、AWS アカウント管理者は次のような AWS リソースをセットアップします。 AWS ID とアクセス管理 (IAM) ロール、 Amazon シンプルストレージサービス (Amazon S3) バケット、およびアマゾンバーチャルプライベートクラウドインターネットアクセスおよび VPC 内の他のリソースへのアクセスのための (Amazon VPC) リソース。 EMR Studio のセットアップと特定の EMR Studio へのユーザーの割り当てを管理する EMR Studio 管理者を割り当てます。割り当てが完了すると、EMR Studio 開発者は EMR Studio を使用してワークロードの開発と監視を行うことができます。

S3 バケット、VPC サブネット、EMR Studio などのリソースは必ず同じ AWS リージョンに設定してください。

これらの前提条件を展開するには、次の手順を実行します。

以下を起動します AWS CloudFormation スタック。
値を入力してください 管理者のパスワード & 開発者パスワード 作成したパスワードをメモします。
選択する Next.
設定をデフォルトのままにして選択します Next 再び。
選択 AWS CloudFormationがカスタム名でIAMリソースを作成する可能性があることを認めます.
送信を選択します.

また、サンプル IAM ポリシーを使用してこれらのリソースを手動でデプロイする手順も提供しています。 GitHubレポ.

EMR Studio とサーバーレス対話型アプリケーションをセットアップする

AWS アカウント管理者が前提条件を完了すると、EMR Studio 管理者は AWSマネジメントコンソール EMR Studio、Workspace、EMR Serverless アプリケーションを作成します。

EMR スタジオとワークスペースを作成する

EMR Studio 管理者は、次のコマンドを使用してコンソールにログインする必要があります。 emrs-interactive-app-admin-user ユーザーの資格情報。提供された CloudFormation テンプレートを使用して前提条件リソースをデプロイした場合は、入力パラメーターとして指定したパスワードを使用します。

Amazon EMRコンソールで、 EMR サーバーレス ナビゲーションペインに表示されます。
選択する 始める.
選択 EMR Studioを作成して起動する.

これにより、デフォルトの名前でスタジオが作成されます studio_1 およびデフォルト名のワークスペース My_First_Workspace。新しいブラウザタブが開きます。 Studio_1 ユーザーインターフェース。

EMR サーバーレスアプリケーションを作成する

EMR サーバーレスアプリケーションを作成するには、次の手順を実行します。

EMR Studio コンソールで、 アプリケーション ナビゲーションペインに表示されます。
新しいアプリケーションを作成します。
名前、名前を入力します（たとえば、 my-serverless-interactive-application).
アプリケーション設定オプション選択 カスタム設定を使用する インタラクティブなワークロード向け。

対話型アプリケーションの場合、ベストプラクティスとして、ドライバーとワーカーを事前に初期化した状態に保つことをお勧めします。初期化済み容量アプリケーション作成時。これにより、アプリケーション用のワーカーのウォームプールが効果的に作成され、リソースをいつでも使用できる状態に保つことができるため、アプリケーションは数秒で応答できるようになります。 EMR サーバーレスアプリケーションを作成するためのその他のベストプラクティスについては、次を参照してください。 Amazon EMR サーバーレスを使用してビッグデータワークロードのチームごとのリソース制限を定義する.

インタラクティブなエンドポイント セクション、選択 インタラクティブエンドポイントを有効にする.
ネットワーク接続 セクションで、前に作成した VPC、プライベートサブネット、セキュリティグループを選択します。

この投稿で提供されている CloudFormation スタックをデプロイした場合は、 emr-serverless-sg セキュリティグループとして。

ワークロードが外部 Python パッケージをダウンロードするために EMR サーバーレスアプリケーション内からインターネットにアクセスできるようにするには、VPC が必要です。 VPC を使用すると、次のようなリソースにアクセスすることもできます。 Amazon リレーショナルデータベースサービス（Amazon RDS）および Amazonレッドシフトこのアプリケーションの VPC 内にあるもの。サーバーレスアプリケーションを VPC に接続すると、サブネットで IP が枯渇する可能性があるため、サブネットに十分な IP アドレスがあることを確認してください。

選択する アプリケーションを作成して開始する.

アプリケーションページで、サーバーレスアプリケーションのステータスが次のように変化することを確認できます。開始.

アプリケーションを選択して選択してください機能.
選択する ワークスペースの表示と起動.
選択する スタジオを構成する.

サービスの役割¸ 前提条件として作成した EMR Studio サービスロールを提供します (emr-studio-service-role).
ワークスペースストレージ、前提条件として作成した S3 バケットのパスを入力します (emrserverless-interactive-blog-<account-id>-<region-name>).
選択する 変更を保存します.

14. を選択して Studio コンソールに移動します。 ·スタジオ 左側のナビゲーションメニューで、 EMR スタジオ セクション。注意してください スタジオアクセスURL Studios コンソールからダウンロードし、開発者が Spark アプリケーションを実行できるように提供します。

最初の Spark アプリケーションを実行する

EMR Studio 管理者が Studio、ワークスペース、サーバーレスアプリケーションを作成した後、Studio ユーザーはワークスペースとアプリケーションを使用して Spark ワークロードを開発および監視できます。

ワークスペースを起動し、サーバーレスアプリケーションをアタッチします。

次の手順を完了します。

EMR Studio 管理者から提供された Studio URL を使用してログインします。 emrs-interactive-app-dev-user AWS アカウント管理者によって共有されるユーザー認証情報。

提供された CloudFormation テンプレートを使用して前提条件リソースをデプロイした場合は、入力パラメーターとして指定したパスワードを使用します。

ソフトウェア設定ページで、下図のように ワークスペース ページで、ワークスペースのステータスを確認できます。ワークスペースが起動すると、ステータスが次のように変化します。 準備ができました。

ワークスペース名 (My_First_Workspace).

新しいタブが開きます。ブラウザでポップアップが許可されていることを確認してください。

ワークスペースで、計算ナビゲーションペインの (クラスターアイコン)。
EMRサーバーレスアプリケーション、アプリケーションを選択してください (my-serverless-interactive-application).
インタラクティブなランタイムの役割、対話型ランタイムロールを選択します (この投稿では、 emr-serverless-runtime-role).
選択する 添付する このワークスペース内のすべてのノートブックのコンピューティングタイプとしてサーバーレスアプリケーションをアタッチします。

Spark アプリケーションを対話的に実行する

次の手順を完了します。

選択する ノートブックのサンプル ナビゲーションペインで (3 つの点のアイコン) を選択して開きます Getting-started-with-emr-serverless ノート。
選択する ワークスペースに保存.

このノートブックのカーネルには、Python 3、PySpark、および Spark (Scala 用) の XNUMX つの選択肢があります。

プロンプトが表示されたら、を選択します。 パイスパーク カーネルとして。
選択する選択.

これで、Spark アプリケーションを実行できるようになりました。これを行うには、 %%configure スパークマジックコマンド。セッション作成パラメータを構成します。インタラクティブなアプリケーションは Python 仮想環境をサポートします。以下を使用してエグゼキューター環境の別の Python ランタイムのパスを指定することで、ワーカーノードでカスタム環境を使用します。 spark.executorEnv.PYSPARK_PYTHON。次のコードを参照してください。

%%configure -f
{
  "conf": {
    "spark.pyspark.virtualenv.enabled": "true",
    "spark.pyspark.virtualenv.bin.path": "/usr/bin/virtualenv",
    "spark.pyspark.virtualenv.type": "native",
    "spark.pyspark.python": "/usr/bin/python3",
    "spark.executorEnv.PYSPARK_PYTHON": "/usr/bin/python3"
  }
}

外部パッケージをインストールする

ワーカー用に独立した仮想環境ができたので、EMR Studio ノートブックでは、Spark を使用してサーバーレスアプリケーション内から外部パッケージをインストールできます。 install_pypi_package Spark コンテキストを介して機能します。この機能を使用すると、すべての EMR サーバーレスワーカーがパッケージを利用できるようになります。

まず、Python パッケージである matplotlib を PyPi からインストールします。

sc.install_pypi_package("matplotlib")

前の手順が応答しない場合は、VPC 設定をチェックし、インターネットアクセス用に正しく設定されていることを確認してください。

これで、データセットを使用してデータを視覚化できるようになりました。

ビジュアライゼーションの作成

ビジュアライゼーションを作成するために、ニューヨーク市の黄色いタクシーに関する公開データセットを使用します。

file_name = "s3://athena-examples-us-east-1/notebooks/yellow_tripdata_2016-01.parquet"
taxi_df = (spark.read.format("parquet").option("header", "true") 
.option("inferSchema", "true").load(file_name))

前述のコードブロックでは、Amazon S3 のパブリックバケットから Parquet ファイルを読み取ります。ファイルにはヘッダーがあり、Spark にスキーマを推測させたいと考えています。次に、Spark データフレームを使用して、特定の列をグループ化してカウントします。 taxi_df:

taxi1_df = taxi_df.groupBy("VendorID", "passenger_count").count()
taxi1_df.show()

　 %%display 結果を表形式で表示するマジック:

%%display
taxi1_df

5 種類のグラフを使用してデータをすばやく視覚化することもできます。表示タイプを選択すると、それに応じてチャートが変わります。次のスクリーンショットでは、棒グラフを使用してデータを視覚化しています。

Spark SQL を使用して EMR サーバーレスと対話する

テーブルを操作できます。 AWSGlueデータカタログ EMR サーバーレスで Spark SQL を使用する。サンプルノートブックでは、Spark データフレームを使用してデータを変換する方法を示します。

まず、タクシーという新しい一時ビューを作成します。これにより、Spark SQL を使用してこのビューからデータを選択できるようになります。次に、さらに処理するためにタクシーデータフレームを作成します。

taxi_df.createOrReplaceTempView("taxis")
sqlDF = spark.sql(
    "SELECT DOLocationID, sum(total_amount) as sum_total_amount 
     FROM taxis where DOLocationID < 25 Group by DOLocationID ORDER BY DOLocationID"
)
sqlDF.show(5)

EMR Studio ノートブックの各セルで、次の内容を展開できます。 スパークジョブの進行状況 この特定のセルの実行中に EMR サーバーレスに送信されたジョブのさまざまな段階を表示します。各ステージの完了にかかる時間を確認できます。次の例では、ジョブのステージ 14 には 12 個の完了したタスクがあります。さらに、障害が発生した場合はログを確認できるため、トラブルシューティングがスムーズになります。これについては次のセクションで詳しく説明します。

matplotlib パッケージを使用して処理されたデータフレームを視覚化するには、次のコードを使用します。 maptplotlib ライブラリを使用して、ドロップオフの場所と合計金額を棒グラフとしてプロットします。

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.clf()
df = sqlDF.toPandas()
plt.bar(df.DOLocationID, df.sum_total_amount)
%matplot plt

インタラクティブなアプリケーションを診断する

Livy エンドポイントのセッション情報を取得するには、 %%info スパークマジック。これにより、ノートブック内の Spark UI およびドライバーログにアクセスするためのリンクが提供されます。

次のスクリーンショットは、ノートブック内のリンクから開いたアプリケーションのドライバーログスニペットです。

同様に、以下のリンクを選択できます スパークUI をクリックして UI を開きます。次のスクリーンショットは、 執行者 タブからドライバーとエグゼキューターのログにアクセスできます。

次のスクリーンショットはステージ 14 を示しています。これは、前に見た Spark SQL ステップに対応します。このステップでは、12 のタスクに分割されたタクシーの総回収数の場所ごとの合計を計算しました。 Spark UI を介して、インタラクティブアプリケーションは、きめ細かいタスクレベルのステータス、I/O、およびシャッフルの詳細に加えて、このステージの各タスクに対応するログへのリンクをノートブックから直接提供し、シームレスなトラブルシューティングエクスペリエンスを可能にします。

クリーンアップ

この投稿で作成したリソースを保持したくない場合は、次のクリーンアップ手順を実行してください。

EMR サーバーレスアプリケーションを削除する.
EMR Studio と関連するワークスペースとノートブックを削除します。.
残りのリソースを削除するには、CloudFormation コンソールに移動し、スタックを選択して、削除.

S3 バケットを除くすべてのリソースが削除されます。SXNUMX バケットの削除ポリシーは保持するように設定されています。

まとめ

この投稿では、EMR サーバーレスをコンピューティングとして使用して、EMR Studio でインタラクティブな PySpark ワークロードを実行する方法を示しました。インタラクティブな JupyterLab ワークスペースで Spark アプリケーションを構築および監視することもできます。

今後の投稿では、EMR サーバーレスインタラクティブアプリケーションの次のような追加機能について説明します。

VPC 内の Amazon RDS や Amazon Redshift などのリソースの操作 (JDBC/ODBC 接続など)
サーバーレスエンドポイントを使用したトランザクションワークロードの実行

EMR Studio を初めて使用する場合は、次の内容を確認することをお勧めします。 Amazon EMR ワークショップと参照して EMRスタジオを作成する.

著者について

セカール・スリニバサン AWS のプリンシパルスペシャリストソリューションアーキテクトであり、データ分析と AI に重点を置いています。 Sekar は、データを扱う 20 年以上の経験があります。彼は、顧客がアーキテクチャを最新化し、データから洞察を生成するスケーラブルなソリューションを構築できるよう支援することに情熱を注いでいます。余暇には、恵まれない子どもたちの教育に焦点を当てた非営利プロジェクトに取り組むことが好きです。

ディシャ・ウマルワニ グローバルヘルスケアおよびライフサイエンス分野における Amazon プロフェッショナルサービスのシニアデータアーキテクトです。彼女は顧客と協力して、大規模なデータ戦略を設計、構築、実装してきました。彼女はエンタープライズプラットフォーム向けのデータメッシュアーキテクチャの設計を専門としています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/run-interactive-workloads-on-amazon-emr-serverless-from-amazon-emr-studio/

タグ： 01, 1, 12, 14, 20, 20年, 25, a, できる, 私たちについて , アクセス, アクセス管理, それに応じて, , 認める, 添加, NEW, アドレス, 管理人, 管理者, 管理者, After, 再び, AI, すべて, 許す, ことができます, また, Amazon, アマゾンEMR, EKS上のAmazonEMR, アマゾンRDS, Amazonレッドシフト, アマゾンS3, Amazon Webサービス, 量, an, 分析論, &, どれか, アパッチ, Apache Spark, アプリ, 申し込み, , Architect, 建築, アーキテクチャ, です, AS, 割り当てられた, 関連する, At, アテナ, アタッチ, 著者, 利用できます, AWS, AWS CloudFormation, AWSグルー, AWSマネジメントコンソール, バー, BE, き, 以下, BEST, ベストプラクティス, ベストプラクティス, BIG, ビッグデータ, ビッグデータ分析, BIN, ブロック, ブログ, 壊れた, ブラウザ, バケット, ビルド, by, 計算された, 呼ばれます, 缶, 取得することができます, 機能, 容量, これ, カタログ, セル, 変化する, 変更, チャート, チャート, チェック, 点検, 子供達, 選択肢, 選ぶ！, 選択する, 石斑魚, CLF, クラウド, , クラスター, コード, コレクション, コラム, Command, コンプリート, 完成した, 完了する, 計算, まとめ, configure, 設定された, 構成する, Connections, 接続性, 領事, 消費, 環境, 　　, 対応する, 対応する, COUNT, 作ります, 作成した, 作成します。, 作成, 創造, Credentials , カスタム, Customers, データ, データ分析, データアーキテクト, データカタログ, データエンジニア, データメッシュ, データサイエンティスト, データ戦略, データベース, データフレーム, データセット, debug, デフォルト, 定義する, 削除, 削除された, 実証します, 展開します, 展開, 設計, 詳細, デベロッパー, 開発する, 開発者, 開発, 診断, 異なります, 話し合います, ディスプレイ, doesnの, そうではありません, ダウン, ダウンロード, ドライバー, 各, 前, 東, 教育, 効果的に, EKS, EMR, enable, 使用可能, 有効にする, エンドポイント, エンジニア, 入力します, Enterprise, 環境, 環境, 例, 例, 除く, 疲労, 既存の, 詳細, 体験, 探索, 外部, 不良解析, File, 終わり, 名, 初回, 5, 焦点を当て, フォロー中, , 例えば, 形式でアーカイブしたプロジェクトを保存します．, フレームワーク, から, function, さらに, 生成, 入手, 始めます, 受け, GitHubの, 与える, グローバル, グローバルヘルス, グループ, グループ化する, グループバイ, 持っていました, 持ってる, he, ヘッダ, ヘッダーの, 健康, ヘルスケア, 助け, 彼の, 認定条件, How To, i, IAM, ICON, ID, IDE, アイデンティティ, アイデンティティとアクセス管理, if, 実装する, インポート, in, 独立した, info, 情報, , 洞察, インストールを開始する, 説明書, 統合された, 対話, 相互作用的, インタフェース, インターネット, インターネット・アクセス, に, IP, IPアドレス, Is, IT, ITS, ジョブ, 続ける, 保管, 続けて, kernel, 起動する, 打ち上げ, つながる, 左, レベル, 図書館, ような, いいね, 境界, LINK, リンク, ll, 負荷, 場所, ログ, ログイン, ログ, より長いです, マジック, make, 作る, 作成, 管理します, 管理, 管理する, 手動で, matplotlib, メニュー, メッシュ, マイト, 近代化, モニター, 他には？, my, 名前 , 名, ネイティブ, ナビゲート, ナビゲーション, 必要とされる, ネットワーク, 新製品, Next, いいえ, ノード, 非営利, 注意, ノート, ノートPC, Now, ナンシー, NYC, of, on, かつて, 開いた, オープンソース, 開かれた, オプション, オプション, or, 注文, 組織。, その他, 私たちの, 私たちのデータ, でる, オーバー, パッケージ, パッケージ, ページ, パンダ, ペイン, パラメーター, パラメータ, 情熱的な, パスワード , パスワード, path, PD, 以下のために, プラットフォーム, プラトン, プラトンデータインテリジェンス, プラトデータ, プロット, ポリシー, 方針, プール, ポップ, ポップアップ, 役職, 練習, プラクティス, プレ, 先行, 前提条件, 前提条件, 前に, 校長, プライベート, 処理されました, 処理, プロ, プロフェッショナルサービス, 利益, 進捗, プロジェクト(実績作品), 促される, 提供します, 提供, は、大阪で, 公共, PyPI, パイスパーク, Python , すぐに, RE, read, 準備, 推奨する, 参照する, 地域, リレーショナル, リレーショナルデータベース, リリース, レポ, リソースを追加する。, リソース, 対応, REST, 結果, リテンションを維持, 右, 役割, 役割, ラン, ランニング, ランタイム, s, 同じ, サンプル, サンプル, 保存, 見ました, SC, スカラ, スケーラブル, スケーラブルなソリューション, 規模, スケーリング, スキーマ, 科学者たち, スクリーンショット, シームレス, シームレス, 秒, , セキュリティ, , 選択, サーバレス, サーバ, カスタマーサービス, サービス, セッション, セッションに, セットアップ, 設定, 設定, , SG, shared, 彼女, すべき, 表示する, 示されました, 作品, シャッフル, 同様に, 簡単な拡張で, スニペット, So, ソリューション, source, スペア, スパーク, スパークSQL, 専門家, 専門にする, 特定の, 指定, SQL, スリニバサン, スタック, ステージ, インターンシップ, start, 開始, 起動, Status:, 手順, ステップ, ストレージ利用料, 簡単な, 戦略, 研究, スタジオ, 送信, 提出された, サブネット, サブネット, そのような, 十分な, 和, サポート, サポート, 確か, T, タブ, テーブル, テーブル類, 撮影, タスク, タスク, タクシー, パッケージ種類, template, 一時的, それ, 　, アプリ環境に合わせて, 彼らのデータ, その後, そこに, ボーマン, 彼ら, この, 三, 介して, 時間, 〜へ, トータル, 合計金額, トランザクションの, 最適化の適用, トラブルシューティング, true, type, , 典型的な, ui, 恵まれない, up, 開催スケジュール, UPS, URL, us, つかいます, ユーザー, ユーザーインターフェース, users, , 値, さまざまな, 確認する, ビア, 詳しく見る, バーチャル, 仮想環境, 仮想プライベート, ビジュア, 視覚化する, 欲しいです, 暖かいです, we, お勧めします, ウェブ, Webサービス, WELL, 日時, コラボレー, どちら？, while, 誰, 意志, ワイズ, 　, 以内, 無し, 仕事, 働いていました, ワーカー, 労働者, ワーキング, ワークロード, ワークロード, 作品, ワークショップ, , 書かれた, 年, You, あなたの, ゼファーネット

エクスレラ8

Amazon EMR Studio から Amazon EMR サーバーレスでインタラクティブなワークロードを実行する |アマゾンウェブサービス

プラトン再発行

前提条件

EMR Studio とサーバーレス対話型アプリケーションをセットアップする

EMR スタジオとワークスペースを作成する

EMR サーバーレスアプリケーションを作成する

最初の Spark アプリケーションを実行する

ワークスペースを起動し、サーバーレスアプリケーションをアタッチします。

Spark アプリケーションを対話的に実行する

外部パッケージをインストールする

ビジュアライゼーションの作成

Spark SQL を使用して EMR サーバーレスと対話する

インタラクティブなアプリケーションを診断する

クリーンアップ

まとめ

著者について

EEDL ウェビナー: データリテラシーを個人のパフォーマンスに結び付ける – DATAVERSITY

研究: これらは 1 マイル当たりの運転コストが最も高い車両です – Autoblog

ケンダル空軍長官、AI制御のX-62 VISTAでエドワーズ空軍基地を飛行

ChainSwap がチェーン内スワップでマルチチェーン DeFi に革命を起こす

私たちとチャット

Amazon EMR Studio から Amazon EMR サーバーレスでインタラクティブなワークロードを実行する |アマゾン ウェブ サービス

プラトン再発行

前提条件

EMR Studio とサーバーレス対話型アプリケーションをセットアップする

EMR スタジオとワークスペースを作成する

EMR サーバーレス アプリケーションを作成する

最初の Spark アプリケーションを実行する

ワークスペースを起動し、サーバーレス アプリケーションをアタッチします。

Spark アプリケーションを対話的に実行する

外部パッケージをインストールする

ビジュアライゼーションの作成

Spark SQL を使用して EMR サーバーレスと対話する

インタラクティブなアプリケーションを診断する

クリーンアップ

まとめ

著者について

私たちとチャット

Amazon EMR Studio から Amazon EMR サーバーレスでインタラクティブなワークロードを実行する |アマゾンウェブサービス

EMR サーバーレスアプリケーションを作成する

ワークスペースを起動し、サーバーレスアプリケーションをアタッチします。