Spark UI Spark History Serverを使ってみた

執筆者

更新日：2022.12.23

目次

Spark UIとは
Spark UI Spark History Serverでできること
Spark UIを有効にする
Spark History Serverを起動してみる
Spark History Serverを見てみる
まとめ

AWS GlueでSparkを実行した際にジョブの結果を監視、トラブルシューティングできるツールは無いものかと探したところウェブUIによって可視化することができる、Spark UIがありました。ローカルマシンでDockerでのSpark History Serverの起動や、見方などを簡単にご紹介します。

ローカルマシンにgitとDockerがインストールされており、使用できる状態という前提となります。

使用環境

機種	MacBook Pro
OS	Catalina 10.15.7
プロセッサ	2.3 GHz デュアルコアIntel Core i5
メモリ	16GB
AWS Glue	2.0
Spark	2.4
言語	Scala

Spark UIとは

AWSの公式ブログによると

Spark UIは、Glue ETL ジョブ実行のさまざまなステージを表すDirected Acyclic Graph (DAG(有向非循環グラフ)) をウェブインターフェイスによって可視化することができます。また、Spark SQL クエリプランを分析し、実行中や終了したSpark executorのイベントタイムラインを確認します。 Spark UIはGlue ETL ジョブおよび Glue 開発エンドポイントの両方で利用可能です。

このように記載されています。平たく言えば、ETLの実行結果がグラフなどで可視化されて、とても見やすくなっているということですね。

ジョブ単位でパフォーマンスを見たり、どのジョブの、どの処理で性能が出ていないのかなどチューニングする際の指標にもなります。

Spark UI Spark History Serverでできること

前述のように、Spark UIを利用することで、ジョブの実行結果を可視化することが出来ます。History Serverを起動すればアプリケーション一覧を見ることができ、アプリケーションごとにイベントタイムラインによるジョブのパフォーマンスやボトルネックの特定、デバッグを行うことができます。

また、アプリケーション単位でイベントログをエクスポートすることも可能となっており、AWSサポートへ問い合わせを行う際にメッセージと一緒にログファイルを添付し使用することができます。

AWSの方に直接お話を聞きましたが、AWS Glueを使用する際にはSpark UIの設定を有効にして使ってほしいとのことです。問い合わせを受ける側としてもイベントログがある方が詳細に調べることも解決までの時間短縮にもなるそうです。

Spark UIを有効にする

Spark History Serverを起動する前に、まずはSpark UIを有効にする手順からご説明します。今回はAWSコンソールからSpark UIの設定を有効にする方法を記載しますが、CloudFormationなどからでも可能です。

手順は非常に簡単で、まずログの出力先であるS3バケットを用意します。もちろん既存のバケットを使用することも可能ですが、専用に作っておいたほうが後の管理がしやすいでしょう。

S3にログの出力先であるバケットを用意したら、次にAWS Glueの方で設定を行います。ジョブの追加、或いは既存ジョブの編集から設定が可能で「モニタリングオプション」を開きSpark UIのチェックボックスにチェックを入れます。

すると、「Amazon S3 prefix for Spark event logs」とログの出力先パスを入力するテキストフィールドが現れます。ここに先程用意したS3のパスを入力し保存します。

たったこれだけでSpark UIを使用するための設定が完了です。

Spark History Serverを起動してみる

それではSpark History Serverを起動してみましょう。Spark History Serverを起動するにはDockerを使用します。

まず、指定のGitHubリポジトリからDockerイメージをクローンします。

$ git clone aws-samples/aws-glue-samples

1	$ git clone aws-samples/aws-glue-samples

次に特定のディレクトリへ移動し、以下のようにビルドを行います。

$ cd aws-glue-samples/utilities/Spark_UI/glue-1_0-2_0
$ docker build -t glue/sparkui:latest .

1 2	$ cd aws-glue-samples/utilities/Spark_UI/glue-1_0-2_0 $ docker build -t glue/sparkui:latest .

ビルドが終わったらコンテナを起動します。ログディレクトリ（-Dspark.history.fs.logDirectory）には先程用意したS3のパスを指定し、アクセスキー（-Dspark.hadoop.fs.s3a.access.key）、シークレットキー（-Dspark.hadoop.fs.s3a.secret.key）にはS3へのリード権限がアタッチされたものを使用します。

$ docker run -itd -e SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.history.fs.logDirectory=s3a://path_to_eventlog -Dspark.hadoop.fs.s3a.access.key=AWS_ACCESS_KEY_ID -Dspark.hadoop.fs.s3a.secret.key=AWS_SECRET_ACCESS_KEY" -p 18080:18080 glue/sparkui:latest "/opt/spark/bin/spark-class org.apache.spark.deploy.history.HistoryServer"

$ docker run -itd -e SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.history.fs.logDirectory=s3a://path_to_eventlog -Dspark.hadoop.fs.s3a.access.key=AWS_ACCESS_KEY_ID -Dspark.hadoop.fs.s3a.secret.key=AWS_SECRET_ACCESS_KEY" -p 18080:18080 glue/sparkui:latest "/opt/spark/bin/spark-class org.apache.spark.deploy.history.HistoryServer"

エラー無くコマンドが実行されればバックグラウンドでコンテナが起動しブラウザでSpark History Serverを閲覧することができます。

Spark History Serverを見てみる

それでは先程Dockerで立ち上げたコンテナをブラウザから覗いてみましょう。

コンテナが起動したらブラウザを開きアドレスバーに http://localhost:18080/ と入力しアクセスします。

アクセスするとトップページと他Jobs,Stages,Storage,Environment,Executors,SQLなどのメニューが表示されます。更に公式ではStructured Streaming,Streaming,JDBC/ODBC Serverなどのタブについても説明がありますが、本記事ではJobs,Stages,Storage,Environment,Executorsまでを紹介しています。