pgbenchを使ったPostgreSQLの性能検証

執筆者

和田智行

更新日：2022.12.23

目次

pgbenchとは
1. 注意
2. 導入方法
使ってみる
トランザクションを発行して負荷をかけてみる
独自スクリプトの利用
まとめ

とある案件でAuroraのデータベースエンジンにPostgreSQLを採用することになり、思ったようにパフォーマンスが出ないといった事態に陥りました。

その際に簡単にPostgreSQLの性能検証が出来るものはないかと探したところpgbenchなるものを発見。

今回は、そのpgbenchについて簡単にまとめてみたいと思います。

実行環境

マシン	Macbook Pro
OS	Catalina 10.15.6
プロセッサ	2.3 GHz デュアルコアIntel Core i5
メモリ	16GB
psql (PostgreSQL)	12.4
pgbench (PostgreSQL)	12.4

pgbenchとは

pgbenchとはPostgreSQLに同梱されているベンチマークツールです。 pgbenchを使うと、PostgreSQLの性能を数値で把握することができます。また他のツールとの掛け合わせで検証結果を可視化することも可能です。

注意

pgbenchは厳密な意味でのベンチマークツールではないとのことです。TPCなどで「公式」に認められているような性能測定を行う目的には向いていないみたいなので、その点についてはご注意ください。

しかし「公式に認められているような性能測定」を必要としない場合においては、導入コストの低さ、機能も豊富でpgbench自体の性能も高いです。簡単かつ高い精度でPostgreSQLの性能検証を行いたい場合にはオススメのツールと言えます。

導入方法

MacであればPostgreSQLをインストールする際にbrew install PostgreSQLとかすると思いますがPostgreSQLに同梱されているため一緒にインスールされます。便利！

環境によってはmake installが必要な場合もあるみたいですが、ここでは割愛します。

使ってみる

pgbenchを使う際は、検証用のデータベースを作っておくと良いです。実際に使っているデータベースを用いて性能を見ることも出来ますが、ここではtest_dbという名前のデータベースがあるという前提で進めていきます。

初期化

はじめに、ベンチマークデータを初期化する必要があります。以下のコマンドを実行します。

$ pgbench -i -s 100 -U ****** -h ******.******.ap-northeast-1.rds.amazonaws.com -d test_db

1	$ pgbench -i -s 100 -U **** -h **.****.ap-northeast-1.rds.amazonaws.com -d test_db

ここで使うオプションの意味を簡単に説明します。

i	初期化モードを呼び出すために必要です。
s	この倍率で生成される行数を積算します。例えば[-s 100]はpgbench_accountsテーブルに10,000,000行を生成することを意味します。デフォルトは1です。iオプションと一緒に使用します。
U	DBログインユーザ名
h	DBホスト名
d	デバッグの出力。データベースの指定ではありません。

Pオプションを指定するとパスワードを予め指定して実行することが出来ますが、psコマンドなどで見られる可能性がありセキュリティホールとなる場合があるため、推奨されません。

上記コマンドを実行するとtest_dbのpublicスキーマの中に以下4つのテーブルが出来ていることが確認できます。

pgbench_accounts
pgbench_branched
pgbench_history
pgbench_tellers

-s 100を指定したことにより pgbench_accountsテーブルには10,000,000レコードが入っていると思います。

この時、既に同じ名前のテーブルが存在している場合、既存のものは削除されてしまうためご注意ください。

ベンチマークの実行

$ pgbench -c 10 -t 1000 -U ****** -h ******.******.ap-northeast-1.rds.amazonaws.com -d test_db

transaction type: 
scaling factor: 1
query mode: simple
number of clients: 10
number of threads: 1
number of transactions per client: 1000
number of transactions actually processed: 10000/10000
latency average = 216.785 ms
tps = 46.128758 (including connections establishing)
tps = 46.422427 (excluding connections establishing)

$ pgbench -c 10 -t 1000 -U ****** -h ******.******.ap-northeast-1.rds.amazonaws.com -d test_db

transaction type:

scaling factor: 1

query mode: simple

number of clients: 10

number of threads: 1

number of transactions per client: 1000

number of transactions actually processed: 10000/10000

latency average = 216.785 ms

tps = 46.128758 (including connections establishing)

tps = 46.422427 (excluding connections establishing)

コマンドに使用したオプション「-c」は同時接続数（コネクション数）を指定しています。
つまり、今回のベンチマークでは同時に10本のコネクションがPostgreSQLに張られることを想定しています。 10人のユーザが、とあるサイトに同時にアクセスするような環境をシミュレートしたということですね。

続いて、オプション「-t」は各接続が実行するトランザクションの数を指定しています。
1000を指定していますので、「10人のユーザが1000回ずつ、とあるサイトに同時にアクセスした」というような負荷のかけ方を再現しています。

ベンチマーク結果の見方

scaling factor: 1

1	scaling factor: 1

データサイズの規模を示すスケーリングファクタです。
ここの数字が大きければ大きいほどデータサイズが大きいことになります。

query mode: simple

1	query mode: simple

問い合わせ方法を示しています。
simpleとなっていますのでpsqlなどが利用している標準の方法で問い合わせたことがわかります。この他にも拡張プロトコルなどを使った問い合わせ方法もあります。

number of clients: 10

1	number of clients: 10

上述にあるオプション「-c」の数となります。
実行時に10を指定したので同時接続が10であったことを示しています。

number of threads: 1

1	number of threads: 1

実行時に作成されるスレッド数を示しています。
オプション「-j」または「–jobs」で指定することが可能です。

number of transactions per client: 1000

1	number of transactions per client: 1000

上述にあるオプション「-t」の数となります。
実行時に1000を指定したので1クライアントあたり1000回のトランザクションを実行したことを示しています。

number of transactions actually processed: 10000/10000

1	number of transactions actually processed: 10000/10000

トランザクションが正常に実行された割合を示しています。
クライアント数10*トランザクション数1000=10000回となります。

latency average = 216.785 ms

1	latency average = 216.785 ms

1トランザクションの実行時間を示しています。pgbench9.5以前では表示されず9.6以降から実装されたものになります。

tps = 46.128758 (including connections establishing)
tps = 46.422427 (excluding connections establishing)

1 2	tps = 46.128758 (including connections establishing) tps = 46.422427 (excluding connections establishing)

Transactions Per Secondの略称。
前者は接続確立にかかった時間も考慮した実行トランザクション数を示しています。後者は接続確立にかかった時間を考慮しない実行トランザクション数を示しています。

トランザクションを発行して負荷をかけてみる

デフォルトのトランザクションスクリプトは、1トランザクションで以下の7コマンドを発行します。

BEGIN;

UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid;

SELECT abalance FROM pgbench_accounts WHERE aid = :aid;

UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid;

UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid;

INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP);

END;

BEGIN;

UPDATE pgbench_accounts SET abalance = abalance + :delta WHERE aid = :aid;

SELECT abalance FROM pgbench_accounts WHERE aid = :aid;

UPDATE pgbench_tellers SET tbalance = tbalance + :delta WHERE tid = :tid;

UPDATE pgbench_branches SET bbalance = bbalance + :delta WHERE bid = :bid;

INSERT INTO pgbench_history (tid, bid, aid, delta, mtime) VALUES (:tid, :bid, :aid, :delta, CURRENT_TIMESTAMP);

END;

オプション-Nを指定した場合、第4、第5コマンドはトランザクションに含まれず、-Sを指定するとSELECTのみが発行されます。

引用元： PostgreSQL 9.2.4文書 pgbench

独自スクリプトの利用

前述の様なデフォルトのトランザクションを発行しても意味が無いとは言いませんが、やはり実際のシステムの性能を測るためには現実に即したトランザクションを発行して性能を確かめておきたいものです。

pgbenchには利用者が用意した任意のSQLをトランザクションとして発行することが可能です。
具体的には実際に発行したいSQLを「任意の名前.pgbench」の形式でファイル保存し以下のように「-f」オプションを付けコマンドを実行します。

$ pgbench -c 10 -t 1000 -f sample.pgbench -U ****** -h ******.******.ap-northeast-1.rds.amazonaws.com -d test_db

1	$ pgbench -c 10 -t 1000 -f sample.pgbench -U **** -h **.****.ap-northeast-1.rds.amazonaws.com -d test_db

こうすることにより標準のデフォルトトランザクションではなくファイルに書かれたSQL文が実行されます。自前のSQLを発行することになるため予めデータベースや各種テーブルを用意しておく必要があります。

まとめ

導入から実践までを簡単にご紹介しましたが如何だったでしょうか？データベースの検証はいくつか方法がありますが、pgbenchを使うと簡単に性能検証をすることが出来ます。

データベースサーバのチューニングや、実際に発行されるクエリのチューニング結果をすぐに性能検証でき、数値化されるところがいいですね。

また本記事では割愛しましたがgnuplotなどの他のプログラムと組み合わせるとグラフとして可視化することも出来ます。うまく使えば、ボトルネックになりがちなデータベースのパフォーマンスを最大限引き出すことも出来るはずなので是非使ってみてください。

参考記事

2010年08月PLAN-B中途入社。社内基幹システムの開発・運用を担当し、その後、BtoC向け新規サービス立ち上げのプロジェクトリーダーとして開発に従事。自社プロダクトのバックエンド開発を経験した後、現在は受託チームとして開発を担当している。データベースが好きな1児のパパ。

DOWNLOAD

無料資料ダウンロードはこちら

CONTACT

お問い合わせはこちら

pgbenchを使ったPostgreSQLの性能検証

pgbenchとは

注意

導入方法

使ってみる

初期化

ベンチマークの実行

ベンチマーク結果の見方

トランザクションを発行して負荷をかけてみる

独自スクリプトの利用

まとめ

和田智行

Aurora Serverlessを実際に使ってみたメリットとデメリット

AWSマネージドデータベースとは？利点と気をつけたいことまとめ

PySparkでDataframeを操作する

今更だけど、データ圧縮についてまとめてみたい

UMLとは？｜ダイアグラムの種類や用途について解説

誰でも簡単に自然言語処理ができるfastTextとは？「Mac」-「Apple」+「Microsoft」= ？言葉の足し算できますか？

Aurora Serverlessを実際に使ってみたメリットとデメリット

プロダクト開発における「Core/Why/What/How」に沿って考え、振り返って得た学び

目次

pgbenchを使ったPostgreSQLの性能検証

pgbenchとは

注意

導入方法

使ってみる

初期化

ベンチマークの実行

ベンチマーク結果の見方

トランザクションを発行して負荷をかけてみる

独自スクリプトの利用

まとめ

和田 智行

RELATED POSTS

Aurora Serverlessを実際に使ってみたメリットとデメリット

AWSマネージドデータベースとは？利点と気をつけたいことまとめ

PySparkでDataframeを操作する

今更だけど、データ圧縮についてまとめてみたい

UMLとは？｜ダイアグラムの種類や用途について解説

誰でも簡単に自然言語処理ができるfastTextとは？「Mac」-「Apple」+「Microsoft」= ？言葉の足し算できますか？

Aurora Serverlessを実際に使ってみたメリットとデメリット

プロダクト開発における「Core/Why/What/How」に沿って考え、振り返って得た学び

目次

和田智行