クーの自由研究

マスターのかえるのクーは、弟子達の召喚術により新たな依り代を得てⅡ世として復活しました。

ISSUE CODE:[ Maple_syrup_cookie_01]CentOSからMPI実行を行う時、他ノード指定で実行エラーとなるインシデントの解決

ISSUE:Request:Resolving incidents that cause errors when MPI execution from CentOS

Hello, good evening.  I'm Karen Itonaka from the Support Station.
Hola buenas tardes.  Esta es Karen Itonaka de la Oficina de Apoyo.
Ciao, buona sera.  Sono Karen Itonaka del Support Bureau.
Bonjour, bonsoir.  Je suis Karen Itonaka du Bureau de soutien.

 Itonaka Karen .وأنا محطة دعم.مرحبا مساء الخير. اسمي

.שלום, ערב טוב. זו קארן איטונקה מלשכת התמיכה

こんにちわ、こんばんわ。支援局の井戸中 花蓮です。

 ここにどんなこと書く?ジョーク?画像で???関連検索?紡ぐはとそういう意味ね!Googleの画像/テキスト評価分類の敵対的性能確認のため???ロジャー!FAB!!

f:id:UriKaren:20200726011044p:plainf:id:AssistantOfKoo:20200726144744p:plainf:id:UriKaren:20200726120724p:plain

Status/Feedback

状態/饋還

[Close] / [BINGO! It's Solved. Thank you]

「閉じる」/ [解決しました。ありがとう。]


Environment

環境

CentOS: 8.2
Ubuntu: 20.4
MPI: intel MPI 2019 Update 7(2019.7.217)


Incident

事件

MPI execution case:

CentOS(Atropos2) > CentOS(Atropos) :NG
CentOS(Atropos2) > Ubuntu(Klotho) :NG
Ubuntu(Klotho) > CentOS(Atropos2) :OK
Ubuntu(Klotho) > Ubuntu(Klotho2) :OK

 The ssh public key is registered in both OSs, and you can ssh (login and execute commands) from CentOS and Ubuntu without a password.
When MPI is executed from CentOS, an error occurs after 3 to 5 minutes.

 ssh公開鍵は両方のOSに登録されており、CentOSおよびUbuntuからパスワードなしでssh(ログインしてコマンドを実行)できます。
CentOSからMPIを実行すると、3〜5分後にエラーが発生します。


Errors

エラー

CentOS(Atropos2) > CentOS(Atropos) :NG
----------------------
mpiexec -n 3 -host localhost python MPI_TEST01.py : -n 2 -host Atropos python MPI_TEST01.py
----------------------
[mpiexec@Atropos2] check_exit_codes (../../../../../src/pm/i_hydra/libhydra/demux/hydra_demux_poll.c:117): unable to run bstrap_proxy on Atropos (pid 16186, exit code 768)
[mpiexec@Atropos2] poll_for_event (../../../../../src/pm/i_hydra/libhydra/demux/hydra_demux_poll.c:159): check exit codes error
[mpiexec@Atropos2] HYD_dmx_poll_wait_for_proxy_event (../../../../../src/pm/i_hydra/libhydra/demux/hydra_demux_poll.c:212): poll for event error
[mpiexec@Atropos2] HYD_bstrap_setup (../../../../../src/pm/i_hydra/libhydra/bstrap/src/intel/i_hydra_bstrap.c:770): error waiting for event
[mpiexec@Atropos2] main (../../../../../src/pm/i_hydra/mpiexec/mpiexec.c:1956): error setting up the boostrap proxies
----------------------


Probable cause

推定原因

First, an error occurred while waiting for the first communication to bootstrap the partner node.

最初に、最初の通信が相手のノードをブートストラップするのを待っている間にエラーが発生しました。

The error code content is unknown because there is no source, but it seems to be a communication timeout error. must ... meybe.

ソースがないためエラーコードの内容は不明ですが、通信タイムアウトエラーのようです。たぶん...多分。

Secondly, it seems that there is a problem in the communication environment of the sending side CentoOS because the error does not occur in ubuntu in the same environment.
More specifically, some firewall may be working on CentOS.

第二に、同じ環境のubuntuではエラーが発生しないため、送信側CentoOSの通信環境に問題があるようです。
具体的には、一部のファイアウォールがCentOSで動作している可能性があります。

Since ssh public key authentication can be done in both directions, it is expected to be a barrier for the sender, not the well-known port.

ssh公開鍵認証は両方向で実行できるため、既知のポートではなく、送信者のバリアとなることが予想されます。

CentOS has 2+ FireWall systems in particular, and it is possible that the termination of one of them is incomplete. Alternatively or "iptables" may also be working. uum mey be...

特にCentOSには2つ以上のFireWallシステムがあり、そのうちの1つの終了が不完全である可能性があります。または、「iptables」も機能している場合があります。ええと...

There is only the description of "disable nftables" in the SSH setting procedure.
It seems necessary to open the firewalld port or disable it.

SSH設定手順には「nftablesを無効にする」の説明しかありません。
firewalldポートを開くか、無効にする必要があるようです。

Also, check the status of "iptables" and disable it if it's running.

また、「iptables」のステータスを確認し、実行されている場合は無効にします。

 The firewall can be turned off for experimental use or in specific environments, but in normal environments it should be tightly configured, you know.

 ファイアウォールは、実験的な使用や特定の環境でオフにすることができますが、通常の環境では、きちんと構成する必要があります。


Answer

回答

(1)Check the status of "firewalld", and if it is enabled, disable it.

(1)「firewalld」の状態を確認し、有効になっている場合は無効にしてください。

(2)Check the status of "iptables", and if it is valid, disable it.

(2)「iptables」の状態を確認し、有効であれば無効にします。

Of course with CentOS.

and also see below.

もちろんCentOSで。

また、以下も参照してください。


 ひとこと

If the problem persists, you may be missing some settings related to communication ports other than ssh.

問題が解決しない場合は、ssh以外の通信ポートに関連するいくつかの設定が不足している可能性があります。

In that case, please submit the packet monitor of the sending side and the receiving side to the support station.

その場合は、送信側と受信側のパケットモニターを支援局に提出してください。

 God bless you!

解決しますように。

蛇足(add unnecessary)までにIntelカスタマイズ前のソースは(wa)以下です。興味あればmpich-3.3.2.tar.gzを(wo)一式ダウンロードください。

mpiexec.c
hydra_bstrap.c
hydra_demux_poll.c

"boostrap" のタイポおんなじでウける~。 このメッセージあがれば全部MPICH系ですねwww