-
Notifications
You must be signed in to change notification settings - Fork 9
Description
Bonjour,
J'ai un petit cas séquentiel qui nous sert simplement à vérifier le branchement de mola avec Fast, et ce que je n'arrive pas à comprendre c'est qu'il a un comportement aléatoire, parfois il arrive à la fin du calcul (5 itérations), parfois il plante dès l'itération 0 en avertissant qu'il a des NaN.
Pour essayer d'isoler le problème, j'ai totalement débranché mola au niveau des scripts.
J'ai créé un script qui lance en boucle le cas, en affichant les succès (le calcul arrive à la fin) ou échec (le calcul présente des NaN).
Par exemple, à partir du cas (mon home)/Tickets/FAST/test_compressor_example_local/ld_ko_multiple_runs, on peut le copier dans un répertoire local p. ex. cp ld_ko_multiple_runs ld_test, et puis on lance python3 launch_multiple_times.py. On voit que les résultats ne sont pas reproductibles, par exemple à la première rafale on a :
FINAL COUNT: success=1 fail=9
donc 1 cas a fonctionné, et 9 ont échoué.
Si on relance encore une rafale python3 launch_multiple_times.py, on a 10 fail et aucun success.
Si on lance sur juno on a 10 sucess et aucun fail, mais si on le lance en job SLURM dans la queue test du CI alors ça plante de façon aléatoire.
Quand le calcul plante, on a ceci dans la sortie standard :
Running compute_nomola.py with Nprocs=1 and Nthreads=1
Reading main.cgns (bin_hdf)...done.
Reading tc.cgns (bin_hdf)...done.
inititer=1 niter=5
Info: typezones: 3D curvilinear, 100.00% (7/7)
Warning: NAN or INF value in Density (Rotor_Blade_skin)
Warning: NAN or INF value in Density (Rotor_Blade_upStream)
Warning: NAN or INF value in Density (Rotor_Blade_up)
Warning: NAN or INF value in Density (Rotor_Blade_down)
Warning: NAN or INF value in Density (Rotor_Blade_inlet)
Warning: NAN or INF value in Density (Rotor_Blade_downStream)
Warning: NAN or INF value in Density (Rotor_Blade_outlet)
et ceci dans la sortie erreur:
--------------------------------------------------------------------------
Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:
Process name: [[1943,1],0]
Exit code: 1
--------------------------------------------------------------------------
mais parfois on a la même sortie erreur que dans #87 .
Quand le calcul passe, on a ceci dans la sortie standard:
Running compute_nomola.py with Nprocs=1 and Nthreads=1
Reading main.cgns (bin_hdf)...done.
Reading tc.cgns (bin_hdf)...done.
inititer=1 niter=5
Info: typezones: 3D curvilinear, 100.00% (7/7)
Info: using layer trans=c (ompmode=0)
et du coup rien dans la sortie d'erreur.
Pour écarter un problème spécifique à ma machine ou mon compte, d'autres utilisateurs ont reproduit le problème avec un comportement similaire.
Je n'ai pas trop d'idées d'où ça peut venir, merci d'avance de votre aide.
Luis