source: BOL/LMDZ_Setup/script_SIMU @ 5800

Last change on this file since 5800 was 5800, checked in by asima, 3 months ago

On 18/08/2025, the SLURM version changed on Adastra (from 23 to 24.05.8) -->
the "--overcommit" overcommit must be added to srun in order to avoid crashes for memory problems when using the binding script slurm_set_cpu_binding.sh.

Before :

@ADS srun --cpu-bind=none --mem-bind=none -- ./slurm_set_cpu_binding.sh ./gcm.e > listing

After :

@ADS srun --overcommit --cpu-bind=none --mem-bind=none -- ./slurm_set_cpu_binding.sh ./gcm.e > listing

This solution is preffered to the initial fix :

@ADS srun --cpu-bind=cores -c $nthreads -n $ntasks ./gcm.e > listing

because without the binding script, the runtime passes from 50 min to 90 min for 1 year of simulation with the standard LMDZ_Setup config.

File size: 13.2 KB
Line 
1#!/bin/bash
2## Headers managed by sed
3#@JZ#JeanZay
4#@JZ#SBATCH --job-name=NOM_SIMU         # nom du job
5#@JZ# Nombre de processus MPI :
6#@JZ#SBATCH --ntasks=8
7#@JZ##### number of MPI processes per node : 40(procs/node on Jean-Zay) / cpus-per-task (ex : =5 for 8 OMP)
8#@JZ####SBATCH --ntasks-per-node=5    # if specified, also add "#SBATCH --nodes= ..."  with nodes=ntasks/(ntasks-per-node)
9#@JZ# nombre de threads OpenMP
10#@JZ#SBATCH --cpus-per-task=8
11#@JZ# de Slurm "multithread" fait bien reference a l'hyperthreading.
12#@JZ#SBATCH --hint=nomultithread       # 1 thread par coeur physique (pas d'hyperthreading)
13#@JZ#SBATCH --time=00:30:00            # Temps d execution maximum demande (HH:MM:SS)
14#@JZ#SBATCH --output=outNOM_SIMU%j     # Nom du fichier de sortie
15#@JZ#SBATCH --error=outNOM_SIMU%j      # Nom du fichier d'erreur (ici commun avec la sortie)
16#@JZ# To submit to test queue ; "time" (above) must be max 30 min
17#@JZ#TESTQ#SBATCH --qos=qos_cpu-dev
18#@SP#Spirit
19#@SP#SBATCH --job-name=NOM_SIMU
20#@SP#SBATCH --ntasks=8
21#@SP#SBATCH --cpus-per-task=8
22#@SP#SBATCH --time=00:30:00
23#@SP#SBATCH --output=outNOM_SIMU%j
24#@SP#SBATCH --error=outNOM_SIMU%j
25#@ADS#Adastra
26#@ADS#SBATCH --job-name=NOM_SIMU
27#@ADS#SBATCH --ntasks=8
28#@ADS#SBATCH --cpus-per-task=8
29#@ADS#SBATCH --ntasks-per-node=8
30#@ADS#SBATCH --time=00:30:00
31#@ADS#SBATCH --output=outNOM_SIMU%j
32#@ADS#SBATCH --error=outNOM_SIMU%j
33#@ADS#SBATCH --exclusive
34
35set -eux
36
37# Number of MPI processes :
38ntasks=8
39# number of OpenMP threads
40nthreads=8
41export OMP_NUM_THREADS=$nthreads
42#@JZ#export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK  # For Jean-Zay (replacing the next 3 lines, commented out)
43# private memory for each thread
44export OMP_STACKSIZE=800M
45
46
47#@JZ#export OMP_PLACES=cores  # "binding" present in old script_SIMU, but terribly reduces performance on Spirit...
48ulimit -s unlimited
49#@SP ulimit -Ss 8192
50
51simul=NOM_SIMU
52
53reseau_local=0
54#veget=y
55veget=CMIP6
56if [[ $veget = "none" ]] ; then VEGET=n ; else VEGET=y ; fi
57
58isotopes=n
59# If isotopes=y, initialisation_iso will be changed to 0 in iso.def after the 1st run period, to read isotopes in restart files
60
61# Choice of aerosols : n / clim / spla
62aerosols=clim
63stopsim=201101
64ok_guide=y   # y/n guidage ou non
65climato=1
66
67echo '##############################################################'
68echo '# Gestion des repertoires de lancement                                 '
69echo '##############################################################'
70
71# Repertoires de la simulation
72SCRATCHD=$SCRATCH
73STORED=$STORE
74MAINDIR=LMDZOR96x95x79
75SIMU_dir=$MAINDIR/$simul
76SIMUDIR=$STORED/$SIMU_dir
77
78# Repertoires de travail
79WWORKD=$SCRATCHD/$simul$$
80if [[ -d $WWORKD ]]; then  # useful when running on local computer, where jobs aren't submitted
81  #rm -rf "$WWORKD"
82  mv $WWORKD $WWORKD$$
83fi
84mkdir -p $WWORKD
85cd $WWORKD
86SCRIPTDIR=$SCRATCHD
87
88cp "$STORED/$MAINDIR/lmdz_env.sh" .; . lmdz_env.sh
89cp "$STORED/$MAINDIR/slurm_set_cpu_binding.sh" .
90
91ERADIR=$STORED/$MAINDIR/GUIDE
92if [ "$aerosols" = "spla" ] ; then ERA10mDIR=$STORED/$MAINDIR/ERA10m ; fi
93LIMITDIR=$STORED/$MAINDIR/LIMIT
94DEFDIR=$SIMUDIR/DEF
95
96GET='ln -s'
97PUT='mv '
98
99
100echo '##################################################################'
101echo 'Gestion des mois et annees'
102echo '##################################################################'
103
104$GET $SIMUDIR/etat
105year=`tail -1 etat | awk ' { print $1 } ' | cut -c1-4`
106month=`tail -1 etat | awk ' { print $1 } ' | cut -c5-`
107echo year $year month $month
108
109if [ "$month" = "" ] ; then
110   paran=1
111   ym=$year
112   next=`expr $ym + 1`
113else
114   paran=0
115   if [ $month = 12 ] ; then
116      nextmonth=1
117      nextyear=`expr $year + 1`
118   else
119      nextmonth=`expr $month + 1`
120      nextyear=$year
121   fi
122   if [ `echo $nextmonth | wc -m` = 2  ] ; then
123      nextmonth=0$nextmonth
124   fi
125   ym=$year$month
126   next=$nextyear$nextmonth
127fi
128
129
130echo ym $ym
131echo mois ancien  : $ym
132echo mois nouveau : $next
133
134echo '#################################################################'
135echo 'Modification de run.def et gcm.def pour prendre en compte la duree du'
136echo 'du mois en question.'
137echo 'le dayref est modifie pour tricher avec le calendrier (ecrit pour'
138echo 'une annee de 260 jours dans le modele).'
139echo 'On passe donc comme jour de reference le numero du jour du mois dans'
140echo 'une annee en 360 jours.'
141echo '#################################################################'
142
143# Choix du calendrier
144#AS: La condition if "$climato" = "0" suffit, car "$ok_guide" = "y" est interdit avec $climato" = "1" dans setup.sh (exit ligne 160)
145##calend=earth_360d
146##if [ "$ok_guide" = "y" -o "$climato" = "0" ] ; then calend=gregorian ; fi
147if [ "$climato" = "0" ] ; then calend=gregorian ; else calend=earth_360d ; fi
148bisextile=0
149if [[ $(( year % 4 )) = 0 && $calend = gregorian ]] ; then bisextile=1 ; fi
150if [ $paran = 0 ] ; then
151   if [ "$calend" = "gregorian" ] ; then
152      ndays=( 31 28 31 30 31 30 31 31 30 31 30 31 )
153      if [ $bisextile = 1 ] ; then ndays[1]=29 ; fi
154   else
155      ndays=( 30 30 30 30 30 30 30 30 30 30 30 30 )
156   fi
157   #Constants with a leading 0 are interpreted as octal numbers.
158   # You can remove the leading zero by parameter expansion: hour=${hour#0}
159
160   nday=${ndays[(( ${month#0} - 1 ))]}
161   ndayh=$nday
162   dayref=1 ; mm=1 ; while [ $mm -lt ${month#0} ] ; do
163    (( dayref = $dayref + ${ndays[(( $mm - 1 ))]} )) ; (( mm = $mm + 1 )) ; done
164else
165   dayref=1
166   if [ "$calend" = "gregorian" ] ; then
167      if [ $bisextile = 0 ] ; then nday=365 ; else nday=366 ; fi
168   else
169      nday=360 ; ndayh=30
170      # nday=3 ; ndayh=1 # Pratique pour des tests rapides
171   fi
172fi
173
174echo CALENDRIER $calend : longueur du mois vrai $year $month $nday dayref=$dayref
175
176
177echo '####################################################################'
178echo '# On va chercher les fichiers necessaires a la simulation'
179echo '####################################################################'
180#Reminder : we are in $WWORKD = $SCRATCHD/$SIMU_dir = $SCRATCHD/$MAINDIR/$simul
181
182echo DEFDIR $DEFDIR
183echo SIMUDIR $SIMUDIR
184echo simul $simul
185
186if [ $reseau_local = 0 ] ; then mkdir DEF ; cd DEF ; $GET $DEFDIR/* . ; cd .. ; fi
187
188cp -f DEF/* .
189
190# Forcing some parameters in run.def and config.def
191sed -e 's/nday=.*.$/nday='$nday'/' -e 's/dayref=.*.$/dayref='${dayref}'/' \
192    -e 's/anneeref=.*.$/anneeref='$year'/' DEF/run.def >| run.def
193sed -e 's/phys_out_filetimesteps=[[:space:]]*[0-9][0-9]day/phys_out_filetimesteps=  '$ndayh'day/'  DEF/config.def >| config.def
194
195${GET} $SIMUDIR/start.$ym.nc start.nc
196${GET} $SIMUDIR/startphy.$ym.nc startphy.nc
197if [ $climato = 1 ] ; then
198   ${GET} $LIMITDIR/limit.nc limit.nc
199else
200   ${GET} $LIMITDIR/limit.$year.nc limit.nc
201fi
202
203
204echo '####################################################################'
205echo '# Imports des fichiers aerosols si flag_aerosol>0 dans config.def, '
206echo '# et si dans setup.sh on a "aerosols=clim" ou "aerosols=spla". '
207echo '# NOTE: Si "aerosols=n" dans setup.sh, script_SIMU met flag_aerosol=0 et on tourne SANS aerosols' 
208echo '####################################################################'
209
210if [ "`grep 'flag_aerosol=' config.def | head -1 | cut -d= -f2`" != 0 ] ; then
211  if [ $aerosols = clim ] ; then
212    # if [ $climato = 1 ] ; then suf=clim ; else suf=$year ; fi
213    suf=clim # pas d'aerosols interannuels jusque là
214    ${GET} $LIMITDIR/aerosols.$suf.nc aerosols$year.nc
215    if [ ! -f aerosols1980.nc ] ; then
216       ${GET} $LIMITDIR/aerosols.$suf.nc aerosols1980.nc
217    fi
218    ${GET} $LIMITDIR/aerosols.nat.nc aerosols.nat.nc
219  fi
220
221  if [[ $aerosols = "spla" ]]; then
222    get_input_files ln_from_pub SPLA_WA/emissions
223    ln -s dust$month.nc dust.nc
224    for var in u10m v10m u v ; do
225        ln_from_pub 3DInputData/SPLA_WA/ERA5/$year/$month $var.nc
226    done
227    # Le calcul d'emissions de sels marins utilise les vents ERA-10m
228    # interpoles sur grille_s (lonv,latu) avec le script era2gcm_uv10m.sh
229    # NB : GET=ln -s ; ERA10mDIR contient lui-meme le lien ERA10m vers le
230    #le repertoire des vents interpoles $REA_uv10m (REA=ERA5, ERAI ou OPERA)
231
232  fi
233fi
234
235#--------------------------------------------------------------------------
236# Noveaux forcages a activer a l'avenir (commentes en attendant) :
237# climoz_LMDZ.nc solarforcing.nc taulwstrat.2D.nc tauswstrat.2D.nc ; do
238#--------------------------------------------------------------------------
239
240${GET} $SIMUDIR/gcm.e gcm.e ; chmod  +x gcm.e
241
242
243if [ $VEGET = y ] ; then
244
245    set +e ; for t in stomate sechiba ; do cp $SIMUDIR/start_$t.$ym.nc ${t}_rest_in.nc ; done ; set -e
246    #For Orchidee trunk (post-CMIP6), orchidee_pft.def must be copied
247    #   in addition to orchidee.def
248    \cp -f DEF/orchidee*.def .
249
250    # If no sechiba restart file, the restart files for sechiba, stomate,
251    # and routing are created on line, thus requiring Orchidee input files
252    if [ ! -f sechiba_rest_in.nc ] ; then
253
254       get_input_files ln_from_pub Orchidee # linking orchidee input files
255
256       ln -sf alb_bg_modisopt_2D_ESA_v2.nc alb_bg.nc
257       echo ATTENTION : ON UTILISE LES FICHIERS DE L ANNEE 2000
258       ln -s PFTmap_15PFT.v1_2000.nc PFTmap.nc
259       ln -s woodharvest_2000.nc woodharvest.nc
260       sed -e 's/^SECHIBA_restart_in.*./SECHIBA_restart_in=NONE/' \
261           -e 's/^STOMATE_RESTART_FILEIN.*./STOMATE_RESTART_FILEIN=NONE/' \
262           -i orchidee.def
263    fi
264
265    # Input files for routing are always needed
266    if [ "`grep RIVER_ROUTING orchidee.def |grep -i y`" ] ; then
267      set +e
268      ln_from_pub 3DInputData/Orchideee routing.nc
269      ln_from_pub 3DInputData/Orchideee routing_simple.nc
270      cp $SIMUDIR/start_routing.$ym.nc routing_start.nc
271      set -e
272    fi
273
274fi
275
276
277echo '#################################################################'
278echo    'Repertoire contenant les fichiers de reanalyses'
279echo '#################################################################'
280
281if [ "$ok_guide" = "y" ] ; then
282   \rm -f u.nc v.nc T.nc hur.nc
283   if [ -f u.nc ] ; then
284      echo PROBLEME D EFFACEMENT DES FICHIERS DE REANALYSES
285      exit 1
286   fi
287   for var in u v T hur ; do $GET $ERADIR/$year/$month/$var.nc $var.nc ; done
288   echo Fin du rapatriement des fichiers de guidage
289fi
290
291echo '##################################################################'
292echo    'liste des fichiers avant le lancement de la simulation'
293echo '##################################################################'
294ls -lrt
295#diff DEF ./
296
297echo '##################################################################'
298echo    'Lancement de la simulation'
299echo '##################################################################'
300
301#@ADS if 1; then
302if [ "$MPICMD" = "" ] ; then mpicmd= ; else mpicmd="$MPICMD $ntasks" ; fi 
303time $mpicmd ./gcm.e > listing
304#@ADS else
305#@ADS # 18/08/2025 : SLURM version changed from 23 to 24.05.8 -->  "--overcommit" added to srun, to avoid crashes for memory problems
306#@ADS srun --overcommit --cpu-bind=none --mem-bind=none -- ./slurm_set_cpu_binding.sh ./gcm.e > listing
307#@ADS fi
308
309if [ ! -f restartphy.nc ] ; then
310echo PROBLEME PAS DE FICHIER RESTARTPHY
311exit
312fi
313
314echo '##################################################################'
315echo     'sauvegarde des fichiers de sortie'
316echo '##################################################################'
317
318# listing
319${PUT} listing ${SIMUDIR}/list$ym
320# if the listing for Orchidee is also needed, then uncomment the following line :
321#if [ $VEGET = y ] ; then ${PUT} out_orchidee_0000.0000 ${SIMUDIR}/out_orchidee$ym ; fi
322
323# restart(s)
324${PUT} restart.nc ${SIMUDIR}/start.$next.nc
325${PUT} restartphy.nc ${SIMUDIR}/startphy.$next.nc
326if [ $VEGET = y ] ; then for t in sechiba stomate ; do
327    f=${t}_rest_out.nc ; if [ -f $f ] ; then ${PUT} $f ${SIMUDIR}/start_$t.$next.nc ; fi ; done 
328    f=routing_restart.nc ; if [ -f $f ] ; then ${PUT} $f ${SIMUDIR}/start_routing.$next.nc ; fi
329fi
330
331# fichiers "histoires"
332# Si on tourne avec xios (et type="one_file") au lieu de ioipsl, on n'a pas besoin de rebuild, on doit juste copier les fichiers
333liste_out="histmth histday histhf histmthCOSP Xhistins XhistLES sechiba_history sechiba_history_4dim sechiba_out_2 stomate_history stomate_ipcc_history diag_routing dynzon"
334xios_used=0
335
336for fileout in $liste_out ; do
337  if [ -f  $fileout.nc ] ; then 
338     ${PUT} $fileout.nc ${SIMUDIR}/$fileout.$ym.nc
339     xios_used=1
340  fi
341done
342
343if [ $xios_used = 0 ] ; then
344  $GET $SIMUDIR/reb.sh
345  chmod +x reb.sh
346  ./reb.sh $ym $SIMUDIR $liste_out
347fi
348
349if [ -f guide_ins.nc ] ; then ${PUT} guide_ins.nc ${SIMUDIR}/guide_ins.$ym.nc ; fi
350
351echo '##################################################################'
352echo     'preparation et lancement de la simulation suivante'
353echo '##################################################################'
354
355# Gestion du fichier etat de controle de la simulation
356echo $ym OK >> etat
357echo $next a faire >> etat
358# ${PUT} etat $SIMUDIR/etat # Pas necessaire car etat est un lien vers $SIMUDIR/etat
359
360# set initialisation_iso to 0 for next run to read isotopes from restart files
361if [ $isotopes = y ] ; then
362   sed -i 's/^initialisation_iso=.*.$/initialisation_iso=0/' $SIMUDIR/DEF/iso.def
363fi
364set +e ; \rm out* sta* list* rest* gcm.e aer* ; set -e
365
366# Arret si on est arrive au bout
367if [ $next =  $stopsim ] ; then
368   echo 'On arrive au bout, simulation next:'$next', stopsim:'$stopsim
369   exit 1
370fi
371
372echo '##################################################################'
373echo      'lancement de la simulation suivante tmp_'$simul' depuis :'
374echo '##################################################################'
375pwd
376cd $SCRIPTDIR
377submitcmd tmp_$simul
378#$SUBMITCMD tmp_$simul
Note: See TracBrowser for help on using the repository browser.