Opened 13 years ago

Closed 13 years ago

#35 closed defect (fixed)

Pb reproductibilité résultats newtoniens en mixte MPI/OpenMP

Reported by: Ehouarn Millour Owned by: yann meurdesoif
Priority: major Milestone:
Component: Parallelisation Keywords:
Cc:

Description (last modified by Ehouarn Millour)

Problème constaté sur Vargas avec la révision [1531]. Pour une résolution 240x240x19 , des runs "identiques" de 500 jours, qui ont tournés sur 32 procs et 4 taches OMP, donnent des résultats différents... Les historiques (1 sortie tous les 10 jours...) montrent que les simulations donnaient des résultats identiques au moins sur les 30 premiers jours. Une troisième simulation reste identique à la première sur au moins 80 jours, puis commence à différer.

Quelques tests (en cours...) ne montrent pour l'instant pas ce problème en MPI pur ou OMP pur (mais avec de résolutions et durées de simulations plus modérées).

Fichiers *.def utilisés joint à ce ticket.

Attachments (4)

run.def (837 bytes) - added by Ehouarn Millour 13 years ago.
gcm.def (1.5 KB) - added by Ehouarn Millour 13 years ago.
planet.def (92 bytes) - added by Ehouarn Millour 13 years ago.
traceur.def (22 bytes) - added by Ehouarn Millour 13 years ago.

Download all attachments as: .zip

Change History (12)

Changed 13 years ago by Ehouarn Millour

Attachment: run.def added

Changed 13 years ago by Ehouarn Millour

Attachment: gcm.def added

Changed 13 years ago by Ehouarn Millour

Attachment: planet.def added

Changed 13 years ago by Ehouarn Millour

Attachment: traceur.def added

comment:1 Changed 13 years ago by Ehouarn Millour

Description: modified (diff)

comment:2 Changed 13 years ago by yann meurdesoif

Owner: changed from meurdesoif to yann meurdesoif
Status: newassigned

comment:3 Changed 13 years ago by yann meurdesoif

Status: assignedaccepted

comment:4 Changed 13 years ago by yann meurdesoif

Il n'y a pas des évidences sur des cas tests moins long, car c'est pratiquement impossible de trouver des divergences probablement non reproductibles sur des durées aussi longues.

Quelles sont les options de compilation et les paramètres exacts(ligne makelmdz_fcm). Quels sont les fichiers de démarrage ?

YM

comment:5 Changed 13 years ago by Ehouarn Millour

Pas besoin de fichiers de démarrage, c'est du Newtonien qui part de rien. Et la compil s'est faite en mode prod:

makelmdz_fcm -arch PW6_VARGAS -parallel mpi_omp -d 240x240x19 -p nophys gcm

Remarques complémentaires:

  • J'ai poursuivi mes tests en relançant 7 fois cette même simu. Dans trois cas j'obtiens les mêmes résultats (fichiers restart.nc finaux binairement identiques), mais les quatre autres sont différents (des précédents et les uns des autres).
  • J'ai également tenté ce test en résolution réduite (120x120x19) : sur les cinq simulations, seule une diffère...

EM

Last edited 13 years ago by Ehouarn Millour (previous) (diff)

comment:6 in reply to:  description Changed 13 years ago by yann meurdesoif

Replying to emillour:

Problème constaté sur Vargas avec la révision [1531]. Pour une résolution 240x240x19 , des runs "identiques" de 500 jours, qui ont tournés sur 32 procs et 4 taches OMP, donnent des résultats différents... Les historiques (1 sortie tous les 10 jours...) montrent que les simulations donnaient des résultats identiques au moins sur les 30 premiers jours. Une troisième simulation reste identique à la première sur au moins 80 jours, puis commence à différer.

Quelques tests (en cours...) ne montrent pour l'instant pas ce problème en MPI pur ou OMP pur (mais avec de résolutions et durées de simulations plus modérées).

Fichiers *.def utilisés joint à ce ticket.

Il manquait une barrière dans la fonction d'exner. Dans quelques rares cas on obtient une erreur de l'ordre de 10e-12 en relatif uniquement au pôle nord ou sud. L'erreur se propage ensuite classiquement. C'est corrigé dans la révision [1557]. Je n'ai pas retesté sur le newtonien, mais ça devrait faire l'affaire à moins qu'il y ait un autre problème. Tu peux relancer tes tests et me tenir au courant ?

See you in September et bonnes vacances !

yann

comment:7 Changed 13 years ago by Ehouarn Millour

Bien vu!

J'ai relancé mes tests avec la révision [1557]: les 18 runs tests de 500 jours en résolution 240x240x19, en tournant sur 32 ou 64 procs avec 4 ou 8 taches OMP, donnent tous des résultats identiques.

Je pense qu'on peut dire que c'est réglé et fermer le ticket.

A plus et bonnes vacances :)

Ehouarn

comment:8 Changed 13 years ago by Ehouarn Millour

Resolution: fixed
Status: acceptedclosed
Note: See TracTickets for help on using tickets.