Opened 14 years ago
Closed 13 years ago
#35 closed defect (fixed)
Pb reproductibilité résultats newtoniens en mixte MPI/OpenMP
Reported by: | Ehouarn Millour | Owned by: | yann meurdesoif |
---|---|---|---|
Priority: | major | Milestone: | |
Component: | Parallelisation | Keywords: | |
Cc: |
Description (last modified by )
Problème constaté sur Vargas avec la révision [1531]. Pour une résolution 240x240x19 , des runs "identiques" de 500 jours, qui ont tournés sur 32 procs et 4 taches OMP, donnent des résultats différents... Les historiques (1 sortie tous les 10 jours...) montrent que les simulations donnaient des résultats identiques au moins sur les 30 premiers jours. Une troisième simulation reste identique à la première sur au moins 80 jours, puis commence à différer.
Quelques tests (en cours...) ne montrent pour l'instant pas ce problème en MPI pur ou OMP pur (mais avec de résolutions et durées de simulations plus modérées).
Fichiers *.def utilisés joint à ce ticket.
Attachments (4)
Change History (12)
Changed 14 years ago by
Changed 14 years ago by
Changed 14 years ago by
Attachment: | planet.def added |
---|
Changed 14 years ago by
Attachment: | traceur.def added |
---|
comment:1 Changed 14 years ago by
Description: | modified (diff) |
---|
comment:2 Changed 14 years ago by
Owner: | changed from meurdesoif to yann meurdesoif |
---|---|
Status: | new → assigned |
comment:3 Changed 14 years ago by
Status: | assigned → accepted |
---|
comment:4 Changed 14 years ago by
comment:5 Changed 14 years ago by
Pas besoin de fichiers de démarrage, c'est du Newtonien qui part de rien. Et la compil s'est faite en mode prod:
makelmdz_fcm -arch PW6_VARGAS -parallel mpi_omp -d 240x240x19 -p nophys gcm
Remarques complémentaires:
- J'ai poursuivi mes tests en relançant 7 fois cette même simu. Dans trois cas j'obtiens les mêmes résultats (fichiers restart.nc finaux binairement identiques), mais les quatre autres sont différents (des précédents et les uns des autres).
- J'ai également tenté ce test en résolution réduite (120x120x19) : sur les cinq simulations, seule une diffère...
EM
comment:6 Changed 13 years ago by
Replying to emillour:
Problème constaté sur Vargas avec la révision [1531]. Pour une résolution 240x240x19 , des runs "identiques" de 500 jours, qui ont tournés sur 32 procs et 4 taches OMP, donnent des résultats différents... Les historiques (1 sortie tous les 10 jours...) montrent que les simulations donnaient des résultats identiques au moins sur les 30 premiers jours. Une troisième simulation reste identique à la première sur au moins 80 jours, puis commence à différer.
Quelques tests (en cours...) ne montrent pour l'instant pas ce problème en MPI pur ou OMP pur (mais avec de résolutions et durées de simulations plus modérées).
Fichiers *.def utilisés joint à ce ticket.
Il manquait une barrière dans la fonction d'exner. Dans quelques rares cas on obtient une erreur de l'ordre de 10e-12 en relatif uniquement au pôle nord ou sud. L'erreur se propage ensuite classiquement. C'est corrigé dans la révision [1557]. Je n'ai pas retesté sur le newtonien, mais ça devrait faire l'affaire à moins qu'il y ait un autre problème. Tu peux relancer tes tests et me tenir au courant ?
See you in September et bonnes vacances !
yann
comment:7 Changed 13 years ago by
Bien vu!
J'ai relancé mes tests avec la révision [1557]: les 18 runs tests de 500 jours en résolution 240x240x19, en tournant sur 32 ou 64 procs avec 4 ou 8 taches OMP, donnent tous des résultats identiques.
Je pense qu'on peut dire que c'est réglé et fermer le ticket.
A plus et bonnes vacances :)
Ehouarn
comment:8 Changed 13 years ago by
Resolution: | → fixed |
---|---|
Status: | accepted → closed |
Il n'y a pas des évidences sur des cas tests moins long, car c'est pratiquement impossible de trouver des divergences probablement non reproductibles sur des durées aussi longues.
Quelles sont les options de compilation et les paramètres exacts(ligne makelmdz_fcm). Quels sont les fichiers de démarrage ?
YM