Gå til innhold

Anbefalte innlegg

Videoannonse
Annonse

Problemer med å sende "gamle" jobber til server på / fra flere klienter. Blir bare liggende i queue og hindrer klienten fra henting av neste WU. Måtte stoppe og starte klienten for at den skulle hente ny WU. Er det noe man kan gjøre for å manuelt få sendt disse av gårde.

 

Klipp fra loggen:

Klikk for å se/fjerne spoilerteksten nedenfor
[

[19:17:42] Completed 100%

[19:17:42] Successful run

[19:17:42] DynamicWrapper: Finished Work Unit: sleep=10000

[19:17:52] Reserved 101256 bytes for xtc file; Cosm status=0

[19:17:52] Allocated 101256 bytes for xtc file

[19:17:52] - Reading up to 101256 from "work/wudata_03.xtc": Read 101256

[19:17:52] Read 101256 bytes from xtc file; available packet space=786329208

[19:17:52] xtc file hash check passed.

[19:17:52] Reserved 30216 30216 786329208 bytes for arc file=<work/wudata_03.trr> Cosm status=0

[19:17:52] Allocated 30216 bytes for arc file

[19:17:52] - Reading up to 30216 from "work/wudata_03.trr": Read 30216

[19:17:52] Read 30216 bytes from arc file; available packet space=786298992

[19:17:52] trr file hash check passed.

[19:17:52] Allocated 560 bytes for edr file

[19:17:52] Read bedfile

[19:17:52] edr file hash check passed.

[19:17:52] Logfile not read.

[19:17:52] GuardedRun: success in DynamicWrapper

[19:17:52] GuardedRun: done

[19:17:52] Run: GuardedRun completed.

[19:17:53] + Opened results file

[19:17:53] - Writing 132544 bytes of core data to disk...

[19:17:53] Done: 132032 -> 131540 (compressed to 99.6 percent)

[19:17:53] ... Done.

[19:17:53] DeleteFrameFiles: successfully deleted file=work/wudata_03.ckp

[19:17:53] Shutting down core

[19:17:53]

[19:17:53] Folding@home Core Shutdown: FINISHED_UNIT

[19:17:56] CoreStatus = 64 (100)

[19:17:56] Sending work to server

[19:17:56] Project: 10105 (Run 339, Clone 2, Gen 7)

 

 

[19:17:56] + Attempting to send results [February 18 19:17:56 UTC]

[19:17:58] + Results successfully sent

[19:17:58] Thank you for your contribution to Folding@Home.

[19:17:58] + Number of Units Completed: 644

[19:18:02] Project: 5781 (Run 35, Clone 799, Gen 2)

[19:18:02] + Attempting to send results [February 18 19:18:02 UTC]

[19:18:05] - Couldn't send HTTP request to server

[19:18:05] + Could not connect to Work Server (results)

[19:18:05] (171.67.108.21:8080)

[19:18:05] + Retrying using alternative port

[19:18:26] - Couldn't send HTTP request to server

[19:18:26] + Could not connect to Work Server (results)

[19:18:26] (171.67.108.21:80)

[19:18:26] - Error: Could not transmit unit 00 (completed February 17) to work server.

[19:18:26] + Attempting to send results [February 18 19:18:26 UTC]

 

Folding@Home Client Shutdown. (stopper klienten manuelt etter at den har stått i ro i 11 - 12 minutter)

 

--- Opening Log file [February 18 19:31:16 UTC]

 

 

# Windows GPU Console Edition #################################################

###############################################################################

 

Folding@Home Client Version 6.23

 

http://folding.stanford.edu

 

###############################################################################

###############################################################################

 

Launch directory: C:\Users\alias\AppData\Roaming\Folding@home-gpu

Arguments: -gpu 0

 

[19:31:16] - Ask before connecting: No

[19:31:16] - User name: -alias- (Team 37651)

[19:31:16] - User ID: 48CD83B90AB00D38

[19:31:16] - Machine ID: 2

[19:31:16]

[19:31:16] Loaded queue successfully.

[19:31:16] Initialization complete

[19:31:16] - Preparing to get new work unit...

[19:31:16] + Attempting to get work packet

[19:31:16] - Connecting to assignment server

[19:31:16] Project: 5781 (Run 35, Clone 799, Gen 2)

 

 

[19:31:16] + Attempting to send results [February 18 19:31:16 UTC]

[19:31:17] - Successful: assigned to (171.67.108.21).

[19:31:17] + News From Folding@Home: Welcome to Folding@Home

[19:31:18] Loaded queue successfully.

[19:31:19] - Couldn't send HTTP request to server

[19:31:19] + Could not connect to Work Server (results)

[19:31:19] (171.67.108.21:8080)

[19:31:19] + Retrying using alternative port

[19:31:20] + Closed connections

[19:31:20]

[19:31:20] + Processing work unit

[19:31:20] Core required: FahCore_11.exe

[19:31:20] Core found.

[19:31:20] Working on queue slot 04 [February 18 19:31:20 UTC]

[19:31:20] + Working ...

[19:31:20]

[19:31:20] *------------------------------*

[19:31:20] Folding@Home GPU Core

[19:31:20] Version 1.31 (Tue Sep 15 10:57:42 PDT 2009)

[19:31:20]

[19:31:20] Compiler : Microsoft ® 32-bit C/C++ Optimizing Compiler Version 14.00.50727.762 for 80x86

[19:31:20] Build host: amoeba

[19:31:20] Board Type: Nvidia

[19:31:20] Core :

[19:31:20] Preparing to commence simulation

[19:31:20] - Looking at optimizations...

[19:31:20] DeleteFrameFiles: successfully deleted file=work/wudata_04.ckp

[19:31:20] - Created dyn

[19:31:20] - Files status OK

[19:31:20] - Expanded 65033 -> 343707 (decompressed 528.5 percent)

[19:31:20] Called DecompressByteArray: compressed_data_size=65033 data_size=343707, decompressed_data_size=343707 diff=0

[19:31:20] - Digital signature verified

[19:31:20]

[19:31:20] Project: 5783 (Run 9, Clone 25, Gen 34)

[19:31:20]

[19:31:20] Assembly optimizations on if available.

[19:31:20] Entering M.D.

[19:31:26] Tpr hash work/wudata_04.tpr: 1719789653 2396973480 518698221 3059268540 1488225099

[19:31:26]

[19:31:26] Calling fah_main args: 14 usage=100

[19:31:26]

[19:31:27] Working on GROwing Monsters And Cloning Shrimps

[19:31:28] Client config found, loading data.

[19:31:28] Starting GUI Server

[19:31:40] - Couldn't send HTTP request to server

[19:31:40] + Could not connect to Work Server (results)

[19:31:40] (171.67.108.21:80)

[19:31:40] - Error: Could not transmit unit 00 (completed February 17) to work server.

 

 

[19:31:40] + Attempting to send results [February 18 19:31:40 UTC]

[19:32:01] - Couldn't send HTTP request to server

[19:32:01] + Could not connect to Work Server (results)

[19:32:01] (171.67.108.26:8080)

[19:32:01] + Retrying using alternative port

[19:32:01] - Couldn't send HTTP request to server

[19:32:01] (Got status 503)

[19:32:01] + Could not connect to Work Server (results)

[19:32:01] (171.67.108.26:80)

[19:32:01] Could not transmit unit 00 to Collection server; keeping in queue.

[19:32:01] Project: 5781 (Run 35, Clone 799, Gen 2)

 

 

[19:32:01] + Attempting to send results [February 18 19:32:01 UTC]

[19:32:03] - Couldn't send HTTP request to server

[19:32:03] + Could not connect to Work Server (results)

[19:32:03] (171.67.108.21:8080)

[19:32:03] + Retrying using alternative port

[19:32:25] - Couldn't send HTTP request to server

[19:32:25] + Could not connect to Work Server (results)

[19:32:25] (171.67.108.21:80)

[19:32:25] - Error: Could not transmit unit 00 (completed February 17) to work server.

 

 

[19:32:25] + Attempting to send results [February 18 19:32:25 UTC]

[19:32:46] - Couldn't send HTTP request to server

[19:32:46] + Could not connect to Work Server (results)

[19:32:46] (171.67.108.26:8080)

[19:32:46] + Retrying using alternative port

[19:32:46] - Couldn't send HTTP request to server

[19:32:46] + Could not connect to Work Server (results)

[19:32:46] (171.67.108.26:80)

[19:32:46] Could not transmit unit 00 to Collection server; keeping in queue.

[19:33:43] Completed 1%

[19:35:58] Completed 2%

[19:38:14] Completed 3%

[19:40:29] Completed 4%

[19:42:45] Completed 5%

[19:45:01] Completed 6%

[19:47:18] Completed 7%

[19:49:35] Completed 8%

Endret av -alias-
Lenke til kommentar

kjør programmet med -send all parameteren. -send kan også brukes til å sende ne spesifik WU i køen. Da bruker man unit-nummeret i stede for all.

 

Jeg ville først kjørt en qfix for å se om uniten er ødelagt/prøvd å fikse den. Hvis den avviker (feks qfix finner forskjellig prosjektidentifikasjon i queue.dat og WU-filene, så kan det hende at det er derfor du ikke får levert den inn. Men det kan hende at qfix kan rette opp i noe av det og at du kan få fult/delvis credit for wuen selvom det har feilet.

 

Så: føst

klient.exe -send all

For å se om den klarer å sende inn da.

 

Hvis ikke den sender inn så:

qfix.exe (last ned windows-varianten og kjør den fra cmd-prompt

 

Se hva qfix sier om køen.

 

Prøv en gang til

 

klient.exe -send all (eller -send 0)

 

Hvis den fortsatt ikke sender så er det lettest å slette den.

 

 

klient.exe -delete 0

 

 

Edit: obs!Obs! avslutt eventuelle klienter som kjører mot dette arbeidsområdet før du starter programmet med -send eller -delete eller kjører qfix

Endret av Xell
Lenke til kommentar
Taxman: Litt forvirrende for meg hva du folder med. Kjører du 1 gpu klient og 1 eller flere linux vm'er med 1 eller flere cpu klienter i hver?

 

Ikke rart du er forvirret - i og med at størsteparten av foldingen går på hoved bruks pc'n så har jeg variabelt system.

 

Jeg har alltid en slik "standard" klient gående uavhengiv av hva jeg gjør.

Når jeg bruker pc'n til andre ting enn spilling så starter jeg i tillegg gpu folding. Og når jeg sover/er på jobb eller pc'n av andre årsaker er ubrukt starter jeg 2 vm linux'er i tillegg til gpu og "standard" klienten.

 

Jeg har da :

GPU folding 1 cpu

Standard klient 1 cpu

VM linux - 4 cpu

VM linux 2 - 2 cpu

Totalt delt ut 8 cpu'er dvs alle thread'sene.

Med dette oppsettet så ligger total cpu belastning mellom 85-95% avhengig av hvilken core de jobber med.

Lenke til kommentar
Hvis det er taskmanager du bruker til å se hvor mye gpuprosessen bruker så burde du slå på en "en graf pr cpu" da er det lettere å se om gpu holder seg til en core eller hopper mellom forskjellige cores, men fortsatt aldri bruker mer enn en core.

Jeg har 1 pr cpu. Den tar ikke og makser en cpu, den tar litt av 3-4 stk, men totalt aldri over 12-13%. Skulle jo tro at den prosenten gikk ned når jeg klokket opp, men neida, den lå akkurat på samme prosent men tiden pr % utført falt med 30%.

Lenke til kommentar

Tror nok at det kan komme av at temperatur økning i CPU medfører systemcrash grunnet watchdogtimere o.l. før selve CPUen tar skade av temperaturen. Til sammenlikning vil økte temperaturer i RAM kun medføre feil i data og dermed få lov til å pågå lenger før systemet går ned.

 

En av de tingene som bekymrer meg med dagens systemer er at det i dag er mye mer knyttet mot ACPI. Systemet skal nedskalere når det ikke brukes og nedskalere når det blir for varmt. Det er fintg men har medført at man har kuttet ut den rene "kutt grunnet høy temp". Når man kjører FaH er ikke dette programmet kravstort nok til å ungå nedskalering gjennom ACPI, så man ender opp med å slå av denne. Dermed har man ingen failsafe igjen for høy temperatur i systemet.

 

I alle fall er det det jeg har observert (og savnet) på de systemene jeg har som støtter ACPI.

Endret av Xell
Lenke til kommentar

Kjør qfix og se om Project/Clone/Run/generation stemmer mellom queue.dat og wu-filene. Jeg hadde det samme problemet med et par pakker og da kan det se ut som om wu-filene har blitt korrupte.

 

Di vil qfix gi ut noe slikt:

entry 1, status 2, address 171.67.108.21:8080

Found results <work/wuresults_01.dat>: proj 12708, run 0, clone 33955, gen 19026

-- queue entry: proj 5781, run 12, clone 720, gen 3

-- doesn't match queue entry

 

Den PRCG som står i køen er den IDen du faktisk har mottat, men når du prøver å levere pakka er det PRCGen som står i wuresults som sendes til WS. Og denne PRCG eksisterer, inlysende nok, ikke.

 

Hvis du stadig vekk får korrupte WUer (til tross for at de fullføres) så er det noe som ikke er stabilt på maskina di.

 

Men det er også viden kjent at de har hatt store problemer med WorkServeren for Nivdiapakkene, så feilen kan også være knyttet til det. Det jobbes hart med fix, så det kan hende at problemet ditt snart går over. Gjør det ikke det, så burde du kutte ut den klienten som feiler. PG er tjent med at man prøver å kjøre på ustabile oppsett.

Endret av Xell
Lenke til kommentar

Hvordan blir det med strømprisene nå, 14kr kwt nå , men det hjelper jo ikke å spare i dag siden vi sender inn måleverdi pr 3 mnd.

Dvs det bare vil øke gjennomsnittet? At strømmen vi bruker på 90 dager blir litt dyrere pr kwt?

 

Så koster strøm 0,40øre pr kwt i 89 dager og regningen ligger på 3000kr så kan den koste 14kr kwt siste dagen og øke hele gjennomsnittet så regningen blir på 12000kr selv om man ikke brukte strøm siste dagen med høy pris?

Lenke til kommentar

Kjør qfix og se om Project/Clone/Run/generation stemmer mellom queue.dat og wu-filene. Jeg hadde det samme problemet med et par pakker og da kan det se ut som om wu-filene har blitt korrupte.

Takker for utfyllende og grundig svar. Jeg resatte klienten og den hentet ned ny WU og nå har den ikke lenger noe liggende i queue, og såvidt jeg kan se så ble den forrige sendt en gang i løpet av natta. Ihvertfall har den sluttet å mase om saken. Jeg antar at feilen likevel har vært på serveren og ikke hos meg. Har heller ikke hatt lignende problemer med andre klienter siden i går kveld.

Lenke til kommentar

Den overlevde og sto i folding inntil jeg trappet ned. Det eneste av hardware i den riggen som ikke klarte seg såvidt jeg husker var 4 minnebrikker som ble ustabile og måtte kasseres.

Jeg har akkurat skiftet minne på en PC og det passet kanskje bra fordi den noen ganger stoppet uforklarlig, jeg skal teste det minnet som ble tatt ut ved neste anledning. Men foreløbig går iallfall denne bra med nytt minne. Kan det tenkes at minnefeil fører til stans uten noen logmeldinger og ingen blåskjerm?

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...