Cubietruck bleibt plötzlich öfters scheinbar grundlos stehen.

Begonnen von duke-f, 13 Juni 2016, 13:25:41

Vorheriges Thema - Nächstes Thema

Raven

Okay...ich hab mich durchgewühlt und inzwischen ist das fehlende HW Watchdog Modul im Kernel integriert.
Ich konnte den Watchdog entsprechend erweitern und zumindest fkt. jetzt nun der HW Watchdog, wenn ich ein Kernel panic provoziere.

Jetzt sollte ich künftig keine "Hänger" mehr haben...bzw. wird dann hoffentlich nach 20sec gebootet.
Cubietruck-Prod: HM-LAN, Heizung, Rolläden, Schalter, Viessmann (optolink)
Cubietruck-DEV:
Fritzbox 7490

duke-f

Ist wieder eine Weile her, aber diesmal ein gutes Zeichen: Mein Cubie läuft nun seit 43 Tagen durch, so lang wie lange nicht mehr. Ich hoffe, dass es so bleibt. Die letzte Maßnahme war: Den Governor rausschmeißen, der die Taktrate anpassen soll.

Fragt mich jetzt nicht, wie ich das gemacht habe - war mal eine Nacht-und-Nebel-Aktion zwischen Tür und Angel. Die Idee dazu kommt von einem Post von @Betateilchen, den ich aber jetzt auch leider nicht mehr finde.

Jetzt liegt meine Taktfrequenz praktisch immer bei konstant 720, steigt ganz selten mal peakartig auf 912. Das mach das System offensichtlich auch ohne Governor. Verdacht des Laien: Nicht nur die zu hohe Obergrenze spielt eine Rolle, es kommt auch darauf an einen nicht zu niedrigen Wert als Untergrenze zu definieren.
Cubietruck, 3 Raspberry Pis,
CUL868, RFXtrx433, CUL433, SCC868, HM-USB,
IRTrans, EZcontrol XS1, IguanaWorks USB IR Transceiver
ESPEasy, Fritz!Box, Samsung TV+BD, LMS, Squeezelite

Apollon77

Hey,

Ich leide seit einem knappen halben Jahr auch unter diesem Problem. Inzwischen habe ich raus das einige u-boot-Versionen größere Probleme machen als andere. Ein Thread dazu im Armbian Forum ist z.B. https://forum.armbian.com/index.php/topic/2866-cubietruck-freeze-after-1-3-days-with-523-xenial-uboot-problem/page-2#entry23396 .
Ich habe einen Cubie mit nem Wheezy da ist das aktuelle u-boot besser aber er hält so oder so max 10 Tage durch. Cubies mit Ubuntu Xenial laufen so 30-50 Tage bevor Sie einfach hängen bleiben.

Ich hab den Thread verfolgt und ich habe rausgelesen das CPU-Limitierung eine Lösung ist ... also wie im letzten Post auf 720 fest. Was sind andere Werte die bei Euch gehen?
Gibts andere Lösungen?

Raven


Ich hatte anfangs auch immer wieder mal Stillstand des gesamten Systems, aber nach den ganzen Maßnahmen (CPU Takt, Watchdog auf HW aktiviert) lief das System stabil.
Der Watchdog hatte evtl. 1 mal im Halbjahr gebootet.

Aber seit 3-4 Wochen habe ich alle 3-4 Tage Abstürze, d.h. der Cubietruck bleibt komplett stehen und auch der Watchdog greift nicht ein.
Keinne OS-Updates, keine Änderungen weder am Cubietruck noch Netzwerk durchgeführt.

Bei einigen Stillständen konnte ich den Logs sehen, daß kurz zuvor die CPU-Temp auf 45 Grad anstieg, obwohl keine erhöhte CPU-Last da war (die meisten Ausfällen nachts).
Ich vermute daher, daß der Cubie (steht im Keller -> 16 bis 18 Grad) einen thermischen Schaden hat, obwohl die 45 Grad nicht wirklich kritisch sein könnten.
Der Temperatur-Anstieg insbd. in der Nacht ist das einzige was mich verwunderte....

Gibt es hier irgendwelche Maßnahmen / Logs um noch weiter nach der Ursache zu analysieren?
Cubietruck-Prod: HM-LAN, Heizung, Rolläden, Schalter, Viessmann (optolink)
Cubietruck-DEV:
Fritzbox 7490

Wernieman

Du könntest einfach mal versuchen, den Cubi (ohne FHEM) an die Grenze fahren und gucken, ob er stabil läuft.

Gibt dazu ein nettes Linux-Programm namens "stress"
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

Raven

Danke Danke für den guten Hinweis. Gleich mehrfach auf der Prod und identischen UAT ausprobiert.

läuft durch: stress -c 10 -m 5 -i 5 -d 10 -t 100

Sowohl die Prod als auch UAT steigen aber bei 7 Memory Workern aus.
Teilw. greift der WatchDog ein und bootet und bei anderen Versuchen mit diesem Parameter -m 7 bringt das Stress Programm die Abbruch-Meldung.


Mmmmhhh..stress -c 10 -m 5 -i 5 -d 10 -t 100 und vor dem Hintergrund, daß beide CTs aussteigen
und bei den "Standard"-Konfiguration durchlaufen, lassen mich (als Laien) vermuten, daß die HW doch okay ist.
Die Harddisk hatte ich zuvor separat überprüft: OK

Zitat von: Wernieman am 22 Februar 2017, 08:11:28
Du könntest einfach mal versuchen, den Cubi (ohne FHEM) an die Grenze fahren und gucken, ob er stabil läuft.

Gibt dazu ein nettes Linux-Programm namens "stress"
Cubietruck-Prod: HM-LAN, Heizung, Rolläden, Schalter, Viessmann (optolink)
Cubietruck-DEV:
Fritzbox 7490

Wernieman

Meinst Du nicht, das bei einem Cubi mit (4?) Kernen dieses etwas zu heftig ist?
stress -c 10 -m 5 -i 5 -d 10 -t 100

Nehme mal weniger cpu/memory/io-Worker und lasse es dafür länger laufen.
Gut ist es, parralel sich die CPU-Temperatur anzusehen!
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

Raven

 :) Danke für den Hinweis. Ich wußte nicht wie hoch ich die Workers setzen sollte.

Daher drastisch reduziert und auf 1 gesetzt mit 800sec.
Und hier steigen sowowhl Prod als auch UAT aus.
ABER auf der UAT greift der Watchdog und bootet die Maschine und bei der Produktion passierte nichts und hing.
Die Temperatur gingen bei beiden knapp an die 50 Grad. Im regulären Betrieb hatte ich bis dato nicht so hohe CPU und Temperatur Werte.

Ich habe nun die Prod auf meinen Desaster-Recovery CubieTruck umgezogen (= Platine getauscht).
Ich kann mir nun den defekten(?) CT mal in Ruhe ansehen.

Nochmals Danke Danke!


Zitat von: Wernieman am 22 Februar 2017, 15:16:07
Meinst Du nicht, das bei einem Cubi mit (4?) Kernen dieses etwas zu heftig ist?
Cubietruck-Prod: HM-LAN, Heizung, Rolläden, Schalter, Viessmann (optolink)
Cubietruck-DEV:
Fritzbox 7490

Wernieman

Du könntest auch dedizierter Testen, also jeweils CPU/IO/VM getrennt. So könntest Du mehr das Problem "lokalisieren".

z.B:
stress -c 4 -t 100

Habe es hier mal testweise laufen lassen, habe aber auch, laut lscpu, 4 CPU Kerne.

Analog das gleiche für mem, io und disk
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

Raven

Zitat von: Wernieman am 23 Februar 2017, 08:10:02
Du könntest auch dedizierter Testen, also jeweils CPU/IO/VM getrennt. So könntest Du mehr das Problem "lokalisieren".

Analog das gleiche für mem, io und disk

Danke für den erneuten Hinweis! Das werde ich mir morgen i.d.T. vornehmen.
Jetzt wo der ehemalige (defekte?) PROD-CT ausgetauscht wurde, kann ich in Ruhe testen und das Problem einkreisen.
Cubietruck-Prod: HM-LAN, Heizung, Rolläden, Schalter, Viessmann (optolink)
Cubietruck-DEV:
Fritzbox 7490