[Gelöst] Ungeplante Fhem-Neustarts

Begonnen von Gisbert, 10 September 2022, 15:07:46

Vorheriges Thema - Nächstes Thema

frank

Sep  9 01:00:00 HPT610 kernel: [2030065.219487] traps: perl[781100] trap stack segment ip:55e7a0d578e4 sp:7ffea21be1b0 error:0 in perl[55e7a0d1d000+185000]
Sep  9 01:00:00 HPT610 systemd[1]: fhem.service: Main process exited, code=killed, status=7/BUS

die uhrzeit ist doch sicherlich kein zufall.
was macht dein fhem nachts punkt 01:00:00 uhr?
FHEM: 6.0(SVN) => Pi3(buster)
IO: CUL433|CUL868|HMLAN|HMUSB2|HMUART
CUL_HM: CC-TC|CC-VD|SEC-SD|SEC-SC|SEC-RHS|Sw1PBU-FM|Sw1-FM|Dim1TPBU-FM|Dim1T-FM|ES-PMSw1-Pl
IT: ITZ500|ITT1500|ITR1500|GRR3500
WebUI [HMdeviceTools.js (hm.js)]: https://forum.fhem.de/index.php/topic,106959.0.html

Gisbert

Hallo Frank,

um kurz nach Mitternacht habe ich ein at-Device, welches eine Tagesstatistik macht, aber nicht um 01:00:00.
Die Fhemabstürze finden ganz sicher nicht immer um 01:00:00 statt - das muss hier ein Zufall sein.

Viele Grüße Gisbert
Aktuelles FHEM | PROXMOX | Fujitsu Futro S740 | Debian 12 | UniFi | Homematic, VCCU, HMUART | ESP8266 | ATtiny85 | Wasser-, Stromzähler | Wlan-Kamera | SIGNALduino, Flamingo Rauchmelder FA21/22RF | RHASSPY

Gisbert

Hallo Frank,
hallo Wernieman,

$ sudo wdctl
Device:        /dev/watchdog0
Identity:      SP5100 TCO timer [version 0]
Timeout:       60 seconds
Pre-timeout:    0 seconds
Timeleft:      60 seconds
FLAG           DESCRIPTION               STATUS BOOT-STATUS
KEEPALIVEPING  Keep alive ping reply          1           0
MAGICCLOSE     Supports magic close char      0           0
SETTIMEOUT     Set timeout (in seconds)       0           0


Was bedeutet das, ist es sinnvoll und wenn nicht, wie kann es weggemacht werden?

Viele Grüße Gisbert
Aktuelles FHEM | PROXMOX | Fujitsu Futro S740 | Debian 12 | UniFi | Homematic, VCCU, HMUART | ESP8266 | ATtiny85 | Wasser-, Stromzähler | Wlan-Kamera | SIGNALduino, Flamingo Rauchmelder FA21/22RF | RHASSPY

Gisbert

Hallo zusammen,

heute Nacht wurde Fhem exakt um 04:00:00 gestoppt - diesmal glaube ich nicht mehr an einen Zufall.
Ich frage etliche Wetterseiten ab, und da ist ein Stundentakt auch dabei.
Wie kann ich denn herausfinden, an welchem Device oder Modul es liegt, dass Fhem neu startet?

Freezemon gibt zur fraglichen Zeit keine Meldung raus.

Sep 14 04:00:00 HPT610 kernel: [258561.538355] show_signal: 1 callbacks suppressed
Sep 14 04:00:00 HPT610 kernel: [258561.538369] traps: perl[1017] trap stack segment ip:55707e38d8e4 sp:7ffc029ddf30 error:0 in perl[55707e353000+185000]
Sep 14 04:00:00 HPT610 systemd[1]: fhem.service: Main process exited, code=killed, status=7/BUS
Sep 14 04:00:01 HPT610 CRON[151595]: (root) CMD (   PATH="$PATH:/usr/sbin:/usr/local/bin/" pihole updatechecker local)
Sep 14 04:01:30 HPT610 systemd[1]: fhem.service: State 'stop-sigterm' timed out. Killing.
Sep 14 04:01:30 HPT610 systemd[1]: fhem.service: Killing process 130120 (perl) with signal SIGKILL.
Sep 14 04:01:30 HPT610 systemd[1]: fhem.service: Failed with result 'signal'.
Sep 14 04:01:30 HPT610 systemd[1]: fhem.service: Consumed 10h 2min 45.936s CPU time.
Sep 14 04:01:30 HPT610 systemd[1]: fhem.service: Scheduled restart job, restart counter is at 1.
Sep 14 04:01:30 HPT610 systemd[1]: Stopped FHEM Home Automation.
Sep 14 04:01:30 HPT610 systemd[1]: fhem.service: Consumed 10h 2min 45.936s CPU time.
Sep 14 04:01:30 HPT610 systemd[1]: Starting FHEM Home Automation...
Sep 14 04:01:32 HPT610 systemd[1]: Started FHEM Home Automation.


Gibt es noch eine Meinung zu dem watchdog aus dem vorherigen Thread?

Viele Grüße Gisbert
Aktuelles FHEM | PROXMOX | Fujitsu Futro S740 | Debian 12 | UniFi | Homematic, VCCU, HMUART | ESP8266 | ATtiny85 | Wasser-, Stromzähler | Wlan-Kamera | SIGNALduino, Flamingo Rauchmelder FA21/22RF | RHASSPY

Wernieman

Was sagt den das FHEM-Log zu dem Zeitpunkt?
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

Beta-User

Habe mal nach dem Fehler gesucht. Weiß nicht, ob das paßt, aber unlogisch klingt es nicht:
Zitaterror:0 means dividing by zero (if your application works on x86 architecture): https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/tree/arch/x86/include/asm/traps.h#n148

Da scheint also irgendeines deiner genau zu jeder Stunde ausgelösten Devices - gelegentlich! - irgendwas komisches zu machen. Normalerweise müßte dazu auch was im FHEM-log stehen. Ansonsten kann man nur versuchen, den (möglichen) Verursacher dadurch zu identifizieren, dass man alle anderen ausschaltet (oder ein Parallel-System aufbaut, dass dann jeweils nur einen enthält).
Server: HP-elitedesk@Debian 12, aktuelles FHEM@ConfigDB | CUL_HM (VCCU) | MQTT2: MiLight@ESP-GW, BT@OpenMQTTGw | MySensors: seriell, v.a. 2.3.1@RS485 | ZWave | ZigBee@deCONZ | SIGNALduino | MapleCUN | RHASSPY
svn: u.a MySensors, Weekday-&RandomTimer, Twilight,  div. attrTemplate-files

frank

bei httpmod oder at gibt es das attribut aligntime.
damit wird die stündliche startzeit mit einer bestimmten uhrzeit verknüpft.

setzte beim ersten device zb 00:00:07
beim nächsten 00:00:13 usw...
FHEM: 6.0(SVN) => Pi3(buster)
IO: CUL433|CUL868|HMLAN|HMUSB2|HMUART
CUL_HM: CC-TC|CC-VD|SEC-SD|SEC-SC|SEC-RHS|Sw1PBU-FM|Sw1-FM|Dim1TPBU-FM|Dim1T-FM|ES-PMSw1-Pl
IT: ITZ500|ITT1500|ITR1500|GRR3500
WebUI [HMdeviceTools.js (hm.js)]: https://forum.fhem.de/index.php/topic,106959.0.html

rudolfkoenig

ZitatSep 14 04:00:00 HPT610 systemd[1]: fhem.service: Main process exited, code=killed, status=7/BUS
BUS ERROR bedeutet entweder einen Hardware Fehler (unwahrscheinlich) oder Software Fehler im perl Binary oder einer der verwendeten Bibliotheken.
Es ist kein Fehler, was man (perfektes perl vorausgesetzt) mit perl Anweisungen in FHEM Code ausloesen kann.
Eine der moeglichen Loesungen ist die perl Zeilen zu finden, die das Problem ausloesen, und dann einen Workaround programmieren, das ist aber relativ aufwendig.
Ich wuerde vorher andere perl Versionen ausprobieren, z.Bsp. ueber perlbrew, da es mAn einfacher ist.
Auch wenn die Moeglichkeit besteht, dass alle getesteten perl Versionen den Fehler beinhalten.

Wernieman

Was mir dabei spontan einfällt ... es ist doch ein Pi, auf dem das FHEM läuft?

SDCard-Problem?
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

Beta-User

Es ist afaik ein Thin Client (HP T610), und vermutlich noch mit buster/Perl 5.28.1?
Server: HP-elitedesk@Debian 12, aktuelles FHEM@ConfigDB | CUL_HM (VCCU) | MQTT2: MiLight@ESP-GW, BT@OpenMQTTGw | MySensors: seriell, v.a. 2.3.1@RS485 | ZWave | ZigBee@deCONZ | SIGNALduino | MapleCUN | RHASSPY
svn: u.a MySensors, Weekday-&RandomTimer, Twilight,  div. attrTemplate-files

Wernieman

Ich nehme mein Pi Gedanken zurück  ;)

Trotzdem könnte man beei solchen "lokalen" Problemen über ein Perl reinstall nachdenken. Nicht das dieses Perl-Binary einen "Hack" weg hat ,,,,
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

Gisbert

Hallo zusammen,

vielen Dank für eure zahlreichen Antworten.

Hier noch einige Ergänzungen:

Im Fhemlog steht nichts Erhellendes:
2022.09.14 03:50:21.704 3:  [Freezemon] myFreezemon: possible freeze starting at 03:50:20, delay is 1.697 possibly caused by: tmr-CODE(0x5570855d2800)(GetUpdate)
2022.09.14 03:51:08.026 2:  Received 1 values for radiation
2022.09.14 04:01:32.373 1:  Including fhem.cfg


HTTPMOD und at starte ich mit aligntime, so dass ich die alle schön zeitlich separieren kann.

Der Rechner ist ein HP T610 ThinClient mit 4 GB RAM. Ich hab die Perl-Version 5.32.1.

Ich hab cpan installiert. Falls ein Perl reinstall sinnvoll sein sollte, wie mach ich das?
ZitatIch wuerde vorher andere perl Versionen ausprobieren, z.Bsp. ueber perlbrew, da es mAn einfacher ist.
Bin nicht erfahren in diesen Dingen, brauche evtl. Unterstützung dabei.

Viele Grüße Gisbert
Aktuelles FHEM | PROXMOX | Fujitsu Futro S740 | Debian 12 | UniFi | Homematic, VCCU, HMUART | ESP8266 | ATtiny85 | Wasser-, Stromzähler | Wlan-Kamera | SIGNALduino, Flamingo Rauchmelder FA21/22RF | RHASSPY

Wernieman

ZitatIch hab cpan installiert. Falls ein Perl reinstall sinnvoll sein sollte, wie mach ich das?
.....
Bin nicht erfahren in diesen Dingen, brauche evtl. Unterstützung dabei.

Sorry, aber ich Wüste nicht, wie ich Dir das Erklären sollte .... hat jemand eine bessere Idee?
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

frank

#43
perlbrew: wie wär es hiermit, habe es selbst nie probiert.
https://forum.fhem.de/index.php/topic,84372.msg861586.html#msg861586

edit:
@gisbert, könnte der spuk mit perl 5.32.1 begonnen haben?
FHEM: 6.0(SVN) => Pi3(buster)
IO: CUL433|CUL868|HMLAN|HMUSB2|HMUART
CUL_HM: CC-TC|CC-VD|SEC-SD|SEC-SC|SEC-RHS|Sw1PBU-FM|Sw1-FM|Dim1TPBU-FM|Dim1T-FM|ES-PMSw1-Pl
IT: ITZ500|ITT1500|ITR1500|GRR3500
WebUI [HMdeviceTools.js (hm.js)]: https://forum.fhem.de/index.php/topic,106959.0.html

Gisbert

Zitat von: frank am 14 September 2022, 12:28:04
perlbrew: wie wär es hiermit, habe es selbst nie probiert.
https://forum.fhem.de/index.php/topic,84372.msg861586.html#msg861586

edit:
@gisbert, könnte der spuk mit perl 5.32.1 begonnen haben?

Hallo Frank,

ich kann leider nicht sagen, wann ich welche Perl-Version hatte, aber die in gewissen Abständen stattfindenden Fhem-Neustarts hab ich schon sehr lange.

Viele Grüße Gisbert
Aktuelles FHEM | PROXMOX | Fujitsu Futro S740 | Debian 12 | UniFi | Homematic, VCCU, HMUART | ESP8266 | ATtiny85 | Wasser-, Stromzähler | Wlan-Kamera | SIGNALduino, Flamingo Rauchmelder FA21/22RF | RHASSPY