Raspi 3 hängt sich alle zwei bis drei Wochen auf

Begonnen von Dr. Boris Neubert, 27 August 2017, 13:05:15

Vorheriges Thema - Nächstes Thema

Patrik.S

Was bringt denn die Ausgabe von lsof?

sudo apt-get install lsof

Nach einem frischen Systemstart, wenn alles oben ist und läuft ein
lsof > lsof_fresh.txt
Einige Stunden oder Tage später nochmal einen Abzug machen
lsof > lsof_1TageSpaeter.txt
und die Anzahl der offenen Dateien vergleichen.
wc -l lsof_fresh.txt
wc -l lsof_xTageSpaeter.txt

Die Anzahl darf jetzt nicht explodieren.


Weitere Detailanalysen kann man dann wie hier beschrieben machen
https://www.ibm.com/developerworks/aix/library/au-lsof.html

Gibt es einen Prozess der aus der Reihe tanzt? Den dann genauer ansehen.

Ich hatte schon mal eine Software, die den TCP Stack aufgefressen hatte.
Es konnten keine weiteren neuen Verbindungen aufgebaut werden.
lsof | grep IPv4

Auch sehr beliebt, immer eine Datei öffnen, diese dann aber nicht schließen, weil man glaubt in der Programiersprache/Skript Spache muss man das nicht explizit machen und schon sammelt sich was an über die Tage, wenn es ein Dienst ist.

sku

#16
mir fällt auf, dass "gegen ende" die einträge zu avahi-daemon fehlen. zu beginn sind abwechselnd avahi-daemon und dhcpd einträge. meine erste vermutung währe, dass LAN abschmiert. kannst du einen monitor anschliessen und live mitschauen? zb "watch ifconfig"
ansonsten tippe ich auf vollen ram oder eine angeschlossene hw. oder der pi selbst, schon mal einen anderen versucht?
war bei / auf sd und hdd immer die selbe hw angeschlossen?

Patrik.S

Wieviele IP Adressen gedenkt dein RPi zu haben?
Ein ifconfig -a muss das nicht unbedingt anzeigen, daher gleich ein ip addr

Ich hatte mal eine statische IP vergeben, aber der DHCP Client war noch aktiv und der hat sich trotzdem irgendwann eine Fantasie IP geholt (woher auch immer, ein Router mit DHCP Server ist in dem Netz nicht vorhanden gewesen).

-----------------------

Mir ist das Zauberzeugs mit einem Lokalen Netz via avahi Suspekt, aber egal.
"Invalid response packet from host ...." --> Ist das zufällig ein Windows 10 Rechner und der war dann später nicht mehr an? (und darum fehlen dann die Einträge im Log?)

Seit 2014 gibt es einen Bugeintrag https://bugs.launchpad.net/ubuntu/+source/avahi/+bug/1342400 zu diesem Warning "Invalid response packet from host ...."
und erst letztes Jahr 2016 wurde nun endlich ein Fix eingebracht. Hauptsächlich Windows 10 Rechner erzeugen wohl diesen Eintrag.

Der avahi-daemon im Rasperian nutzt ja eine ältere Version 0.6.32-5 von 2015 http://metadata.ftp-master.debian.org/changelogs/main/a/avahi/avahi_0.6.31-5_changelog
Der RPi bräuchte also eine Version 0.6.32 oder 0.6.31-6 oder wie man die hier nummeriert.
Aber das behebt ja nicht dein Problem, sondern macht nur das Logfile sauberer und wir hätten nie gesehen das Du dein lokales Netz mit avahi aufspannst?!?


Bartimaus

Hallo,

auf meinem System habe ich gestern gemerkt (htop), das FHEM im RAM (970MB) 60% belegt hat. Zu diesem Zeitpunkt lief das Sytem 55 Tage ohne Probleme.

Als ich dann noch ein umfangreiches Logfile aufrufen wollte, um mir den RAM-Auslastungsverlauf anzuzeigen (sysmon), ist FHEM abgestürzt. Nach einem Neustart von FHEM war die RAM-Belegung durch FHEM bei 10%.

Hat jemand ähnliches beobachtet ?

Ich hatte ein ähnliches Problem wie der Threadersteller. Alle 3 Wochen hing sich das System komplett auf. Die LEDs blinkten lustig vor sich hin, aber der Rechner war noch nichtmal mehr per ping erreichbar.
Habe dann den Banana komplett neu und "sauber" aufgesetzt, seitdem ToiToiToi. Sollte sich das System aufhängen, aktiviert sich der HardwareWatchdog und startet den Rechner komplett neu.
LG
B.


FHEM@Intel-J4105@Debian-LXC, CUL1101,FS20,IT,DS18B20,DS2413(Heizungslogger),DS2423(Stromlogger)Homematic,HM-LAN,ZWave,MiniCULs,Shelly

sku

#19
das habe ich auch schon länger beobachtet, aber erst 1-2 mal auswirkungen gemerkt. ich jetzt mal meine zabbix statistiken angeschaut, screenshots im anhang.
wenn der freie ram wieder oben ist, wurde neu gestartet (komplettes OS oder nur fhem)
in htop geht auch die ram belegung von fhem rauf, es ist also nichts anderes schuld am aussehen der screenshots.

ursachenforschung hab ich mal betrieben als ich auswirkungen gemerkt hab, damals wurde ein bash script oft aufgerufen und nicht beendet, die prozesse waren in htop zu sehen. das war aber nur damals der fall, jetzt sind keine unüblichen prozesse mehr zu sehen.

Wernieman

Da waähre es gut zu wissen, welche Module Du verwendest .. sieht mir nach einem heftigen MemoryLeak aus ..
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

sku

ich habe eben alle 3 fhems upgedated, damit sie am selben stand sind. eine kurze suche nach memory leak ergab, dass einer presence verdächtigte. ich verwende auf allen 3 instanzen presence mit SNMP abfrage, habe jetzt testweise am rasp3 die presence devices deaktiviert (mit attr disable 1).

ich will aber den thread nicht für memoryleaks missbrauchen, sollen wir das thema wo anders weiter verfolgen?

ich vermute, fheminfo ist der richtige befehl? hier die ergebnisse:

vm_fhem:
System Info
ConfigType: configFile
SVN rev: 14980
OS: linux
Perl: 5.20.2
uniqueId: ...

Modules Model Count
AMADCommBridge 1
AMADDevice 1
Astro 1
CALVIEW 1
Calendar 1
DbLog
MYSQL 2
DbRep 1
FHEM2FHEM 3
FHEMWEB 1
FileLog 45
GEOFANCY 1
HOMEMODE 1
HTTPSRV 3
HourCounter 1
NUT 1
PRESENCE
function 4
RESIDENTS 1
RFHEM 3
ROOMMATE 2
RSS 2
SVG 21
SYSMON 1
TRAFFIC 2
Twilight 1
UWZ 1
WOL 1
Weather 1
Wunderground 1
XBMC 1
allowed 2
at 3
autocreate 1
cloneDummy 18
dewpoint 1
dummy 30
gcmsend 2
notify 19
readingsGroup 7
remotecontrol 3
telnet 1
watchdog 2
webViewControl 1
weblink 10



rasp1:
System Info
ConfigType: configFile
SVN rev: 14980
OS: linux
Perl: 5.20.2
uniqueId: ...

Modules Model Count
FHEM2FHEM 2
FHEMWEB 1
FileLog 1
PRESENCE
function 2
RESIDENTS 1
RFHEM 2
ROOMMATE 2
SYSMON 1
Twilight 1
WOL 1
Weather 1
allowed 2
autocreate 1
dewpoint 1
dummy 7
eventTypes 1
harmony 9
notify 17
readingsGroup 1
telnet 1
watchdog 2
weblink 3


rasp3:
System Info
ConfigType: configFile
SVN rev: 14980
OS: linux
Perl: 5.20.2
uniqueId: 77e...

Modules Model Count
CALVIEW 1
CUL_HM
HM-ES-PMSw1-Pl 1
ActionDetector 1
HM-TC-IT-WM-W-EU 4
CCU-FHEM 1
HM-CC-RT-DN 4
Calendar 1
DbLog
MYSQL 1
DbRep 1
FHEM2FHEM 2
FHEMWEB 1
FileLog 1
HMLAN 1
HMinfo 1
NUT 1
PRESENCE
function 2
RESIDENTS 1
RFHEM 2
ROOMMATE 2
SVG 1
SYSMON 1
Twilight 1
Weather 1
allowed 2
at 4
autocreate 1
dewpoint 1
dummy 19
eventTypes 1
gcmsend 2
notify 22
readingsGroup 5
telnet 1
watchdog 2
weblink 3

mbrak

Hi

das wär ja nen Ding. Ich hatte auch bis vor kurzem (also über einen Zeitraum von ca. 6 Monaten und länger) probleme mit wenig freiem Speicher. Fhem ist dann immer abgeschmiert und ich konnte entweder fhem neu starten oder den raspi. Ich verwende auch presence (2x Bluethooth IPhone) + (2x IPhone MAC Fritzboxen).

Seltsamerweise ist dieses Problem seit ca. 4 Wochen nicht mehr aufgetreten. Ich konnte die Ursache allerdings auch nie richtig lokalisieren, aber der Beginn mag in etwa mit dem Betrieb von Presence übereinstimmen.

Gruß Michael

nils_

Presence wird auch hier erwähnt: https://forum.fhem.de/index.php/topic,76002.0.html


Ich nutze Presence nicht, und mein Raspi mit fhem (ich glaube es ist ein 2er) läuft schon eine gefühlte ewigkeit. (viel machen tut er aber auch momentan nicht ;) )

viele Wege in FHEM es gibt!

sku

hab eben entdeckt, dass bei meinen raspi3 und raspi1 die firmwareupdates nicht aktiv waren. hab das nachgeholt:
/etc/apt/sources.list firmware dazuschreiben:
deb http://mirrordirector.raspbian.org/raspbian/ jessie main firmware contrib non-free rpi
danach
apt-get update
apt-get upgrade
rpi-update

vll. vor rpi-update rebooten. ich habs nicht gemacht, da beim upgrade nicht viel gemacht wurde (vorallem kein kernel upgrade, da hätt ich rebootet)

@pah vll behebt das deine instabilität? oder vll kommt dadurch jetzt bei mir instabilität  :-[


zum memory leak: neuer screenshot im anhang, in den paar stunden wurden 16mb ram mehr belegt. jedoch hab ich diesmal nicht per htop kontrolliert, ob fhem schuld ist... ich gehe aber davon aus.

sku

fhem.pl hatte gestern laut htop ca. 8% belegung, heute sind es schon 10%
habe nun presence wieder aktiviert.
als nächstes ist yahoo wetter dran. ist nun deaktiviert, fhem neu gestartet, 6% ram nutzung.

Dr. Boris Neubert

Hallo,

ich hatte heute gerade das volle Programm an Updates durchexerziert (FHEM, Raspian, Firmware) und war dabei, ein Skript zu schreiben, das über eine permanente Socketverbindung per netcat alle Stunde die Informationen über offene Files und Sockets, Speicherbelegung, Plattplatz und Inodes an einen externen Rechner senden sollte, als es passiert ist: Dateisystem futsch, keine Befehle mehr ausführbar, nur noch Reset half.

Ich habe aber dieses Mal ein aussagekräftiges Log:

2017-09-03T14:17:50+02:00 has kernel: [ 1114.230715] usb 1-1-port5: disabled by hub (EMI?), re-enabling...
2017-09-03T14:17:50+02:00 has kernel: [ 1114.230758] usb 1-1.5: USB disconnect, device number 4
2017-09-03T14:17:50+02:00 has kernel: [ 1114.230765] usb 1-1.5.3: USB disconnect, device number 5
2017-09-03T14:17:50+02:00 has kernel: [ 1114.231139] ftdi_sio ttyUSB0: FTDI USB Serial Device converter now disconnected from ttyUSB0
2017-09-03T14:17:50+02:00 has kernel: [ 1114.231158] ftdi_sio 1-1.5.3:1.0: device disconnected
2017-09-03T14:17:50+02:00 has kernel: [ 1114.231372] pl2303 ttyUSB1: pl2303_read_int_callback - usb_submit_urb failed with result -19
2017-09-03T14:17:50+02:00 has kernel: [ 1114.233599] usb 1-1.5.4: USB disconnect, device number 6
2017-09-03T14:17:50+02:00 has systemd[1]: Stopping LVM2 PV scan on device 8:4...
2017-09-03T14:17:50+02:00 has systemd[1]: Stopped LVM2 PV scan on device 8:4.
2017-09-03T14:17:50+02:00 has systemd[1]: Stopping Swap.
2017-09-03T14:17:50+02:00 has systemd[1]: Stopped target Swap.
2017-09-03T14:17:50+02:00 has systemd[1]: Deactivating swap /dev/disk/by-id/usb-WD_Elements_25A2_575847314131373133434E41-0:0-part3...
2017-09-03T14:17:50+02:00 has systemd[1]: Deactivating swap /dev/disk/by-partuuid/0c1b81cb-03...
2017-09-03T14:17:50+02:00 has systemd[1]: Deactivating swap /dev/disk/by-path/platform-3f980000.usb-usb-0:1.5.4:1.0-scsi-0:0:0:0-part3...
2017-09-03T14:17:50+02:00 has systemd[2045]: Failed at step EXEC spawning /sbin/swapoff: Input/output error
2017-09-03T14:17:50+02:00 has systemd[1]: Deactivating swap /dev/disk/by-uuid/1af2bdf0-0409-43ef-af91-b88522092051...
2017-09-03T14:17:50+02:00 has systemd[1]: Deactivating swap /dev/sda3...
2017-09-03T14:17:50+02:00 has systemd[1]: dev-disk-by\x2did-usb\x2dWD_Elements_25A2_575847314131373133434E41\x2d0:0\x2dpart3.swap swap process exited, code=exited status=203
2017-09-03T14:17:50+02:00 has systemd[1]: Deactivated swap /dev/disk/by-id/usb-WD_Elements_25A2_575847314131373133434E41-0:0-part3.
2017-09-03T14:17:50+02:00 has systemd[1]: Unit dev-disk-by\x2did-usb\x2dWD_Elements_25A2_575847314131373133434E41\x2d0:0\x2dpart3.swap entered failed state.


Störung am externen 7-Port-USB-Hub, der Kernel schmeisst das Hub raus, am Hub hängt aber auch die Festplatte, sag zum Abschied leise Servus  :(

Am Hub hängen die Festplatte (750 GB WD Elements), ein Arduino Pro (PL2303) und ein Denkovi-1wire-Busmaster (FTDI). Ich muss sehen, ob der Arduino Pro oder der 1wire-Busmaster an Port 5 hängen, und die Störung verursacht haben. Nächstes Wochenende steht dann wohl im Zeichen der elektromagnetischen Verträglichmachung der Installation (USB-Kabel durch bessere Kabel ersetzen, Ferritkerne aufstecken, ...).

Viele Grüße
Boris
Globaler Moderator, Developer, aktives Mitglied des FHEM e.V. (Marketing, Verwaltung)
Bitte keine unaufgeforderten privaten Nachrichten!

sku

Zitat von: Dr. Boris Neubert am 27 August 2017, 13:05:15
Das Problem trat auch vorher schon auf (mit / auf SD-Card).

war damals swap auf der hdd, oder irgendwas anderes wichtiges? sonst hätte der pi nicht abschmieren dürfen, wenn der hub weg ist.

wieso verwendest du swap am pi? das ist mir nicht ganz klar.

Wernieman

- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

sku

mein hauptgrund ist, um die schreibvorgänge der sd karte zu minimieren. und wie am memoryverlauf von mir zu sehen, wurden max. 50% ram belegt und da ging wohl irgendwas schief. von daher ist swap auch nicht notwendig.
bei mir ist nur eine sd karte verbaut, /var/log und /tmp sind als tmpfs gemounted. root schaut in meiner fstab so aus:
/dev/mmcblk0p2  /               ext4    defaults,noatime,commit=120  0       1
kurze kopierte erklärung:
The noatime option fully disables writing file access times to the drive every time you read a file.
commit=nrsec
    Sync all data and metadata every nrsec seconds.


logging macht mein 24/7 PC, der hat alle hdds/ssds dafür verbaut.
der nachteil des single point of failure ist mir klar, aber dann fehlt halt mal was... wobei dblog in fhem mittlerweile zwischenspeichert, das ist also auch kein problem.