[gelöst] HMLANGW immer wieder offline

Begonnen von maci, 16 Februar 2018, 17:11:50

Vorheriges Thema - Nächstes Thema

maci

Mein HMLANGW ist immer wieder offline.

Alle 10- 15 min habe ich diese Einträge im Log:
2018.02.16 07:05:34 1: HMUARTLGW HMLANGW:keepAlive did not respond after all, reopening
2018.02.16 07:05:34 3: HMLANGW device closed
2018.02.16 07:06:39 3: Opening HMLANGW:keepAlive device 10.0.0.220:2001
2018.02.16 07:06:39 1: 10.0.0.220:2000 reappeared (HMLANGW)
2018.02.16 07:06:39 3: HMLANGW:keepAlive device opened
2018.02.16 07:06:39 3: HMUARTLGW HMLANGW BidCoS-port opened
2018.02.16 07:06:39 3: HMUARTLGW HMLANGW:keepAlive KeepAlive-port opened
..
2018.02.16 07:20:54 1: HMUARTLGW HMLANGW:keepAlive did not respond after all, reopening
2018.02.16 07:20:54 3: HMLANGW device closed
2018.02.16 07:21:03 3: netatmo_T04_00_00_0b_ef_56: poll (THERMOSTAT)
2018.02.16 07:21:03 3: netatmo_T04_00_00_0b_ef_56: requestDeviceReadings (Temperature,Sp_Temperature,BoilerOn,BoilerOff)
2018.02.16 07:21:43 2: netatmo_T04_00_00_0b_ef_56: http request failed: gethostbyname api.netatmo.com failed
2018.02.16 07:21:43 3: CUL_HM set Rolladen_Christoph_Fenster on
2018.02.16 07:21:48 3: CUL_HM set Rolladen_Christoph_Tuer on
2018.02.16 07:23:03 3: Opening HMLANGW:keepAlive device 10.0.0.220:2001
2018.02.16 07:23:03 1: 10.0.0.220:2000 reappeared (HMLANGW)
2018.02.16 07:23:03 3: HMLANGW:keepAlive device opened
2018.02.16 07:23:03 3: HMUARTLGW HMLANGW BidCoS-port opened
2018.02.16 07:23:03 3: HMUARTLGW HMLANGW:keepAlive KeepAlive-port opened


Hier meine Definition des Gateways:
Internals:
   AssignedPeerCnt 16
   CNT        226
   Clients    :CUL_HM:
   DEF        10.0.0.220
   DEVCNT     226
   DevState   99
   DevType    LGW
   DeviceName 10.0.0.220:2000
   FD         4
   LastOpen   1518795420.75103
   NAME       HMLANGW
   NR         979
   PARTIAL   
   RAWMSG     040202
   RSSI       -63
   STATE      opened
   TYPE       HMUARTLGW
   XmitOpen   1
   model      eQ3-HM-LGW
   msgLoadCurrent 1
   msgLoadHistory 0/0/0/0/0/1/-/-/-/-/-/-
   msgLoadHistoryAbs 1/1/1/1/1/1/0/-/-/-/-/-/-
   owner      201728
   owner_CCU  VCCU
   Helper:
     CreditTimer 121
     FW         66561
     Initialized 1
     AckPending:
     LastSendLen:
       3
       3
     Log:
       IDs:
     PeerQueue:
     RoundTrip:
       Delay      0.00555706024169922
     loadLvl:
       lastHistory 1518797225.91808
   MatchList:
     1:CUL_HM   ^A......................
   Peers:
     549956     +549956,00,00,00
     54FB5C     +54FB5C,00,00,00
     567449     +567449,00,00,00
     567450     +567450,00,00,00
     567464     +567464,00,00,00
     567466     +567466,00,00,00
     56746F     +56746F,00,00,00
     567470     +567470,00,00,00
     56748D     +56748D,00,00,00
     56748E     +56748E,00,00,00
     567597     +567597,00,00,00
     5675B6     +5675B6,00,00,00
     56D5C3     +56D5C3,00,00,00
     5A6097     +5A6097,00,00,00
     5B3103     +5B3103,00,00,00
     5F8063     +5F8063,00,00,00
   READINGS:
     2018-02-16 16:37:05   D-HMIdAssigned  201728
     2018-02-16 16:37:05   D-HMIdOriginal  FFFFFF
     2018-02-16 16:37:00   D-LANfirmware   1.1.5
     2018-02-16 16:37:05   D-firmware      1.4.1
     2018-02-16 16:37:00   D-serialNr      OEQ0795902
     2018-02-16 16:37:00   D-type          eQ3-HM-LGW
     2018-02-16 16:37:05   cond            ok
     2018-02-16 17:07:18   hmTrf           1 %
     2018-02-16 16:42:07   load            1
     2018-02-16 16:37:05   loadLvl         low
     2018-02-16 16:37:00   state           opened
   helper:
   keepAlive:
     CNT        177
     DEVCNT     176
     DevState   99
     DevType    LGW-KeepAlive
     DeviceName 10.0.0.220:2001
     FD         101
     LastOpen   1518795420.8291
     NAME       HMLANGW:keepAlive
     NR         212055
     PARTIAL   
     STATE      opened
     TEMPORARY  1
     TYPE       HMUARTLGW
     XmitOpen   0
     Helper:
       NextKeepAlive 1518797245.48926
       Log:
         Resolve    1
         IDs:
     READINGS:
       2018-02-16 16:37:00   state           opened
Attributes:
   hmId       201728
   lgwPw      y+S"mkH7kF
   room       4.09_Homematic


Was kann ich das machen?
Fhem auf Dell Thinclient, Fhem auf Raspebrry Pi4,
UniPi Vers. 1.1 mit Raspberry Pi3, 1wire USB Adapter mit OWX
Netatmo Wetterstation + Regenmesser + Netatmo Thermostat
Homematic mit HMLan

CoolTux

Hast Netzwerk Multimediageräte im Netz? Multiroom oder diese Mediabox von Telekom?
Du musst nicht wissen wie es geht! Du musst nur wissen wo es steht, wie es geht.
Support me to buy new test hardware for development: https://www.paypal.com/paypalme/MOldenburg
My FHEM Git: https://git.cooltux.net/FHEM/
Das TuxNet Wiki:
https://www.cooltux.net

maci

Zitat von: CoolTux am 16 Februar 2018, 17:16:16
Hast Netzwerk Multimediageräte im Netz? Multiroom oder diese Mediabox von Telekom?

Nein habe ich nicht im Netz.
Das Gateway hängt in meinem Lan Netz über einen zweiten 4-Port Switch am daneben stehenden WLAN Router.
Fhem auf Dell Thinclient, Fhem auf Raspebrry Pi4,
UniPi Vers. 1.1 mit Raspberry Pi3, 1wire USB Adapter mit OWX
Netatmo Wetterstation + Regenmesser + Netatmo Thermostat
Homematic mit HMLan

maci

Denke, dass ich den Fehler gefunden habe.
Tausch des Patchkabels.

Habe einen Langzeitping auf meinen FHEM-Server laufen lassen.
Da bin ich draufgekommen, dass der Server immer wieder nicht erreichbar war.

Also suche nach der Ursache aufgenommen. Als erstes habe ich mal das Patchkabel getauscht.
Nun die Pingfehler waren plötzlich weg.
Ich beobachte jetzt mal das Log noch.
Ich berichte dann wieder.
Fhem auf Dell Thinclient, Fhem auf Raspebrry Pi4,
UniPi Vers. 1.1 mit Raspberry Pi3, 1wire USB Adapter mit OWX
Netatmo Wetterstation + Regenmesser + Netatmo Thermostat
Homematic mit HMLan

maci

UPDATE:
Ich habe im Log mal mit dem Befehl 'cat fhem-2018-02.log | grep "HMUARTLGW HMLANGW:keepAlive did not respond" ' nach dem Auftreten des Fehlers gesucht
Der Fehler war am 17. Feb zum letzten mal im Log zu finden.
Also bis zu dem Zeitpunkt, wo ich das Patchkabel getauscht habe.
Zuvor war der Fehler  zwischen 18 - 35 mal im Log je Tag.

Ich denke dass ich das jetzt abhaken kann.  :)

Ich werden damit den Thread schließen.
Fhem auf Dell Thinclient, Fhem auf Raspebrry Pi4,
UniPi Vers. 1.1 mit Raspberry Pi3, 1wire USB Adapter mit OWX
Netatmo Wetterstation + Regenmesser + Netatmo Thermostat
Homematic mit HMLan

Soc

#5
Habe das selbe Problem das immer wieder ein reopen gemacht wird.


2018.03.04 04:43:28 1: HMUARTLGW HMLANGW:keepAlive KeepAlive sent 5.806s too late, this might cause a disconnect!
2018.03.04 04:43:28 1: HMUARTLGW HMLANGW2:keepAlive KeepAlive sent 5.799s too late, this might cause a disconnect!
2018.03.04 04:43:28 1: 192.168.50.18:2000 disconnected, waiting to reappear (HMLANGW)
2018.03.04 04:43:28 1: 192.168.50.19:2001 disconnected, waiting to reappear (HMLANGW2:keepAlive)
2018.03.04 04:43:28 1: 192.168.50.18:2001 disconnected, waiting to reappear (HMLANGW:keepAlive)
2018.03.04 04:43:28 1: 192.168.50.19:2000 disconnected, waiting to reappear (HMLANGW2)
2018.03.04 04:43:28 3: Opening HMLANGW2:keepAlive device 192.168.50.19:2001
2018.03.04 04:43:28 1: 192.168.50.19:2000 reappeared (HMLANGW2)
2018.03.04 04:43:28 3: Opening HMLANGW:keepAlive device 192.168.50.18:2001
2018.03.04 04:43:29 1: 192.168.50.18:2000 reappeared (HMLANGW)
2018.03.04 04:43:29 3: HMLANGW2:keepAlive device opened
2018.03.04 04:43:29 3: HMLANGW:keepAlive device opened
2018.03.04 04:43:29 3: HMUARTLGW HMLANGW BidCoS-port opened
2018.03.04 04:43:29 3: HMUARTLGW HMLANGW2 BidCoS-port opened
2018.03.04 04:43:29 3: HMUARTLGW HMLANGW2:keepAlive KeepAlive-port opened
2018.03.04 04:43:29 3: HMUARTLGW HMLANGW:keepAlive KeepAlive-port opened


Wie kann ich den Fehler besser auf die Spuren kommen?
Was ich festgestellt habe das auf den Raspi (ein Test Shem Raspi mit ähnlicher Konfiguration hat das Problem nicht) die CPU mit IOs manchmal bis zu 7% ausgelastet ist.

Wie komme ich den Fehler auf die Schliche?

Das System ist auf den aktuellen Stand und erst vor 3 Monate komplett neu aufgebaut worden.

Als ich das System aufgebaut habe (Kopie von Fhem Test) gab es die devices keepAlive nicht und ich habe sie manuell angelegt für beide HMGWs.

Soc

Keiner einen Tipp?

Habe apptime und freezemon am laufen und stelle fest, dass *keepAlive teilweise 7 Sekunden delay hat.

Kann jemand helfen?

martinp876

Mit apptime solltest du erkennen, ob fhem einschlaeft. Zumindest kannst du erkennen welcher task manchmal zu lange dauert. Wenn hier nichts zu holen ist kann das os natürlich anderen Tätigkeiten nachgehen. Die musst du extern suchen.
Zum dritten kann es dein netz sein. Der tip mit dem Langzeit ping ist sicher nicht schlecht.

Soc

Laut apptime ist der keepAlive selber ein Problem.
Dieses wird auch vom freezemon angezeigt.

Was verwunderlich ist, ist die Tatsache das dann das keepAlive device auf disconnected geht, aber die HMLSNGW's opened bleiben.