Auslastung / Kontrolle - Netzwerkfehler ?

Begonnen von flummy1978, 28 Oktober 2020, 20:55:42

Vorheriges Thema - Nächstes Thema

Beta-User

Hmm, evtl. auch mal in global nach der dns-Auflösung sehen?

Falls da eine Fritzbox im Hintergrund die Adressvergabe macht, kann es auch an der liegen...
Server: HP-elitedesk@Debian 12, aktuelles FHEM@ConfigDB | CUL_HM (VCCU) | MQTT2: ZigBee2mqtt, MiLight@ESP-GW, BT@OpenMQTTGw | ZWave | SIGNALduino | MapleCUN | RHASSPY
svn: u.a Weekday-&RandomTimer, Twilight,  div. attrTemplate-files, MySensors

Wernieman

Also scheinbar an der Netzwerkhardware liegt es nicht. Die Error vor dem Reset währen interessant gewesen.

War nur so eine Idee ...
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

flummy1978

Hallo,

Zitat von: Beta-User am 31 Oktober 2020, 16:55:25
Hmm, evtl. auch mal in global nach der dns-Auflösung sehen?
Falls da eine Fritzbox im Hintergrund die Adressvergabe macht, kann es auch an der liegen...

mhm ich dachte eher, wenn die Frithbox die Adressvergabe NICHT macht, führt es oft zu lags, wenn man DNS in global nicht eingetragen hat und zwischendurch das Internet weg ist ?
Ich hab bei mir DNS in global eingetragen (Fritzbox) zu 99,99 (Ein Radio und TV die nicht in FHEM sind) haben sonst alle geräte eine feste IP. D.h. Die Fritte vergibt k(aum) bzw keine Adressen, außer im separaten Gastnetzwerk.

Zitat von: Wernieman am 31 Oktober 2020, 18:00:58
War nur so eine Idee ...
Die Tabelle sieht jetzt allerdings nach 2 Tagen Betrieb (und unzähligen "Hängern") - immernoch genauso aus. :
Port   Empfangene Bytes   Gesendete Bytes   Pakete mit CRC-Fehlern
1   146709663   4408459808   0
2   32968127731   5312678454   0

Alle CRC Fehler, Felder sind leer.... 
Ich bin um jeden NOCH so kleinen Tipp dankbar, denn das führt einfach dazu, dass ich dort wieder was suchen kann. Ich bin der Meinung mich ansich ganz gut auszukennen, aber so langsam aber sicher fast schon am Ende mit meinem Latein  :-\ :'(

Was mich allerdings zu meiner aktuellen Vermutung führt:
Halten es die Netzwerkspezies für möglich dass der Fehler aus der Fritzbox kommt, obwohl sie (eigentlich) läuft und keine Fehler anzeigt ?

Mich wundert einfach, dass ich aus keinem Gerät speziell den Fehler reproduzierbar verhindern kann... D.h.: (Alle Geräte sind im Netzwerk und zumeist auch in Fhem) Ich mache einen Unifi AccessPoint aus - Fehler weg. Ich mach Enigma2 Receiver an => Fehler da. Engima2 aus, Hotspot aus anderen Hotspot aus / an, Mehr Traffic verursachen -> Fehler da (zumindest verschwindet der Drucker dann) und vor allem appropos Drucker:
Dieser wird sofort als "Offline" angezeigt, sobald der Fehler mal durch Freezmon angezeigt wurde bzw da war. Der Drucker ist aber sowohl Ping als auch Webaufruf erreichbar. Nach der Win Problembehandlung ist dieser wieder da und geht beim nächsten Fehler wieder Offline.....  ???  :-[

Meine Idee für diesen Fall (weil die Fritte beim ISP als eigener Router eingetragen ist ):
Mit einer Ersatz Fritte das Netzwerk herstellen (mit gleichen IPs etc) und die Fritzbox, die das Internet zur Verfüfung stellt, NUR dafür zu konfigurieren und dann mal sehen ob die Ersatzfritzbox den gleichen Fehler macht - Ist aber ein sehr großer Config Aufwand, meine Frauch brauch beruflich Inet an diesem WE und ich hab die Ersatz Fritzbox erst gestern bekommen. Das sind die Günde warum ich es bisher noch nicht getestet hab.

Bin weiterhin um jeden Tipp / Idee Möglichkeit und Antwort sehr dankbar.
Vielen Dank  und Viele Grüße
Andreas

Wernieman

- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

flummy1978

#19
Zitat von: Wernieman am 02 November 2020, 08:40:21
Verwedest Du die Fritte auch als Switch?
Ja: Es ist ein Switch angeschlossen, und an LAN2 und LAN3 jeweils nochmal einzelne Geräte... Meinst Du es könnte damit was zu tun haben ? (Was schon immer lief ?)

Tante Edith ergänzt noch aktuellen Stand:
Über Nacht habe ich Fhem runter gefahren. Heute morgen Rechner an - Drucker online. Dann ca 1 Std unterwegs gewesen, als ich wiedergekommen bin, war der Drucker wieder offline.  Ergo ist zu 99,9999% n Bock allgemein im Netzwerk

Wernieman

- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

frank

welche fritzbox?
ich würde mal so viele funktionen wie möglich in der fritzbox abschalten und anschliessend neu booten. zb: wlan, dect, fon, ab, fax, ....
usb3 stick angeschlossen?


und mal mit apptime modul in fhem schauen:
1. apptime zb 30 min laufen lassen, wenn keine störungen existieren. dann "apptime max" aufrufen und ausgabe speichern.
2. dann ein paar minuten im störungsfall.
vorher alte daten mit "apptime clear" löschen.
FHEM: 6.0(SVN) => Pi3(buster)
IO: CUL433|CUL868|HMLAN|HMUSB2|HMUART
CUL_HM: CC-TC|CC-VD|SEC-SD|SEC-SC|SEC-RHS|Sw1PBU-FM|Sw1-FM|Dim1TPBU-FM|Dim1T-FM|ES-PMSw1-Pl
IT: ITZ500|ITT1500|ITR1500|GRR3500
WebUI [HMdeviceTools.js (hm.js)]: https://forum.fhem.de/index.php/topic,106959.0.html

flummy1978

Wie misst Du "Offline"? : Der Drucker wird mir in der Win - Drucker - Umgebung als Offline angezeigt (läuft seit ca 5 Jahren und war sonst nie "nicht" erreichbar)

welche fritzbox?: 6490. Die von Dir aufgelisteten Funktionen sind komplett aus. Telefon über den ISDN Anschluss. Wlan geht über die Unifis, Dect AB und Telefonbuch ist auch komplett aus. USB Stick war da glaube ich noch nie einer dran USB3 schon gar nicht.

Zu apptime...
Störungen (in Fhem) tauchen ja eigentlich auf, im Sinne von Freezes. Diese zeigen sich aber immer nach dem gleichen Muster auf, nämlich zuerst zeigt er die S7 (SPS) Verbindung als Fehler:
S7_GetUpdate

1.12 possibly caused by: tmr-S7_GetUpdate(dev_KG_S7_SPS)
(zig Male)
also lösche ich alle Verbindungen die mit der SPS zu tun haben als nächstes kommt dann:
1.417 possibly caused by: tmr-at_Exec(Sprengercountdown) Dieses Gerät ist aber INAKTIV  ???
Also lösche ich das at Sprengercountdown... dann kommt irgendwann:
1.076 possibly caused by: no bad guy found :-(
oder
1.206 possibly caused by: tmr-MQTT2_SERVER_keepaliveChecker(brok_MQTT2) tmr-HttpUtils_Err(N/A)

Natürlich werden die Fehler danach immer seltener und immer weniger, weil weniger Netzwerktraffitc besteht und weil die SPS bsw. alle 0.5 Sek nach dem aktuellen Zustand abgefragt wird (Das läuft aber auch schon seitdem ich FHEM hab, weil es das  erste Gerät war, dass ich aktiviert habe - Allerdings auch ohne Freezmon)

Das Vorher / Nachher mit apptime teste ich auf jeden Fall auch noch zusätzlich.

Vielen herlichen Dank bis hierhin schon für Eure Mühe und Willen mir helfen zu wollen :)

VG
Andreas

Wernieman

Dann hättest Du noch testen können, ob der Drucker "pingbar" war. ist er eigentlich pr "namen" oder per IP eingetragen?

Ich tippe immer weiter auf Netzwerkprobleme.

Btw: Du verwendest IPs .. oder doch Namen?
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

flummy1978

Zitat von: Wernieman am 02 November 2020, 15:27:10
Dann hättest Du noch testen können, ob der Drucker "pingbar" war. ist er eigentlich pr "namen" oder per IP eingetragen?

Ich tippe immer weiter auf Netzwerkprobleme.
Genau .. ich auch. Nur zuordnen, kann ich diese irgendwie noch gar nicht  :-\
Deine Frage ob der Drucker dann pingbar / erreichbar ist, hatte ich 4 Beiträge zuvor bereits beantwortet. Macht aber nichts, weil man bei der Menge an Infos sicher schnell was übersehen kann  :)
Daher:
Zitat von: flummy1978 am 01 November 2020, 15:58:34
appropos Drucker:
Dieser wird sofort als "Offline" angezeigt, sobald der Fehler mal durch Freezmon angezeigt wurde bzw da war. Der Drucker ist aber sowohl Ping als auch Webaufruf erreichbar. Nach der Win Problembehandlung ist dieser wieder da und geht beim nächsten Fehler wieder Offline.....  ???  :-[

Der Drucker selbst ist (wie alle geräte die irgendwie eine Kommunikation innerhalb des Netzwerkes selbst brauchen), per IP eingebunden. Die DNS Seite der Fritte zeigt hier und dort mal einen Namen an, den ich aber kaum verwende. Lediglich die Diskstation, die Enigma2 Receiver und FHEM werden mit dem Namen aufgerufen. Allerdings nur vom PC aus (d.h. in keiner Config) und es funktioneren identisch auch alle IP Aufrufe für diese Geräte.

Ergänzung zum aktuellen Stand:
Ich habe nochmal die Config der Fritte kontrolliert und bis auf ein paar ungenutzte Portfreigaben, die deaktiviert waren und ich gelöscht habe, nichts geändert. Ich hab allerdings auch die SPS aus der Fritzbox gezogen und sie mit an den 16 Port Switch gehangen. Nu hab ich zwar seid 3 Std das Drucker offline Problem nicht mehr, aber stattdessen sie die Abfragelags innerhalb vom Apptime bei Fhem wieder größer geworden (Zufall?)

VG
Andreas

Wernieman

Verwende mal die Fitte nur als Router, d.h. 1 Netzwerkkabel, sonst nichts.

Hast Du das Routing der fritte geändert? Also spezielle Netzwerkrouten eingetragen?

Kenne viele FritzBox Probleme, aber so etwas ist mir unbekannt ....
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

flummy1978

Zitat von: Wernieman am 02 November 2020, 16:17:14
Verwende mal die Fitte nur als Router, d.h. 1 Netzwerkkabel, sonst nichts.
Jupp genau das war das was ich probiert hab:
ZitatIch hab allerdings auch die SPS aus der Fritzbox gezogen und sie mit an den 16 Port Switch gehangen. Nu hab ich zwar seid 3 Std das Drucker offline Problem nicht mehr.....
Es steckt also jetzt nur noch ein LAN Kabel zum 16Port Switch.

Eine Route ist auf einen Raspberry aktiv auf dem OpenVPN läuft (VPN Config, die eben auch an einem DS Lite Anschluss funktioniert (hat) hab ja jetzt einen FULL Dual Stack Anschluss, an dem die gleiche VPN weiterhin läuft)

Jetzt stellt sich die Frage ob nicht vielleicht doch Fhem ein Problem damit hat .... Eben, weil dort so viele "Meldungen" meckern in Apptime:

name                                     function                               max    count      total  average   maxDly   avgDly TS Max call     param Max call

tmr-SunSetShuttersAfterTimerFn           HASH_unnamed                           265       10    1082.21   108.22   266.99    72.74 02.11. 19:00:02 HASH(0x48db398)
tmr-at_Exec                              HASH(0x3dc7cf0)                        199       16    2289.58   143.10   513.57   106.28 02.11. 16:57:40 HASH(at_BUE_Temperatur)
tmr-CUL_HM_valvePosUpdt                  valvePos                               166      284   28832.14   101.52  2100.46   194.20 02.11. 16:15:52 valvePos:00800101
tmr-S7_GetUpdate                         HASH(0x145a330)                        160    12305  452486.94    36.77  2261.32   139.43 02.11. 17:33:48 HASH(dev_KG_S7_SPS)
tmr-ROLLO_Timer                          HASH(0x4601298)                        151        1     151.57   151.57  2037.16  2037.16 02.11. 18:30:09 HASH(Rollo_OG_SZ_01)
tmr-CUL_HM_valvePosUpdt                  valvePos                               166      284   28832.14   101.52  2100.46   194.20 02.11. 16:15:52 valvePos:00800101


Das sind so die höchsten delays im groben Überblick in der Laufzeit von 16 Uhr bis jetzt in etwa... komischerweise gibt es da so ziemlich alle Möglichkeiten der Devices. Wlan, Lan aber eben auch Homematik Funkteile. Sollte ich bis morgen keine Aussetzer beim Drucker haben, wäre meine Idee morgen die aktuelle Config (nochmal) von einem anderen Raspberry aus laufen lassen und testen....

So langsam frisst mich der Fehler echt auf ... bis zur dieser Fehlersuche war ich der Meinung ich kenne mich da aus  ???

Grüße
Andreas

Wernieman

Tja ... warum brauchst Du auch so ein Kompliziertes Netzwerk .... ;o)
- Bitte um Input für Output
- When there is a Shell, there is a Way
- Wann war Dein letztes Backup?

Wie man Fragen stellt: https://tty1.net/smart-questions_de.html

frank

die funktion tmr-S7_GetUpdate wurde in dieser zeit über 12000 mal aufgerufen.
muss das sein?
ich dachte s7 ist "schlau" und arbeitet "autark".
FHEM: 6.0(SVN) => Pi3(buster)
IO: CUL433|CUL868|HMLAN|HMUSB2|HMUART
CUL_HM: CC-TC|CC-VD|SEC-SD|SEC-SC|SEC-RHS|Sw1PBU-FM|Sw1-FM|Dim1TPBU-FM|Dim1T-FM|ES-PMSw1-Pl
IT: ITZ500|ITT1500|ITR1500|GRR3500
WebUI [HMdeviceTools.js (hm.js)]: https://forum.fhem.de/index.php/topic,106959.0.html

flummy1978

#29
Zitat von: Wernieman am 02 November 2020, 20:48:16
Tja ... warum brauchst Du auch so ein Kompliziertes Netzwerk .... ;o)
Könnte es kaum besser beschreiben  ;D
Mal ehrlich ... WENN alles läuft, ist es ja wirklich genial - und bei alldem was ich hier laufen habe (inklusive vieler Sicherheitsfallstricke), läuft es schon sehr sehr lange stabil und jetzt wirklich zum ersten mal ein sehr komplizierter Fehler....

Zitatdie funktion tmr-S7_GetUpdate wurde in dieser zeit über 12000 mal aufgerufen.
Tja ... das ist eine gute Frage... Je länger ich mich mit diesem Fehler befasse umso öfter komme ich in den Genuss zu sagen: Ja die SPS ist so schlau. Aber die Anbindung in Fhem wohl nicht so .... Laut Config fragt er alle nach festgelegtem Intervall die Informationen ab (damit diese in Fhem immer aktuell sind) in meinem Fall alle 0,5 sek was natürlich zu sehr vielen Anfragen führt. Grundsätzlich ist so eine Anfrage wahrscheinlich nicht länger als ca 20 ms. D.h. eigentlich sind es 480 ms nichtstun und 20 ms Abfragen......
Wenn es NUR die S7 wäre, die diese Fehler ausspuckt, wäre diese schon längst rausgeflogen. Aber es sind eben auch mal hier und da andere Geräte die Fehler ausspucken.

Kann mir jemand sagen wofür die Funktion:  tmr-__ANON__ oder  prio-__ANON__(N/A) steht ?
Die hab ich auch das ein odere andere mal im Freeze Log. Das kommt mir komisch vor.

Sowas wundert mich auch total:
tmr-at_Exec                              HASH(0x49383a0)                          8     4753    7901.34     1.66  2269.60   162.69 02.11. 18:01:39 HASH(Sprengercountdown)
Sprengercountdown ist ein at das deaktiviert ist... Wie kann des 8 x aufgerufen werden und ein Delay haben / verursachen?

Ich werde jetzt mal Zähler, und S7 deaktivieren, das sind dann die größten Reccourcenfresser... dann mal schauen.