Seite drucken - FHEM und UNICODE, first aid

Titel: FHEM und UNICODE, first aid
Beitrag von: herrmannj am 08 Februar 2022, 19:28:02

Leider eskalieren aktuell wieder die Probleme mit Sonderzeichen und fhem. Eine Mehrheit dies zu ändern, zeichnet sich nicht ab, daher Hilfe zur Selbsthilfe:

Begriffsbestimmung

Ganz früher™ hatte ein Computerbyte 8Bit, ein byte speicherte einen Buschstaben und Computer konnten maximal 256 Zeichen unterscheiden. Die Anzahl der Buchstaben in allen Sprachen der Welt, Sonderzeichen und Satzzeichen sind in Summe natürlich viel mehr. Also gab es Codepages die jeweils einem Ausschnitt entsprachen, zum Beispiel den in Westeuropa am häufigsten benötigten Zeichen.

https://de.wikipedia.org/wiki/Codepage_850

Mit 16, 32 oder 64 bit Computern kann man in einer ,,Speicherzelle" deutlich mehr als 256 verschiedene Zeichen speichern. Speichern, im Zusammenhang mit Computern, bedeutet aber konkret nur, dass in einer Speicherzelle des RAM eine (neutrale) Zahl gespeichert wird. Welche Zahl welchem Zeichen entspricht, wird weiterhin per Konvention festgelegt. Das älteste Unicode-Kodierungsformat ist UTF-16, etabliert hat sich UTF-8.

https://de.wikipedia.org/wiki/UTF-8

Perl intern wird UNICODE verwendet: https://home.unicode.org/

Wenn ein perl Programm mit der Außenwelt kommuniziert, dann geschieht das klassisch über Strecken auf denen die Einheiten (byte, besser octet) nach wie vor aus 8bit bestehen. Irgendwie muss die große Anzahl verschiedener Buchstaben die perl kennt, in eine Folge von 8bit Zeichen konvertiert werden, wenn perl mit der Außenwelt spricht. Wenn etwas von außen kommt, entsprechend andersrum. UTF-8 schreibt die Regeln dieser Konvertierung fest. UTF-8 ist die Standardkodierung von zB MQTT (Topics), JSON, Websocket.

Wenn perl das alles kann, und alle Konventionen klar sind, warum passiert das nicht alles automatisch? Der Teufel liegt im Detail. Als perl den UNICODE Support eingeführt hat, hat man sich aus gutem Grund entschieden, dass der Programmierer die entsprechenden Funktionen aktiv aktivieren muss. Andernfalls hätte das die Kompatibilität massiv gebrochen. Eine MQTT Verbindung kodiert die topics die UTF-8, hier ist eine Konvertierung erwünscht und erforderlich. Wenn es sich aber um die Übertragung einer Firmware Binary handelt, dann darf da natürlich nichts angefasst werden, die muss originalgetreu übermittelt werden. Perl kennt den Unterschied nicht, das weiß nur der Programmierer. Wenn perl selbst aktiv werden soll, was es sehr einfach könnte, dann muss das explizit ansagen.

UNICODE, UTF-8, UTF-8 octets. Kleine, aber feine Unterschiede

Ein 32bit Perl kennt also 2^32 Zeichen (Buchstaben). Ist jedes dieser Zeichen dann gleichzeitig ein UTF-8 Zeichen? Die Antwort ist nein. UTF-8 definiert Bereiche welche Sonderfunktionen haben. Nicht alle theoretisch für perl verfügbare UNICODE Zeichen sind also gleichzeitig gültige UTF-8 Zeichen. Wie bereits geschrieben legt UTF-8 auch die Konventionen fest, wie die Zeichen umgewandelt werden, wenn sie auf 8bit Medien übertragen oder gespeichert werden. Man spricht dann oft von Octets. Aus diesem Zeichen ,,😀" wird dann zB eine Folge von 4 octects (a 8bit) gebildet. Lässt sich im Umkehrschluss jetzt aus jeder beliebigen Folge von octets ein UTF-8 Zeichen bilden? Die Antwort lautet wiederum nein. Nachschlagen kann man das in Tabellen wie der folgenden:

https://www.utf8-chartable.de/unicode-utf8-table.pl

Um perl den korrekten Umgang mit UTF-8 zu ermöglichen, haben die Entwickler verschiedene Möglichkeiten eingebaut. Beim Lesen eines Files von der Festplatte etwa, ist es sehr leicht möglich dem IO Layer mitzuteilen das es sich um eine Textdatei handelt deren Inhalt UTF-8 kodiert ist.

FHEM Forum

FHEM - Entwicklung => FHEM Development => Thema gestartet von: herrmannj am 08 Februar 2022, 19:28:02