Interkulturelle Öffnung auch für Unicode-Sonderzeichen

In der Evangelischen Kirche im Rheinland ist die interkulturelle Öffnung wichtig, bereits 2015 wurde zu diesem Thema ein Werkbuch veröffentlicht. Aber im Digitalen gibt es noch Defizite mit der interkulturellen Öffnung, wie wir es heute auf der Website der rheinischen Kirche feststellen mussten.

Charset
Charset

Lange ist die Zeit vorbei, dass Computer nur die (lateinischen) Großbuchstaben A bis Z beherrschten, auch deutsche Sonderzeichen wie Umlaute und scharfes S sind mittlerweile kein Problem. Allerdings hakte es heute bei türkischen Sonderzeichen, die in einem Namen vorkamen. Der Artikel, der diesen Namen enthielt, wollte nicht online gehen. Nach gründlicher Recherche fand unser Dienstleister den Grund. Wir arbeiten mit WordPress, haben jedoch einen Contentpool im Hintergrund, der eine MySQL-Datenbank nutzt – und diese konnte bis jetzt nicht mit allen Sonderzeichen umgehen, wie unser Dienstleister schreibt:

Nach der Sichtung der Logs ist uns aufgefallen, das einige eigentlich UTF-8-konforme Zeichen nicht in die Datenbank importiert werden konnten. Grund dafür ist das hinterlegte Charset in der Datenbank gewesen. In MySQL ist eine mit UTF-8 kodierte Datenbank dazu in der Lage, Zeichen von maximal drei Byte Länge zu speichern. Manche UTF-8-Charaktere sind allerdings bis zu vier Byte lang. Dies ist ein Bug in MySQL, der nie offiziell vom Hersteller gefixed wurde. Hierzu wurde lediglich ein Workaround angeboten, das Charset “utf8mb4”.
Wir haben nun ein Datenbank-Backup erstellt und die Datenbank mit dem korrekten Charset neu importiert. Die Logs weisen nun nach einem “Crawl” der Contentpool-Artikel keine Fehler mehr auf, die auf dieses Problem hinweisen. Es sollte nun möglich sein, alle Charaktere des UTF-8-Charsets zu verwenden, darunter auch die heute beschrieben Sonderzeichen wie “ş” und “ê”.

Was mir zu denken gibt: Warum trat der Fehler erst jetzt auf? Entweder haben wir bis jetzt keine türkischen Sonderzeichen auf unserer Website verwendet oder wir haben die diakritischen Zeichen bei den Buchstaben einfach weggelassen und die entsprechenden einfachen lateinischen Zeichen verwendet, also “s” statt “ş”.

Auch wenn es nur ein Workaround ist, aber der Fehler ist nun behoben. Wir können ab jetzt Zeichen auch mit einer vier Byte langen Codierung in Artikeln verwenden – das gilt nicht nur für türkische Sonderzeichen, sondern auch für Sonderzeichen aus anderen Sprachen auch. Neben “ä”, “ö”, “ü” uns “ß” können wir nun auch “ş” schreiben. Interkulturelle Öffnung gelingt nun auch auf Buchstabenebene.

weiterlesen auf Theonet.de

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.