Discussion:
Encoding (UTF8 vs ISO-8859-1)
(zu alt für eine Antwort)
Cybernd
2005-01-22 09:49:11 UTC
Permalink
Hi

Weiß zufällig jemand von euch eine Art Faustregel, auf welches Encoding
man sich einschießen sollte?

Bisher habe ich irgendwie aus dem Bauch heraus für XML Dateien
ISO-8859-1 verwendet. Viele verwenden immer UTF8. Bei den Sourcen wars
mir bisher eigentlich immer egal.

Aber, da ich seit kurzem am Server Anthill einsetze, besteht nun der
Bedarf, das ganze ein wenig zu Hinterfragen. Am Server läuft Debian
Sarge und aus irgendeinem mir unbekannten Grund, meint javac dort für
Sourcen ASCII verwenden zu müssen, was natürlich zu Encodingproblemen
bei den Nightly Builds führt.

Sinnvollerweise wäre jetzt wohl ein guter Moment, sich mit allen
beteiligten Programmierern auf ein Encoding zu einigen.

Gibt es hier vielleicht eine Art Faustregel? Ich meine, immerhin gibt es
Encodings wie Sand am Meer. Auf welches sollte man sich also einigen?
UTF8 der Einfachheit halber?

Vor allem stellt sich mir auch die Frage, wie ich überhaupt das Encoding
bei Eclipse beeinflußen kann. Bei XML Files kann man das Encoding ja
sowieso in jedem File notieren, aber bei Java Sourcen müsste es ja eine
globale Einstellung sein? Muß man das Encoding schon Eclipse als
Startparameter mitgeben?

(Wenn ich raten müsste, würde ich bei mir momentan auf CP1252 setzen, da
ich ja unter Windows entwickle. Wie kann man das verwendete Encoding bei
den Sourcen anzeigen lassen?)

schon mal ein dickes thx
cybi

-
aka Neuhauser Bernhard
Michael Paap
2005-01-22 12:53:28 UTC
Permalink
Post by Cybernd
Vor allem stellt sich mir auch die Frage, wie ich überhaupt das Encoding
bei Eclipse beeinflußen kann.
Window - Preferences - Workbench - Editors - Text file encoding.
Post by Cybernd
Muß man das Encoding schon Eclipse als
Startparameter mitgeben?
Auf
http://help.eclipse.org/help30/index.jsp?topic=/org.eclipse.platform.doc.user/tasks/running_eclipse.htm
ist eine Liste der Startparameter. Da findet sich nichts bzgl. Encoding.
Post by Cybernd
(Wenn ich raten müsste, würde ich bei mir momentan auf CP1252 setzen, da
ich ja unter Windows entwickle. Wie kann man das verwendete Encoding bei
den Sourcen anzeigen lassen?)
Nachträglich? Da die Sourcen afaik selbst keine Informationen über das
verwendete Encoding enthalten, kannst Du da letztlich wohl nur raten.

Gruß,
Michael
--
Die Adresse im From existiert, wird aber nicht gelesen. Sollte
eine Mail-Antwort auf ein Posting vonnöten sein, bitte folgende
Adresse verwenden: newsreply@<DOMAIN_AUS_DEM_FROM_DIESES_POSTINGS>.
Cybernd
2005-01-23 14:10:35 UTC
Permalink
Post by Michael Paap
Window - Preferences - Workbench - Editors - Text file encoding.
Oh da :o) Ich suchte immer unter Preferences => Java => Editor
Post by Michael Paap
Nachträglich? Da die Sourcen afaik selbst keine Informationen über das
verwendete Encoding enthalten, kannst Du da letztlich wohl nur raten.
Das befürchtete ich fast.

thx
cybi
Michael Holtermann
2005-01-22 13:17:53 UTC
Permalink
Moin!
Post by Cybernd
Bisher habe ich irgendwie aus dem Bauch heraus für XML Dateien
ISO-8859-1 verwendet. Viele verwenden immer UTF8. Bei den Sourcen wars
mir bisher eigentlich immer egal.
Das ist IMHO relativ wurscht, solange man nicht cp1252 oder sowas verwendet.
Man sollte sich halt auf etwas einigen, was auf allen Systemen von Haus aus
verfügbar ist.

Ich habe mein System auf utf-8 umgestellt, das betrifft Sourcen, XML, XHTML,
LaTeX. Das kommt im wesentlichen daher, dass eine alte RedHat-Installation
von Haus aus utf-8 war.

Das macht am wenigsten Probleme, wenn man hin und wieder mal die Plattform
wechselt. XML-Dokumente werden meines Erachtens nach immer häufiger in
utf-8 codiert.

Ein Haken sind Java Property Files - diese werden (zumindest bis 1.4) in
ISO-8859-1 angelegt. Für die XML-serialisierbaren Swing-Klassen müsste man
das mal nachschauen. Wenn schon ISO, dann ISO-8850-15 für das ?-Zeichen,
und dann kann man es eigentlich auch gleich "richtig" machen.

Just my 2 ?ct, Michael.
--
Wir haben nichts zu verlieren, außer unserer Angst.
Michael Holtermann
2005-01-22 23:01:26 UTC
Permalink
Post by Michael Holtermann
Wenn schon ISO, dann ISO-8850-15 für das ?-Zeichen,
^
Hm, toll. Eigentlich dachte ich, auch KNode auf utf-8 zu haben... Wieder
nix.

Grüße, Michael.
--
Bedächtige Reden führen stets zum klügsten Ziel.
-- Euripides (580-406 v. Chr.)
Paul Ebermann
2005-01-22 22:28:42 UTC
Permalink
[...] Wenn schon ISO, dann ISO-8850-15 für das ?-Zeichen,
und dann kann man es eigentlich auch gleich "richtig" machen.
Just my 2 ?ct, Michael.
Im Gegensatz zu Java-Quelltexten gibt es übrigens für
E-Mails und Newsbeiträge einen Standard, das Encoding
festzulegen (MIME), und bei dir war ISO-8859-1 (nicht -15)
eingestellt - und da gibt es kein Euro-Zeichen :-)

(Für das Fragezeichen reicht auch ASCII.)


Paul
--
Wem es darum zu tun ist, dauerhafte Achtung sich zu erwerben; [...] der würze
nicht ohne Unterlass seine Gespräche mit Lästerungen, Spott und Medisance und
gewöhne sich nicht an den auszischenden Ton von Persiflage.
Adolf Freiherr Knigge, Über den Umgang mit Menschen, 1.17
Michael Holtermann
2005-01-23 17:18:39 UTC
Permalink
Moin Paul!
Post by Paul Ebermann
Im Gegensatz zu Java-Quelltexten gibt es übrigens für
E-Mails und Newsbeiträge einen Standard, das Encoding
festzulegen (MIME), und bei dir war ISO-8859-1 (nicht -15)
eingestellt - und da gibt es kein Euro-Zeichen :-)
Ja, ich weiß. Wenn mir auch schleierhaft ist, warum da auf einmal -1 stand.
....
Doch, jetzt schon - ich hatte für diese Gruppe abweichend von meiner
sonstigen Codierung iso eingestellt, nicht utf-8. Sollte nun aber wieder
passen: €. :-)

Grüße, Michael.
Cybernd
2005-01-23 14:06:00 UTC
Permalink
Encoding Erklärung
Thx an alle Helfer.

Ich denke ich werde mich mit der ISO-8859-15 versuchen. Die CP1252 sieht
mir zu amerikanisch aus ;o) Und ob ich nun die ISO-8859-1 oder gleich
die -15er mit Euro Zeichen verwende ist eigentlich auch schon egal. Also
lieber gleich die 15er.

Viele Quellen sprechen bei CP1252 von der Windows Implementierung der
8859-15, aber anscheinend deckt sie sich nicht immer 100%ig mit den ISO
Standard. (Die -1er hat anscheinend auf A4 nichts besonderes, wärend
cp1252 dort ein komisches Symbol hat. Ich denke das sollte ein
Währungszeichen sein. Die -15er verwendet die selbe Stelle fürs
Eurozeichen?)

So oder so: Ich denke mir ist ein ISO Standard lieber als ein
Windows-Standard. Mag ja sein das Windows wegen seiner hohen Verbreitung
durchaus auch zur Norm wird, aber dennoch ein unabhängiger Standard
wäre mir fast lieber.

Verbleibt UTF8 vs. 8859-15
Tja hier bin ich mir nicht gerade sicher.

In der Wikipedia stieß ich natürlich gleich auf eine UTF8 Site. Auf der
findet sich gleich ein passender Link zum Thema: "Wie UTF-8 ASCII und
ISO 8859-1 in der GNU/Linux- und Unix-Welt ersetzen kann:
http://www.cl.cam.ac.uk/~mgk25/unicode.html"

Werd mich da mal durchlesen müssen ;o)
cybi
Cybernd
2005-01-23 14:43:43 UTC
Permalink
UTF 8 vs 8859

Ich denke UTF-8 ist die bessere Wahl, da sie Unicode codiert, also
irgendwas zwischen 1 und 6 Bytes pro Zeichen hat. ISO-8859-15 scheint
mir jedoch lediglich 1 Byte zu spezifizieren, also wesentlich weniger
Zeichen.

UTF erscheint mir also ein wenig "flexibler" zu sein.

cybi
Richard Körber
2005-01-24 07:26:52 UTC
Permalink
Hi!
Post by Cybernd
Gibt es hier vielleicht eine Art Faustregel? Ich meine, immerhin gibt es
Encodings wie Sand am Meer. Auf welches sollte man sich also einigen?
UTF8 der Einfachheit halber?
War hierzulande lange ISO-8859-1 der Standard, ist es seit dem Euro die
ISO-8859-15. Leider haben sich da auch ein paar andere Sonderzeichen
geändert (zum Beispiel die Position vom "½"), die Umstellung ist also
doch nicht ganz so trivial.

Wenn du dann irgendwann anfängst, den Source zum Beispiel mit Griechen,
Türken oder Japanern auszutauschen, wird das Chaos garantiert perfekt.

Von daher ist es eigentlich keine Frage: UTF-8 muss her, da es alle
anderen Encodings abbildet. Neuentwicklungen finden bei mir konsequent
in UTF-8 statt; Altlasten werde ich versuchen, im Laufe der Zeit auf
UTF-8 umzustellen, auch wenn es Arbeit macht.

Ein bisschen Idealismus steckt schon dahinter... Ich hoffe, dass die
anderen Encodings (und damit die Probleme, die sie mitbringen) bald der
Vergangenheit angehören.

Grüße
--
:// Richard "Shred" Körber -~- ***@despammed.com -~-
http://www.shredzone.net/
Loading...