日本人の開発したCGIやフリーソフトは、なぜいつまでたってもEUCやShift-JISに固執し、Unicodeをベースに作成しないのでしょうか。

Question

松永英明＠ことのは

256

233もっと見る

130pt

コンピュータ

日本人の開発したCGIやフリーソフトは、なぜいつまでたってもEUCやShift-JISに固執し、Unicodeをベースに作成しないのでしょうか。

この質問は「島国根性プログラマー」への煽りです。
ファイル名が外国文字の圧縮ファイルを解凍できず、同じく画像ファイルを閲覧できず、日本語化CGIは外国語を扱えず……。いつまで島国根性を続けるんでしょうか？
Windowsも2000からUnicodeベースになっている現在、もし日本語を扱うのにUnicodeではまずい合理的な理由があれば滔々と述べていただければ幸いです。
ちなみに、はてなはグループでUTF-8化してくださったので非常に感謝してます。

回答の条件

URL必須
1人2回まで

登録：2005/01/14 10:59:20
終了：--

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

honera 2005/01/16 11:29:10

多言語処理なんてするから面倒なんだ!

この際全員英語を使えば…
あっしまった、私英語駄目だ(汗
松永英明＠ことのは 2005/01/16 13:40:17

Re:多言語処理なんてするから面倒なんだ!

>この際全員英語を使えば…
>あっしまった、私英語駄目だ(汗

ウケタ（笑
Beth 2005/01/17 22:09:24

Unicode対応CGIの一例

Unicode対応CGIの一例です。終了した質問ですが、参考までに。

http://homepage3.nifty.com/marbacka/msearch/

5.6未満のPerlが入っているサーバーで使ってますが、問題なくUTF-8を検索できています。
http://homepage3.nifty.com/marbacka/msearch/
MrT 2005/01/19 14:13:18

CP932問題

もう回答は締め切ってしまっているようなので、こちらに書きます。
　
> もし日本語を扱うのにUnicodeではまずい合理的な理由があれば滔々と述べていただければ幸いです。
　
に関して、1の回答の[その３]のCP932問題は大きいと思います。
　
> その３、これは外国語を切り捨てる理由としては弱いかと。
> 最後、MSの新規格は論外。
　
とおっしゃってますが、本当にそうでしょうか？
よく考えてみてください。
　
windowsにおいて、JIS系コード(ShiftJIS,EUC-JP,ISO-2022-JP)とUnicodeとの変換が、一般規定と異なる為、“〜”を初めとするいくつかの文字はUnicode表記をするとWindowsと他OSとで表示が異なってしまいます。つまり文字化けが起こる。
JIS系コードならばこの心配はありません。
なので、日本語の表示をさせるには、エンコードはJIS系コードを用いるのが安全なのです。Webに関しては、Unicodeでしか表示できない文字も＆＃で始めるUTF-8のコード表記で書けますから。
“〜”を初めとする問題のある文字を一切使わないなら別ですが、そうでないなら。
windowsが他の一般規定を無視した為、Unicodeで書いた場合に上記文字化けを防ぐ方法はありません。(windowsのみで動作するソフトで他OSでは使わない物、またはその逆ならUnicodeを使用しても良いのですが、CGI等はそうではないですよね。)
それでいて、JIS系コードを用いた場合に、Unicodeの文字を表記する手法はあります。
　
これを、理由として小さいとは私は思いません。
松永英明＠ことのは 2005/01/21 11:29:27

Re:CP932問題

外国語を切り捨てる理由、という点について誤解があるようですが、わたしは常に日本語と他の言語の文字を同じHTMLファイルの中で扱う必要性があります。それに目をつぶって、どうしても日本文字だけにこだわり、たとえば（検索の利便も捨てて）外国文字を画像ファイル化して埋め込むことを考えなければならないほどの重大な理由があるのだろうか、あるいは（面倒だから、ではなく）積極的に日本文字以外を切り捨てなければならないと考えているような人がいるのだろうか、という趣旨の質問でありました。

「〜」問題については、すでにMovableType携帯対応CGIのMT4iでは解決されていますので、理由にはならないと思います。

また、JIS系コード上（たとえばはてなダイアリー）で実体参照を使えば他の言語の文字が表示されるのも知っていますが、例えば半分が中国語のとき、そのまま貼りつけられないでいちいち変換しなければならないのは致命的です。ですから、中国語の話題については、UTF-8のはてなグループに移行せざるを得ませんでした。

やっぱり今のところ、「面倒くさい」「日本語以外の言語のことは念頭に置いていない」以外に日本語文字コードでなければならない理由はないように感じます。
a-gamyl 2006/09/27 14:14:43

UTF-8を扱うと２バイトでよかったメモリが外国語も考慮して、４バイトのメモリとして扱わないといけなくなるってことですよね？
単純なCGI程度のプログラムなら良いのですが、非常に大きなデータベースを扱うかうようなプログラムを書かれているかたは、このような問題には非常にデリケートになるのではないでしょうか？
kou_sa_to 2008/03/29 22:13:46

　CGI、特に Perl に関してですが……。

　個人的に大きいと思うのは、既存のスクリプトがそのまま流用出来なくなるって事でしょうか。というか、文字コード依存のスクリプトをたらたら書き出すプログラマの腕もどうかな、と（ごく一部、どうしても依存のコードを書かないと目的を達成できないとかはさておき。）。Shift_JIS の利点は、現状ほとんど無いと思います。制御コードが含まれる2バイト文字とか。散々言われていることですけど。EUC-JP も以下同文。ISO-2022-JP は複雑だからヤダ。
　Perl 上の Unicode のサポートの問題は、UTF8 フラグとか直感的にわかりにくい構造を持っていることでしょうかね。少々マニュアルを読めば理解できるのですけど、それを怠っている人が多いこと。ただ、perl 5.8 over の嬉しいところは、encoding.pm が入出力にフィルタとなって、入出力の文字コードを変えてくれるので、既存のシステムとの整合性を取りつつ切り替えることが出来ると思いますがね。

　あ、Unicode でただ気になるのが \ <- これが￥にならないことです。ちょっと気になる。いやあ、慣れの問題ですが。

　処理能力がないシステムでは Shift_JIS とか EUC-JP を使用するしか無いんでしょう。そんなにマッピングが多いと、メモリなどの資源の問題もありますし。
# そんな古いシステムなんか捨てちまえ！という意見はなしで（ぉ。

妄言砂漠妄言砂漠 2006-03-13 16:12:36
JULYの日記 JULYの日記 2006-03-13 16:12:36
daemon的視点 daemon的視点 2006-03-13 16:12:36
honeraの雑記(自分用メモ) honeraの雑記(自分用メモ) 2006-03-13 16:12:36
irukajpの日記 irukajpの日記 2006-03-13 16:12:36
おまえのものは＠ことのはインフォーマルおまえのものは＠ことのはインフォーマル 2006-03-13 16:12:36
金魚運動で全て解決します。金魚運動で全て解決します。 2006-03-13 16:12:36
元ＯＲＪＰの隠れ家元ＯＲＪＰの隠れ家 2006-03-13 16:12:36
overleoの日記 overleoの日記 2006-03-13 16:12:36
finalventの日記 finalventの日記 2006-03-13 16:12:37
ドキドキ上海日記ドキドキ上海日記 2006-03-13 16:12:37
裏旅人徒然草裏旅人徒然草 2006-03-13 16:12:37
たていすのメモたていすのメモ 2006-03-13 16:12:37
はてな【ここで質問をしたことがある人へ】みなさんがどういう場合に人力・・はてな【ここで質問をしたことがある人へ】みなさんがどういう場合に人力・・ 2006-03-13 16:12:42
U20プログラミングコンテストで成果を出したい d金魚による dKingyo Utility Toolkit 日記 U20プログラミングコンテストで成果を出したい d金魚による dKingyo Utility Toolkit 日記 2006-03-13 16:13:22

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

dev_zer0 · Answer 1 · 2005-01-14T11:39:47+09:00

http://euc.jp/i18n/ucsnote.ja.html

従来の文字コードとUnicodeの対応に関する諸問題

その１、既存のシステムとの整合性の問題

全てのシステムをUnicodeで書き直すのは現実的ではない。

特にメールシステムは現在でもJISが標準だが、これはどうするのだろう？

http://www.linux.or.jp/JM/html/LDP_man-pages/man7/unicode.7.html

Manpage of UNICODE

その２、Unicodeと一口に言っても実装方式には

UCS-2、UCS-4、UTF-8、UTF-16などがあり、

現在はUTF-8が主流だが、将来どうなるか不明。今は様子見の段階である。

（最初にUCS-2を考えた奴はアホだと言っておこう）

その３、EUCやShift-JISはバイト数/2で文字数を算出できるがUTF-8は先頭からスキャンしないと文字数を算出できない。

JISコードとかと同じでUTF-8はバイト数＝文字数ではない。

http://www.dmz.hitachi-sk.co.jp/Java/Tech/i18n/unicode.html

最後にMSもShift-JISと微妙に異なるCP932という規格を勝手につくってさらに文字コードを混乱させている。

個人的にはUnicodeは嫌いだ。

どうせ統一的に扱えないのならJISみたいにシフトコードを定義し、あとはコードのマッピングはそれぞれに任せた方がよいと私は考える。

dokusha · Answer 2 · 2005-01-14T12:07:18+09:00

http://www.jsa.or.jp/

JSA 日本規格協会

もたもたしてたからじゃないですか？

というのは半分冗談で。

何時までも続くとは思っていなかったのでしょうが、データをバイト単位で扱う事になれていたからじゃないでしょうか？

バイト単位であつかって、特定ビットを監視するというようなコーディングになれるとShift_JIS であるとか EUC-JP は非常に扱いやすいコード体系になっているからだと思います。

メモリを「リニア」に考えた場合、何時までも１バイト単位で考える必要はなかったんでしょうから（そもそもバス幅なんてとっくの昔に拡張していたんですから）さっさと２バイト、４バイト単位で扱えれば良かったんでしょうけど。

これは狭い経験からですが。

Unicodeをベースにすると、コード内は”英文化する”ような気がします。つまり、ハングルやら中国語（簡体字？）を排除するというよりも、日本語も排除して ASCII に”寄せられて”結局静的データ領域は”上がスカスカ”になっているような気がするんですが、最近ではこんなメモリ的な無駄は無駄とも認識されず、それよりも怪しい挙動をしないようにってとか見てくればかりが求められているようで。ブツブツ（この続きは夜に居酒屋でやります）

abunakunai · Answer 3 · 2005-01-14T13:35:45+09:00

http://www.debian.or.jp/~kubota/unicode-symbols-map2.html

やはり、圧倒的にコピーペーストでプログラムを作成し、

「基本」から理解してない方が多いのではないでしょうか。

みな、eucを推奨しているから…と特に深く考える人はいないのしょう。

utf-8は文字化けも無いはずなので個人的には使いやすいんですがねぇ。

普及していないのは、言語のサポートが完全でない点もあげられるでしょう。

Perl4の時代はencodeモジュールもなかったでしょうし、

現状流行りのPHPだとしてもmbstringがなければutf-8はほぼ使えない状態です。

また、日本語かなが3byteになって無駄に増えてしまうというのも躊躇される原因でしょう。

ハイフンや似た文字が複数存在してしまうのもちょっと困りますよね。

shampoohat · Answer 4 · 2005-01-14T14:06:44+09:00

http://www.ipsj.or.jp/members/Magazine/Jpn/3904/article014.h...

嫌いだからではないにせよ、Webのhtmlはunicodeなんて少なく、cgiもperlに依存する。あまり使いたいと思われていない様子ですよね。Webに関してはJavaならかなりすぐutfなりに対応できるものの、ブラウズする側はそれでいいのかってのがあるかと。

parotako · Answer 5 · 2005-01-15T10:15:14+09:00

http://www.nttdocomo.co.jp/p_s/imode/make/tag/index.html

（上記は一例です）

CGIについては、単純にShift-JIS（のみ）に対応しているブラウザが多いからだと思います。

最近では、Unicodeに対応するブラウザも増えてきましたが、特にモバイル系のブラウザは対応が遅れている気がします。

あと、フリーソフトについては、通常は文字列を処理する関数が対応するコードでプログラムを組むと思いますので、その開発環境や動作環境に依存すると思います。

また、以前のソースを流用する場合、どうしても流用元の時代に使われたプログラムを最低限の修正で使おうとするために、コードの変更は優先順位が下がる可能性があります。

やる気（と時間）がある人は、直すかもしれませんが、やる気がない人は、そのままということです。

Iwa · Answer 6 · 2005-01-15T14:10:51+09:00

http://homepage1.nifty.com/nomenclator/perl/unicode.htm

EUCやSJISを主に使っている自分からひと言言わせて貰うとすれば・・・

PerlでCGIを作る場合、Unicodeをまともに扱うことができるようになったのはPerl5.8.xからです。

（というよりPerl5.8からは内部処理がUnicodeで行われます）

Perl5.6は、実験的サポートの段階でバグ等もありました。

Perl5.005でのUnicode使用は論外でしょう。

にもかかわらず、レンタルサーバーを提供している会社を見てみると、5.6.1であるならまだしも未だに5.00503を使っているところが多いです。

このような状況下でUnicodeベースのものを作っても、周りの環境が対応していないのでは無意味です。

メールにおいても、中国人が送ってくるメール（スパムの場合）はほぼ100%がBig5等でUnicodeで送られてきたものは見たことありません。

皆がUnicodeを使うようにならなければ、自国が使っている主な文字コードだけサポートしていれば今のところ問題はない状況です。

ところで、はてなは全体的にEUCのようですけど・・・。（UTF-8なのはRSSだけのようですが？）

x2pop · Answer 7 · 2005-01-16T00:11:26+09:00

http://www.hatena.ne.jp/?

はてな

アドレスかけなくてごめんなさい。個人ページなので…

私が作ったり改造しているプログラムはどれもUTF-8です。

複数の言語を扱うのでこの方が便利です。

詳しいことは分かっていない日曜プログラマー(?)ですが、もう１年以上前から全部UTF-8になっています。

Shift-JISやEUCよりメリットが多いのでこちらを使う予定はありません。

トラブルにはあったことがないのですが、何かあるんでしょうかね…。

onsenkozo · Answer 8 · 2005-01-16T00:25:16+09:00

http://www.tron.org/tronproject/tp_btron.html

プロジェクト-BTRON

とりあえず日本にはTRONコードがあります。

Unicodeなどいらんのです。(w

TRONコードはUnicodeさえ包含しています。（除くCJK統合漢字。入れててもいいのにね。）

10%位マジです。とはいえ自分も最近はUnicodeなテキスト吐いてますが。

日本人の開発したCGIやフリーソフトは、なぜいつまでたってもEUCやShift-JISに固執し、Unicodeをベースに作成しないのでしょうか。

回答（8件）

dev_zer0332252005/01/14 11:39:47

dokusha1502005/01/14 12:07:18

abunakunai2632005/01/14 13:35:45

shampoohat34702005/01/14 14:06:44

parotako102005/01/15 10:15:14

Iwa12062005/01/15 14:10:51

x2pop7722005/01/16 00:11:26

onsenkozo102005/01/16 00:25:16

コメント（7件)

この質問への反応（ブックマークコメント）

トラックバック