CALS技術研究組合規格(委員会案) NCALS 1008 1997.12.02(V0R12) =============================== 文字符号に関するNCALS共通規定 =============================== Code Standards for Common documents in NCALS ======== NCALS文書としての状態標識 =================== この文書は,NCALS/SWG31で技術内容がほぼ合意され,WGでの 承認手順に付議するために文面及び体裁の校正段階にある。 ==================================================
内容見出し(選択した章番号へ飛ぶことができます。)
Notes(参考)(規定外)NCALS共通規約策定の際の考え方 Note 1(参考1. 使用可能の文字範囲) Note 2(参考2. ASCIIの影響) Note 3(参考3. 1バイト片仮名の排除 Note 4(参考4. G1漢字の採用) Note 5(参考5. G3補助漢字の採用)(任意指定) Note 6(参考6. 同一文字の複数符号の排除 Note 7(参考7. シフトJIS符号の不採用 Note 8(参考8. 拡張UNIX符号(EUC)に類似) Note 9(参考9. JIS X 0221 国際符号化文字集合(UCS)の不採用 Revision histry(規格制定の履歴) Return to standards index(関連規格に戻る.)
- Purposes(目的)
- Scope(適用範囲)
- References(引用規格)
- Definitions(用語の定義)
- NCALS共通文字符号の規定
- Control codes(NCALS文書に含まれる制御符号の規定)
1.目的
生産・調達・運用支援統合情報システム技術組合(以下,NCALSと呼ぶ)で 共通に使用する文書中での文字符号を規定する。2.適用範囲
NCALS用に作成され,交換ネットワーク,各種媒体として交換する電子
文書, NCALS用の文書データベースなどに格納する電子文書は,この
規格に適合していなければならない。 この規格に適合した文書は,NCALS共通文字符号を有すると呼ぶ。 NCALS共通文字符号が使用される範囲は,文書中の次の(1)~(3)とする。 (1)文面(テキスト)中の文字列の符号表現 (2)図形データ中の文字列の符号表現 (3)映像(動画)データ中の文書概要の表現 文書に対し編集,表示,加工などの処理をする応用系の内部の 文字符号を規定するものではない。3.引用規格
この規格の引用規格は, 次のとおりとする。 (1)JIS X 0202 文字符号の構造及び拡張法 (2)JIS X 0208 7ビット及び8ビットの2バイト情報交換用符号化漢字 集合 (3)JIS X 0211 表示装置に対する情報交換用制御文字符号 (4)JIS X 0212 情報交換用漢字符号-補助漢字 (5)JIS X 4151 文書記述言語SGML (6)ISO/IEC 646 IRV(International Reference Version) (7)JIS X 0221 国際符号化文字集合(UCS) - 第1部 体系及び基本多言語面4.用語の定義
この規格で用いる次の用語の定義は,JIS X 0202のとおりとする。 (1)アナウンサ(announcer) (2)使用中の符号表(code table in use) (3)固定する(to lock) (4)指示する(to designate) (5)呼出す(to invoke) (6)G0集合(G0 set) (7)G1集合(G1 set) (8)G2集合(G2 set) (9)G3集合(G3 set) (10)シングルシフト (11)ロッキングシフト5.NCALS共通文字符号の規定
NCALS共通文字符号は,次の(1)~(6)の 符号構成とする。 (1)文字符号の使用にあたり,JIS X 0202による符号の拡張方法に従う。 (2)G0集合には,ISO 646 IRV(国際符号識別子:1バイトの04/0)を指示し, 符号表の左側に呼出し固定する。その指示シーケンスは,次のとおりとする。 ESC 02/8 04/0 (3)G1集合には,JIS X 0208-1997(国際符号識別子:多バイトの04/2)を指示し, 符号表の右側に呼出し固定する。呼出しにあたりロッキングシフトは, 使用 しない。 その指示シーケンスは,次のとおりとする。 ESC 02/6 04/0 ESC 02/4 02/9 04/2 (4)G3集合には,JIS X 0212-1997(国際符号識別子:多バイトの04/4)を指示し, シングルシフト3(SS3)によって,符号表の左側に1文字呼び出す。 JIS X 0212情報交換用漢字符号ー補助漢字を使用するか否かは,応用系
の仕様による。 その指示シーケンスは,次のとおりとする。 ESC 02/4 02/11 04/4 (5)ISO 646 IRVで規定する文字集合にある文字(英数字・記号類)は, JIS X 0208で規定する2バイトの文字符号を使用せずに 1バイトの文字符号(英数字・記号類)として使用する。 (6)JIS X 0208及びJIS X 0212で規定する文字以外は,使用しない。 備考1.NCALS文書に関連する処理系が,(5)の規定に反して2バイ
トの文字符号を受け取った場合,文字符号を1バイトの文字符号に変換
するか否か又は誤りとするか否かは,処理系定義とする。 備考2.NCALS文書に関連する処理系が,(6)の規定に反して標準外
の文字符号を受け取った場合,該当文字をゲタ記号に変換するか否か
又は誤りとするか否かは,処理系定義とする。6.NCALS文書に含まれる制御符号の規定
NCALS文書中に含む制御文字は,次の(1)~(6)のとおりとする。 (1)JIS X 0211で規定する機能文字の復帰(CR)は, JIS X 4151で規定する記録終了(RE)として使用する。 (2)JIS X 0211で規定する機能文字の改行(LF)は, JIS X 4151で規定する記録開始(RS)として使用する。 (3)JIS X 0211で規定する機能文字の間隔(SP)は, JIS X 4151で規定する間隔(SPACE)として使用する。 (4)JIS X 0211で規定する機能文字の水平タブ(HT)は, JIS X 4151で規定する分離子文字(SEPCHAR)として使用する。 (5)JIS X 0202で規定するシングルシフト3(SS3)は, JIS X 4151(SGML)で規定するマーク認知抑制文字(MSSCHAR)として,
その次の1文字(2バイト,ここでは情報交換用漢字符号ー補助漢字)
だけを呼び出す場合に使用する。
(6)JIS X 0202で規定するシングルシフト2(SS2)は,将来のために
保留する。
参考(規定外) NCALS共通規約策定の際の考え方
NCALSは,DoD/CALS-DTDを尊重しつつ, 日本国においては漢字が使用で
きることを前提として, 今後の20年間を見通しても共通な文書符号と
して使用できる文字符号になるようにするため, 次の1.~10.の考え方
で決定した。 参考 公用文の一つであるJIS様式では,JIS Z 8301(規格票の様式)に よって,"備考(規定内"と"参考(規定外)とを明示的に区別して, 読者の混乱を予防している。ここでも,その例にならい,この規定 の規定事項か単に読者の理解を助けるための記述かを分ける。
Notes(参考)(規定外)NCALS共通規約策定の際の考え方 Note 1(参考1. 使用可能の文字範囲) Note 2(参考2. ASCIIの影響) Note 3(参考3. 1バイト片仮名の排除 Note 4(参考4. G1漢字の採用) Note 5(参考5. G3補助漢字の採用)(任意指定) Note 6(参考6. 同一文字の複数符号の排除 Note 7(参考7. シフトJIS符号の不採用 Note 8(参考8. 拡張UNIX符号(EUC)に類似) Note 9(参考9. JIS X 0221 国際符号化文字集合(UCS)の不採用 Revision histry(規格制定の履歴)
Return to top(この文書の頭へ戻る.参考1. 使用可能の文字範囲
(1)現在,日本で使用されている文字は,JIS X 0201(情報交換用符号)及び
JIS X 0208で規定される1バイト(いわゆる半角)の英数字・記号類・片仮
名及び2バイト(いわゆる全角)の英数字・記号類・片仮名・漢字(第1水
準,第2水準)が多く, 原則としてNCALS文書でもこれらの文字を使用可能
とする。
(2)JIS X 0208にある漢字だけでは,漢字が不足しているため,使用目的
によっては補助漢字までを使用可能とする。参考2. ASCIIの影響
(1)ASCII(米国標準情報交換用符号)は,元々米国を中心にしたデータ交
換の符号であり,現在運用されてインターネットでの基本符号は, ASCII
文字によっている。
(2)UNIX(特にATT系)で多く使用されるEUC(Extended Unix Code)では,
使用中の符号表の図形領域の左側には,ASCIIが呼出されると想定してい
る。 (3)ASCIIとJIS X 0201のローマ文字集合との差は,2文字だけである。
(4)現在では,国際規格であるISO/IEC 646 IRVの定義する基本文字集合
がASCIIと一致しているため,国際性を考慮し,NCALS共通符号の左側図
形文字としては, ISO/IEC 646 IRVを採用した。これは, 内容的には
ASCIIと同一である。参考3. 1バイト片仮名の排除
(1)JIS X 0201は,英数字に取り敢えず片仮名及び円記号を導入した
歴史の産物である。漢字が制定され地球規模で情報交換される時代に
は, 要件が合致しなくなっている。
例えば, インターネットの世界では,1バイトの片仮名の使用を,禁止
している。
(2)このため,NCALS共通文書では, JIS X 0201で規定する片仮名文字
集合は, 1バイト片仮名符号として 使用せずに,JIS X 0208で規定す
る2バイト片仮名符号として使用する事とした。参考4. G1漢字の採用
(1)JIS X 0208で規定する文字集合をG1集合に指示し,符号表の図形
右側領域(GR)に呼出すことが 1990年に改正された旧JISで使用可能と
なった。これを利用すると, EUCで使用した表示装置でも漢字とし
て再生され, なじみやすい。
(2)1983年の旧旧JIS X 0208では,漢字符号を, G0集合に指示して,使用
中の符号表の図形左側領域(GL)に呼出すとされていた。その符号拡張
方法では,図形左側領域を1バイト英数字と2バイト漢字符号とが共用
するため,その境界でエスケープシーケンスが必要であった。しかし,
G1漢字方式では,左側と右側とが指示・呼出しされた後, 固定されて
いるので,通常,文中でのエスケープシケンスは出現しない。参考5. G3補助漢字の採用(任意指定)
(1)JIS X 0208にある漢字だけでは,漢字が不足しているため,補助
漢字までを使用可能とする。このためJIS X 0212を採用する。
(2)しかし現在の処理系では,まだ補助漢字を扱える環境が 充分であ
るとは言えないことから,使用するか否かは処理系定義とする。
(3)補助漢字を使用する場合には,NCALS共通符号として定めた符号を
使用すること。
(4)なおEUCでは補助漢字をG3集合に指示しSS3により呼び出すこととし
ているが, 符号表の右側に呼び出す点がNCALS共通符号とは異なっている。
(5)JIS X 0202の改正(1998年の予定)でも,符号表の右側に呼び出せる
ように変更されるが,JIS X 4151のSGML規格では,二つの多バイト文字
集合を同時に右側に呼出すことが出来ないため,左側に呼出すこととした。参考6. 同一文字の複数符号の排除
(1)例えば,1バイト符号(いわゆる半角)のAと2バイト符号(いわゆる
全角)のAとは,同じアルファベットのAであるが,日本では別の規格で
定義されているため, 現状では2種類の符号が混在して使用される。
このため検索などで同一視( 等値処理)するために処理を複雑にする
ことが発生する。
(2)半角・全角の印字の大きさの相違は,表示上の問題である。
(3)表示上の問題は,可変字送りフォントなどの普及によって, 解決さ
れる方向にある。
(4)ASCIIで規定する文字とJIS X 0208又はJIS X 0212で規定する文字と
で同値な場合には,ASCII(ISO/IEC 646 IRV)を採用することとした。参考7. シフトJIS符号の不採用
パーソナルコンピュータ(PC)では,いわゆるシフトジスが使用されることが多い。
シフトJISは,補助漢字集合まで適用使用とすると符号化可能な領域が
せまく, しかもJIS X 0202の符号拡張法に反しているため,地球規模で
は扱えないことが多い。このためシフトJISは, 不採用とした。 備考 ここでの"シフトJIS"は,JIS X 0208-1997の符号化文字集合に適合する文字 集合だけに限定している。したがって,実際の個人計算機の符号が"シフトJIS" と自称していても,JISのいう"シフトJIS"と同じではない。後者を呼ぶ場合, ”シフトジス"とすべてを片仮名によって表記する。”シフトジスは,JISで 規定した文字集合の他の文字(いわゆる外字)を処理系定義文字,利用者定 義文字などとして含む"あいまいな文字集合を示すのが通例である。参考8. 拡張UNIX符号(EUC)に類似
NCALS共通符号とEUCでは,補助漢字を使用しない場合には, 類似した符号体系となる。 相違点は,片仮名をJIS X 0208ベースにすることと, 英数字・記号類でJIS X 0208ベースではなく, ASCII(ISO/IEC 646 IRV)
とすること, 行末がNewline(0/10)だけでなく, Carriage reruen(0/13)
があることである。 このためNCALS共通符号の文書は,EUCで概ね読むことができる。ただし, UNIXの通常の入力系では,CR(0x0D)を書かないため,NCALS共通符号の文書を 生成しているわけではない。参考9. [JIS X 0221 国際符号化文字集合(UCS)]の不採用
(1)現状での日本における処理系の不足。 (2)地球規模で考えた場合での問題,中国文字などに混在する日本国の常
用漢字集合だけを選ばせる入力系の課題などが,まだ明確になっていない。
(3)このため今回のNCALS共通符号としては,不採用とした。ただし今後
の普及によっては,16ビット符号としての採用を継続的に検討することと
したい。 (4)採用にあたっては,8ビット系符号としての規定と16ビット符号とし
ての規定との2本立てになると思われる。参考10. 標準外文字(俗語:外字)の使用禁止
(1)外字については,(論理的な)情報交換を前提にした場合に,今のところ, (広域でのデータベース検索対象として)よい解決策が存在しないため
使用不可とする。 (2)NCALS文書中では,SGML実体参照を用いて外字を補う方向とする。 このためNCALS共通符号としては,拡張法を定めない。規格制定の履歴
このNCALS規格は, 次の段階を経て, 制定した。1. 作業案(working draft)段階
(1)1995.10.19,NCALS/SWG31に草案を起草。作業案として審議開始。 (2)1995.11.09, NCALS/SWG31 及び SWG32 合同会議において, 修正し, 規定 技術内容について説明し, 1995年11月末に作業案として承認することの了解を得た。 (3)1995.11.24,STEPの国際規格ISO 10303-21(清文記法)との相違 について報告し, STEP推進センターへも作業案(V1R05)を参考提示した。2. 委員会案(committee draft)段階
(1)1995.12.20 NCALS/SWG31 and SWG32 合同会議で委員会外への提示
規格として承認。 (2)1997.09.18 NCALS/SWG31によって,1997年版JIS X 0208へ対応することを 決定し,即日,有効とした(技術内容に変更なし)。3. 規格案(draft of NCALS Standard)段階
(1)1995.mm.dd, NCALS主任・副主任会議で規格案として, NCALS外への
提示を承認 (予定)4. NCALS規格(NCALS standard)段階
(1)1995.mm.dd, NCALS実証検証委員会において, NCALS規格として了解 (2)1997.09.18, JIS X 0208-1997の制定年を変更(SWG31承認) (3)1997.11.11, NCALS仕様識別子を追記5. CIFへの提示
(1)CIFでの共通符号案として, 起草(予定)