文市の小箱茶室ケーキ小箱LX紅茶[読書]-[各種形式]\ 自転車好み他伝言板リンク

 

電子書籍データの各種形式


PCやMac上で閲覧できる電子書籍のデータ形式は、様々なものがあります。 (5/30/00更新)


もっとも柔軟で移植性が高いのがテキストデータです。
テキストデータの各種形式

英文字についてはASCIIコードが標準的に使われています。
漢字を含む日本語の文字コードとして良く使われるのは、次の4種類です。(JISでの文字集合の規定については表で示します。 )

JISコード
ISO-2022-JPで規定されたコード化手法。インターネット上で電子メール等で日本語を使用するために考案された方法。

JIS X 0202の機能(符号化文字集合を切り替える方法)の限定利用であり、ASCII(JIS X 0201の英字)とJIS X 0208-1978、と-1983(いわゆるJIS第1、第2水準)の文字集合を利用できる手法。
JIS X 0201のカタカナ(いわゆる半角カタカナ)は使用できない。


シフトJISコード
MS-DOSやMS-Windows、Mac-OS で使われており、パソコン用のデファクトスタンダードとなっているもの。

JISコードのシフトイン/シフトアウトを使わないため、英語版のアプリケーションソフトを日本語対応にする際に処理プログラムがシンプルで済み、また、文字列の見かけ上の長さとバイト数が比例する方式。
JIS X 0201の文字集合(いわゆる半角英数カナ)に切替なしでJIS X 0208の文字集合(いわゆるJIS第1水準、第2水準漢字)を追加して使えるようにするため、JIS X 0208のコードをずらしてJIS X 0201と併用できる文字コード空間に押し込める手法。


日本語EUCコード
Extended Unix Code の略。UNIXの日本語化で広く使われている。

ASCII、JIS X 0201カタカナ、JIS X 0208(いわゆるJIS第1水準、第2水準漢字)、JIS X 0212(いわゆるJIS補助漢字)の四つの文字集合を利用できる。
ただし、シフトJISと異なり、JIS X 0201カタカナ(いわゆる半角カタカナ)は2bytesとなる。UNIX上のEUC対応のプログラムすべてがJIS X 0201カタカナやJIS X 0212(いわゆるJIS補助漢字)に対応しているわけではない。このため、半角カタカナの使用を避ける利用者が多い。


Unicode
MS-Windows98やWindowsNT Ver.4で対応され始めた16bitの文字集合。各言語の文字を収録し、世界統一の標準的な文字コードとなりつつある。ISO/IEC-10646-1として制定済み。

MS-Wordや一太郎やJavaでは、すでに内部的にシフトJISでなくUnicodeを使用するようになってきている。
上述の3種類の文字コードは、JIS X 0208等の文字集合のコード化手法のことだが、Unicodeは逆に文字集合のことであり、コード化手法はUTF-7、UTF-8、UTF-16、UCS-4といった複数の手法からどれかを採用することになる。
「日本や中国の伝統の漢字文化をマイクロソフトが無知に基づき勝手に不当なコード化を行い、押し付けようとしている」という無知と誤解による誤った暴論を生み出したことで有名。
JIS批判については、JIS X 0208:1997の解説が詳しい。



電子メールなどで「JISコード」と呼ばれているものは、既述の通り、ISO-2022-JPで規定されたコード化手法によるものです。
実際には、JISで定められている情報交換用符号は以下の表の通りです。
JIS主な文字種ビット数摘要
JIS X 0201-1997アルファベット、数字、カタカナ、記号7ビットまたは8ビットISO 646準拠の国内規格。いわゆる半角英数カナ
JIS X 0208-1978漢字、数字、ラテン文字、ひらがなカタカナ、ギリシャ文字7ビットおよび8ビットの2バイトいわゆる旧JIS第1、第2水準。
JIS X 0208-1983漢字、数字、ラテン文字、ひらがなカタカナ、ギリシャ文字、罫線文字7ビットおよび8ビットの2バイトいわゆる新JIS第1、第2水準。罫線文字の追加や文字の入れ替えが行われた。
JIS X 0208:1997漢字、数字、ラテン文字、ひらがなカタカナ、ギリシャ文字、罫線文字7ビットおよび8ビットの2バイト現行のJIS第1、第2水準。
JIS X 0212-1990特殊文字、アルファベット、漢字7ビットおよび8ビットの2バイトいわゆるJIS補助漢字
JIS X 0213:2000JIS X 0208:1997に人名漢字、教科書用漢字、記号他を追加拡張して新たに制定された文字コード。7ビットおよび8ビットの2バイトいわゆるJIS第3水準、第4水準漢字
JIS X 0202-1991符号そのものではなく、情報交換用符号の拡張法7ビットまたは8ビットISO-2022の国内規格。ロッキングシフトやシングルシフトで、符号化文字集合を切り替える方法。
JIS X 0221-1995国際統一コード32ビットISO 10464-1の国内規格。いわゆるUncode
2000年1月20日、いわゆるJIS第3水準、第4水準と呼ばれていた符号化拡張漢字集合JIS X 0213:2000は日本工業規格として制定されました。
丸付数字、単位記号、地名・人名漢字等、現代日本語を符号化するためにJIS X 0208では不足していた文字が拡張されました。


改行コードはOSによって異なります。
MS-DOS、MS-Windows
CR(復帰)+LF(改行)
Mac-OS
CR(復帰)
UNIX
LF(改行=NL)

電子書籍データの各種形式

テキストに、タグを書きこんだ形式として代表的なのは、ごく簡易なsetext、SGMLに基づいたHTMLやXMLなどがあります。
テキスト形式でなく、独自のバイナリデータとしては、エキスパンドブック形式、T-Time形式、Adobe AcrobatのPDF形式などがあります。
また、いわゆる各種ワープロソフト(MS-Wordや一太郎など)の形式で配布されている場合もあります。

代表的な形式としては、次のようなものがあります。

エキスパンドブック(.EBK)
VOYAGER社のMAC用(PC用もあり)読書ソフトの形式。
テキストに加え、グラフィック(PICT,BMP,QuickTime)、サウンド(AIFF,QuickTime)、音声(WAVE)、ムービー(QuickTime,Video for Windows)を貼り込める。データはMacintoshとMS-Windowsで共用に作ることが可能。
T-Time(.TTZ)
ボイジャー社のテキストの縦書き閲覧ソフトT-Timeの扱える形式のうち、独自形式。
パブリッシャーズ・キット(3万円)でWin/Mac共通のTTZ形式を作成できる。
PDF(.PDF)
Adobe社のAcrobatというソフトの形式。
PostScript形式を元に、代替表示フォントの機能など使い勝手を向上させ、PostScriptインタプリタの処理の重さを避けるよう簡易化した形式。圧縮によってコンパクトなファイルサイズにできるのも利点。
専用ビューアAcrobat Readerは各プラットフォーム用のものが無料で配布されている。
製品版のAcrobatを購入すれば、PostScript形式からの変換はもちろん、PDF形式の作成がAcrobat PDFWriterへの印刷操作だけで簡単に行える。
インターネットエクスプローラやネットスケープナビゲータ上でPlug-Inとして動作可能。
Acrobat Readerでは、PDFファイルの作成、テキストデータの一括抜き出し等は行えない。文字表示部分を範囲指定してクリップボードへのコピーのみ可能。
文字部分が文字コードとフォント指定のため、閲覧側の画面解像度に応じた精細度の文字表示となる。フォントも埋め込みするかどうか選択でき、埋め込まずに指定フォントがない場合は代替フォントでの表示を行えるよう工夫している。
SGML
文書をたとえばタグつきテキストとして構造化できる標準汎用マークアップ言語。
HTML(.HTM等)
インターネットのWWWで標準的に使われているハイパーリンクのできるタグつきテキスト形式。
プラットフォームに依存しないハイパーテキストを作るのに使われるシンプルなマークアップ言語。
HTML 2.0やHTML3.2は、SGMLのDTD(文型定義)によって定められたSGML応用文書。
一方、広く使われているHTMLブラウザ(Netscape NavigatorやInternet Explorer)のHTMLの解釈は厳密な文法チェックでなく実用的なWebの表示を旨としており、解釈できないタグは読み飛ばし、SGMLの文型定義に従わなくてもそれなりの表示をする仕様となっている。
XML(.XML等)
HTMLの普及の結果、HTMLの文書構造化サポートの弱さ、表現力の限界、拡張性の貧しさを指摘し、それを乗り越えるものとして提唱されているマークアップ言語。Web環境との親和性がきわめて高いSGMLの簡易的なサブセットであり、HTMLに代わってWeb上の文書の標準形式と目されることが多い。
setext
簡易構造化テキスト。「=」と「-」による下線で目次を自動生成。
れにゃドットこむ「電子書籍という潮流」の該当項目をご参照ください。
CyberBook
HTMLによるWebを、「本のメタファー」による操作性にしたソフト。HTMLからの変換を行って、CyberBook形式としておき、閲覧する。
Rocket eBook(.RB)
bn.comで販売されているRokcket eBook用形式。Rocket eBookか、PC上ではGlassbookというソフトで閲覧する。日本語には対応していない。
PocketPC用eBook(.LIT)
MicrosoftのWindowsCEによるPsPCの後継機といわれるPocketPCのMicrosoftReaderで閲覧するデータ。bn.comで2000年5月から配布開始。日本語対応データはまだない。


携帯機器にコピーして読書するためには、容易にテキストに変換できるかどうかが重要です。
以下に一覧表をあげます。
形式、テキストへの変換ソフト
エキスパンドブックWindows用市販、Mac用市販、DOS用フリー
T-TimeWindows用市販、Mac用なし、DOS用なし
PDFWindows用市販、Mac用市販、DOS用なし
CyberBookWindows用市販、DOS用なし
HTMLWindows用市販・シェア・フリー、Mac用フリー、DOS用フリー
setext不要

文市の小箱茶室ケーキ小箱LX紅茶[読書]-[各種形式]/ 自転車好み他伝言板リンク

文市(あやち)=青野宣昭