ユニコード テスト ページ Top (Japanese) Top (English) Unicode Test Page
(目次) --- --- 参考 --- 関連サイト (Contents) --- Table --- Notes --- Related Sites
本ページは Unicode で書かれています。エディタとしては Yudit を使わせていただきました。ブラウザとしては例えば「WinXP + IE6 + ユニバーサル フォント」で8割がた表示されます。 数年後には全部が正しく表示されるでしょう。 28種の文字を集めましたが、今のところ、 以下をサポートするユニコード対応でフリーな TrueType フォントが見つかっていません。
  • オリヤー文字の子音字結合
  • クメール文字の脚 (coeng : 17D2 + 子音字)
  • モンゴル文字の語頭形、語中形、語尾形
情報をお持ちの方はお教えください。
The page is written in Unicode by using the Yudit, and may be rendered about 80% with WinXP, IE6 and Unicode font. I expect that all characters are displayed correctly in a few yeras. I have collected 28 kinds of scripts, but could not find the free Unicode font which supports following features.
  • Oriya dependent consonants
  • Khmer sign coeng (17D2) which functions to indicate that a following Khmer letter is to be rendered subscripted
  • Mongolian isolate, initial, medial and final forms
If you know the solution, please inform me.
下表の記号の意味 Notation of the following table
Code Range その文字に割り振られたユニコードの範囲
Name文字の英語名 by Unicode, Inc.
D(traditional) writing Direction
: lr-tb, : rl-tb,
: tb-rl, : tb-lr
Sword Separator
: space, | : none,
other : original
,(traditional) comma
.(traditional) full stop
C the number of Cases
2 : capital, small
4 : isolated, initial, medial, final
C/V combination of Consonant & Vowel
b+a : additive,
b-a : subtractive (by virama),
ab : consonantal, ba : syllabic
NNumerals. 1 : Arabic, O : has another one
RRemarks
Name言語の英語名 by ISO
Code ISO 639-1 (alpha-2 language codes)
in own script 言語名をその言語で表現
Word for `number' 「数」という語をその言語で表現
#Web the number of web sites which include the language name in its own script
世界の文字 Characters of the World ( -- : 未解決 // unsolved)
文字 Character 言語(例) A (only) language Link
Code RangeName DS,. CC/VNR Name Code in own script Word for `number' #Web :Font
:Language
:Dictionary
0000-007F Latin , .2 b+a1- Frenchfr français nombre 15,200,000
0400-04FF Cyrillic , .2 b+a1 * Russianru Русский номер 2,420,000
0370-03FF Greek , .2 b+a1 * Greekel ελληνικά αριθμός 198,000
10A0-10FF Georgian , .1 b+a1 * Georgianka ქართული ენა ნომერი 2,620
0530-058F Armenian , ։ 2 b+a1- Armenianhy հայ համարի 221
1200-137F Ethiopic 1 ba O - Amharicam አማርኛ ቅጥር 0
0590-05FF Hebrew , .1 (a)b1- Hebrewhe עברית מספר 53,300
0600-06FF Arabic ، . 4 (a)b O * Arabicar العربية رقم 706,000
FB50-FDFF
FE70-FEFF
۔ (a+)b Urdu ur اردو عدد 8,430
0900-097F Devanagari , 1 b-a O - Hindi hi हिन्दी अंक 1,390
0980-09FF Bengali , 1 b-a O - Bengalibn বাংলা শৰন্খা 170
0A00-0A7F Gurmukhi , 1 b-a O - Panjabipa ਪੰਜਾਬੀ ਅੰਕ 41
0A80-0AFF Gujarati , .1 b-a O - Gujaratigu ગુજરાતી સંખા 121
0B00-0B7F Oriya , 1 b-a O - Oriyaor ଓଡ଼ିଆ (27)
0B80-0BFF Tamil , .1 b-a O - Tamilta தமிழ் 515
0C00-0C7F Telugu , .1 b-a O - Telugu te తెలుగు అంకె 47
0C80-0CFF Kannada , .1 b-a O - Kannada kn ಕನ್ನಡ ಅಂಕಿ 319
0D00-0D7F Malayalam , .1 b-a O - Malayalamml മലയാളം അനേകം (38)
0D80-0DFF Sinhala , .1 b-a1 - Sinhalesesi සිංහල 0
1000-109F Myanmar | 1 b-a O * Burmesemy ဴမန္မာစာ အမုတ္ 0
1780-17FF Khmer | 1 b(a,o) O * Khmerkm ភាសាខ្មែរ ចំនួន 0
0E00-0E7F Thai | 1 b(o) O * Thai th ภาษาไทย ตัวเลข 37,000
0E80-0EFF Lao | , . 1 b(o) O * Lao lo ພາສາລາວ (8)
0F00-0FFF Tibetan 1b(a) O * Tibetan bo བོད་སྐད་ གྲངས་ (22)
4E00-9FAF Chinese | 1 ba O * Chinese zh 中文 124,000
3040-309F Hiragana | 1 ba 1- Japaneseja
にっぽんご
ニッポンゴ
かず
カズ
3,860,000
30A0-30FF Katakana-
AC00-D7AF Hangul 1 b+a 1- Koreanko 한국어 194,000
1800-18AF Mongolian
4
b+a
O * Mongolianmn
монгол хїн
ᠮᠣᠩᠭᠣᠯ
тоо дїн
ᠲᠣᠭ᠎ᠠ᠋
(1,270)
Notes
*ka : Mkhedruli is the modern secular (宗教色のない) alphabet, which is caseless (小文字のみ).
Khutsuri (Khucuri) is the old ecclesiastical (教会用) alphabet which has several styles, Asomtavruli looks like uppercase, Nuskhuri (Nuskha-khucuri) lowercase.
*my : インド諸文字同様、virama (母音消し)、anusvara (鼻音)、visarga (声門閉鎖) があり、 さらに aukmyit という短音を示す声調記号もあります。 また、文字を囲むような大掛かりな子音字結合があります。 実装は難しいようで、Myazedi.ttf は Unicode 4.0 では未定義のアドレスに 状況依存型の子音を割り当てて当座をしのいでいるようです。例えば
1033 : ဳ
1034 : ဴ
1035 : ဵ
を後続の y 音 (かつては r 音) として使っています。 Myanmar の Mya は ma - a (virama) + ya を忠実にレンダリングした မ္ရ ではなく、一文字の ဴမ が本来の姿なのでしょう。
*km : Version 4.0 の Code Chart には "(deprecated)", "use of this character is strongly discouraged", "These characters are included solely for compatibility with particular applications;" などの注釈があり、経緯を踏まえつつ作業中のようです。

まず、クメール文字の子音には固有母音 (inherent vowel) が a 音の the first register と、o 音の the second register があります。 子音のグリフは、それぞれのレジスター用に、 または一方のレジスターだけに用意されています。後者の場合 Consonant shifter と呼ばれる符号によって切り替えます。
glyph piece codefunction transliteration of the mark's name
by the Unicode Consortium preferred
17C92→1muusikatoanmuusekatoan
17CA1→2triisaptreisap
原則として Consonant shift された字は固有母音が変わりますが、 第一レジスターの子音字に muusikatoan を付けて子音自体が変わるような場合もあります。 形式的に表を作ると次のようになります。
consonamt kkhcch dttht thphl
1 (a)
2 (o)
子音字には一部構成または二部構成の依存型母音が付加されますが、 発音はレジスターごとに別になります。
consonamt ngnyn pmyrv
1 (a) ង៉ ញ៉ ន៉ ព៉ ម៉ យ៉ រ៉ វ៉
sifter
2 (o)
consonamt nnbsh* ss*shq**
1 (a)
sifter
2 (o) ណ៊ ប៊ ឝ៊ ឞ៊ ស៊ ហ៊ អ៊
*: used only for Pali/Sanskrit transliteration (パーリ語、サンスクリット語音訳専用)
**: glottal stop (声門閉鎖音, U+17A2)。 これと同形の独立型母音字 QAQ (U+17A3, originally intended only for Pali/Sanskrit) が ありますが、U+17A2 を使えば済むので「使わないように」との注釈があります。
符号類 (diacritical marks) は豊富で、インド系のものに加え、 発音・声調・黙字・発音例外 (サンスクリット語、パーリ語、フランス語などからの借用語) を指示するものなどがあります。また、子音字結合のための明示的なコード coeng が導入されているのも特徴的です。

*th : 声調 (high, middle, low) ごとに複数のグリフを持つ子音字があります。 また、独立型母音字はなく、 (O ang, U+0E2D) に依存型母音を付加して表現します。 グリフとしての二部構成依存型母音はなく、それぞれのピースにコードが割り当てられていて、 ベースとなる子音字に順次付加していきます。 左から付加する母音字は子音字より先に入力するものと思われます。
a (mai han-akat)iiiueuee - (mai taikhu)
コード 0E310E340E350E360E370E47
อั อิ อี อึ อื อ็
eaeoaiai
コード 0E400E410E420E430E44
เอ แอ โอ ใอ ไอ
aaaam
コード0E300E320E33
อะ อา อำ
uuu
コード0E380E39
อุ อู
例外的にサンスクリット語を写すための独立型母音が二つ、 (RU, U+0E24) と (LU, U+0E26) とがあります。 どちらも右の縦画のトメがベースラインの下まで延びている点に注意します。 ベースラインで揃えてしまうと一般的に使われる全く別の字になってしまいます。

さらに声調符号 (mai) が四つ (ek, tho, tri, chattawa) あります。 これらはベースとなる字の上、上に付く母音符号があればその上、に付加します。

*lo : 声調 sung (高)、tam (低) ごとにグリフを持つ子音 (KHO, SO, THO, PHO, FO, HO) があります。 あと LO も声調 ling と loot ごとにグリフがあります。 NO と MO は HO sung との二重字 (digraph) を構成することにより sung になります。
(NO sung, U+0EDC) = (HO sung, U+0EAB) + (NO, U+0E99)
(MO sung, U+0EDD) = (HO sung, U+0EAB) + (MO, U+0EA1)
また、独立型母音字はなく、 (O, U+0EAD) に依存型母音を付加して表現します。 グリフとしての二部構成依存型母音はなく、 声調符号 (tone mai) が四つ (ek, tho, ti, catawa) あるのもタイ文字と同様です。
*bo : Version 4.0 の Code Chart では、 a-chung (U+0F71) という汎用 (というかサンスクリット転写用) 長母音化符号 (common, vowel-lengthening mark) を含む 二部構成依存型母音 (子音の上下に符号をつける) に "use of this character is (strongly) discouraged" の注釈があります。 たしかに一部構成依存型母音を重ねれば不要に思えます。 実際、Yudit の Tibetan- Wylie モード (+ utibetan.ttf) ではそうなっています。
Wylie 記法 aiueo
コード 0F68 +0F72 +0F74 +0F7A +0F7C
ཨི ཨུ ཨེ ཨོ
Wylie 記法 aaiiuueeoo
コード 0F68+0F71 +0F72 +0F74 +0F7A +0F7C
ཨཱ ཨཱི ཨཱུ ཨཱེ ཨཱོ
Wylie 記法 --Iaiau
コード 0F68+0F83 0F68+0F7F 0F68+0F80 0F68+0F7B 0F68+0F7D
ཨྃ ཨཿ ཨྀ ཨཻ ཨཽ
Tibetanfor SanscritDevanagari
ta
tha
da
dha
na
sha
他に、チベット語は、デバナガリ文字の反り舌音を音訳するために、 歯音 (t, th, d, dh, n) および摩擦音 (sh) を水平方向に裏返したグリフを 持っています (右図↗)。デバナガリの anusvara (bindu), visarga に相当する rjes su nga ro, rnam bcad さらに anunasika (candrabindu, もう一つの鼻音), virama に相当する sna ldan, halanta (srog med) もデバナガリとほとんど同じ形で持っています。
また、チベット語は「r, l, s + 子音」または「子音 + w, y, r, l, h」と続くとき、 先行する子音が上、後続する子音が下というスタックを最高三段まで形成しますが、 この子音字結合用に consonant と同じ数だけ Subjoined consonant と名付けられたグリフが用意されています。いわば依存型「子音」です。 特に、先行する r は ra mgo といい、形を変えますが、 グリフは用意されていない (専用のコードはない) のでソフトウェア側で対応します。 (utibetan.ttf は未サポートのようです。) 後続する w, y, r もそれぞれ wa-zur (wa-btags)、ya-btags、ra-btags といい、 形を変えるので、この三字のみ、consonant と Subjoined consonant の形状が 異なります。ただし、例えば brtse という音節が བྲཙེ་ となるのか བརྩེ་ となるのか、私はチベット語を知らないので判断できません。 ソフトウェア側は、いずれの場合も r が入力された時点で 一文字目のグリフを決定できますが、後者の場合、 r が入力されたという情報を e が入力されるまで保持する必要があります。 なお、r の Fixed-form consonant および w, y, r の Fixed-form subjoined consonant もあり、transliteration and transcription 専用とのことです。 h が後続するのは頻繁なようで、gh, dh, bh, dzh などには単独のコードが割り当てられています。あるいは三段のスタックを構成するのはこれらの文字に限られるのかもしれません。

また、記号が豊富です (Head marks, Astrological signs, Digits, Digits minus half, Paired punctuation, Transliteration head letters, Cantillation signs, Symbols) が、DingbatsMiscellaneous Symbols とは 趣が異なります。

*mn : この範囲には蒙古文字と同系の Todo (тод)、 Sibe (锡伯, 錫伯, シボ)、 Manchu (满洲, 滿洲, 満州) 文字、 およびサンスクリット語 (Sanskrit) とチベット語 (Tibetan) を写すための Ali Gali (Galig) 文字も割り当てられています。 また、蒙古系文字には、位置依存形の他に、第二〜四形、女性形などの変化形があり FVS (Free Valiation Selector, 180B-180D) によって制御されます。 もう一つ MVS (Mongolian Vowel Separator, 180E) という制御文字が用意されています。 a 音または e 音で終わるモンゴル文字の単語は、 その母音字を子音字から少し離して、子音字は語尾形で、 母音字は変化語尾形で書く場合があり、 MVS はこのために使われます。
関連サイト Related Sites
Alan Wood's Unicode Resources Unicode and Multilingual Support in HTML, Fonts, Web Browsers and Other Applications.
UTF-8 SAMPLER by Frank da Cruz I can't do it. 私にはできません。 Je ne peux pas le faire.
BabelStone1357 by Andrew West Scripts and Languages (CJK, パスパ, モンゴル, 満州, チベット, 彝), Unicode (フォント, ツール).
Savannah by Free Software Foundation lists the the contributors and contributions to the free UCS scalable font project.
Unicode in the Unix Environment by チボラ ロマン The Unicode Standard, Unicode in Practice, Unicode on Unix, Unicode on the Internet, etc.
UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn It allows you not only to handle text in practically any script and language used on this planet, it also provides you with a comprehensive set of mathematical and technical symbols that will simplify scientific information exchange.
GEONAMES The Countries of the World in their local languages and scripts - with official names, capitals, flags, and administrative divisions
UniLang Community provides a home for everybody interested in any aspect of language(s) or linguistics.
MediaGlyphs project The common writing system for the world
First edition : 2003.7.1