| ユニコード テスト ページ |
![]() |
Unicode Test Page |
| (目次) --- 表 --- 参考 --- 関連サイト | (Contents) --- Table --- Notes --- Related Sites |
本ページは
Unicode
で書かれています。エディタとしては
Yudit
を使わせていただきました。ブラウザとしては例えば「WinXP + IE6 +
ユニバーサル フォント」で8割がた表示されます。
数年後には全部が正しく表示されるでしょう。
28種の文字を集めましたが、今のところ、
以下をサポートするユニコード対応でフリーな
TrueType
フォントが見つかっていません。
|
The page is written in Unicode by using the
Yudit,
and may be rendered about 80% with WinXP, IE6 and
Unicode font.
I expect that all characters are displayed correctly in a few yeras.
I have collected 28 kinds of scripts, but could not find the free Unicode font
which supports following features.
|
|
|
|
| 文字 ♦ Character | 言語(例) ♦ A (only) language | Link | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Code Range | Name | D | S | , | . | C | C/V | N | R | Name | Code | in own script | Word for `number' | #Web |
❏:Font ❏:Language ❏:Dictionary | |||
| 0000-007F | Latin | → | △ | , | . | 2 | b+a | 1 | - | French | fr | français | nombre | 15,200,000 | ❏ ❏ | |||
| 0400-04FF | Cyrillic | → | △ | , | . | 2 | b+a | 1 | * | Russian | ru | Русский | номер | 2,420,000 | ❏ ❏ ❏ | |||
| 0370-03FF | Greek | → | △ | , | . | 2 | b+a | 1 | * | Greek | el | ελληνικά | αριθμός | 198,000 | ❏ ❏ ❏ | |||
| 10A0-10FF | Georgian | → | △ | , | . | 1 | b+a | 1 | * | Georgian | ka | ქართული ენა | ნომერი | 2,620 | ❏ ❏ | |||
| 0530-058F | Armenian | → | △ | , | ։ | 2 | b+a | 1 | - | Armenian | hy | հայ | համարի | 221 | ❏ ❏ | |||
| 1200-137F | Ethiopic | → | ፡ | ፣ | ። | 1 | ba | O | - | Amharic | am | አማርኛ | ቅጥር | 0 | ❏ ❏ ❏ | |||
| 0590-05FF | Hebrew | ← | △ | , | . | 1 | (a)b | 1 | - | Hebrew | he | עברית | מספר | 53,300 | ❏ | |||
| 0600-06FF | Arabic | ← | △ | ، | . | 4 | (a)b | O | * | Arabic | ar | العربية | رقم | 706,000 | ❏ | |||
|
FB50-FDFF FE70-FEFF |
۔ | (a+)b | Urdu | ur | اردو | عدد | 8,430 | ❏ ❏ ❏ | ||||||||||
| 0900-097F | Devanagari | → | △ | , | । | 1 | b-a | O | - | Hindi | hi | हिन्दी | अंक | 1,390 | ❏ ❏ | |||
| 0980-09FF | Bengali | → | △ | , | । | 1 | b-a | O | - | Bengali | bn | বাংলা | শৰন্খা | 170 | ❏ | |||
| 0A00-0A7F | Gurmukhi | → | △ | , | । | 1 | b-a | O | - | Panjabi | pa | ਪੰਜਾਬੀ | ਅੰਕ | 41 | ❏ | |||
| 0A80-0AFF | Gujarati | → | △ | , | . | 1 | b-a | O | - | Gujarati | gu | ગુજરાતી | સંખા | 121 | ❏ | |||
| 0B00-0B7F | Oriya | → | △ | , | । | 1 | b-a | O | - | Oriya | or | ଓଡ଼ିଆ | (27) | ❏ ❏ | ||||
| 0B80-0BFF | Tamil | → | △ | , | . | 1 | b-a | O | - | Tamil | ta | தமிழ் | 515 | ❏ | ||||
| 0C00-0C7F | Telugu | → | △ | , | . | 1 | b-a | O | - | Telugu | te | తెలుగు | అంకె | 47 | ❏ ❏ | |||
| 0C80-0CFF | Kannada | → | △ | , | . | 1 | b-a | O | - | Kannada | kn | ಕನ್ನಡ | ಅಂಕಿ | 319 | ❏ | |||
| 0D00-0D7F | Malayalam | → | △ | , | . | 1 | b-a | O | - | Malayalam | ml | മലയാളം | അനേകം | (38) | ❏ ❏ | |||
| 0D80-0DFF | Sinhala | → | △ | , | . | 1 | b-a | 1 | - | Sinhalese | si | සිංහල | 0 | ❏ ❏ ❏ ❏ | ||||
| 1000-109F | Myanmar | → | | | ၊ | 1 | b-a | O | * | Burmese | my | ဴမန္မာစာ | အမုတ္ | 0 | ❏ ❏ | ||||
| 1780-17FF | Khmer | → | | | ។ | 1 | b(a,o) | O | * | Khmer | km | ភាសាខ្មែរ | ចំនួន | 0 | ❏ ❏ ❏ | ||||
| 0E00-0E7F | Thai | → | | | 1 | b(o) | O | * | Thai | th | ภาษาไทย | ตัวเลข | 37,000 | ❏ ❏ ❏ | |||||
| 0E80-0EFF | Lao | → | | | , | . | 1 | b(o) | O | * | Lao | lo | ພາສາລາວ | (8) | ❏ ❏ | ||||
| 0F00-0FFF | Tibetan | → | ་ | ༔ | ། | 1 | b(a) | O | * | Tibetan | bo | བོད་སྐད་ | གྲངས་ | (22) | ❏ ❏ ❏ ❏ | |||
| 4E00-9FAF | Chinese | ↙ | | | 、 | 。 | 1 | ba | O | * | Chinese | zh | 中文 | 数 | 124,000 | ❏ ❏ ❏ ❏ ❏ ❏ ❏ | |||
| 數 | ||||||||||||||||||
| 3040-309F | Hiragana | ↙ | | | 、 | 。 | 1 | ba | 1 | - | Japanese | ja |
にっぽんご ニッポンゴ |
かず カズ | 3,860,000 | ❏ ❏ | |||
| 30A0-30FF | Katakana | - | ||||||||||||||||
| AC00-D7AF | Hangul | ↙ | △ | 、 | 。 | 1 | b+a | 1 | - | Korean | ko | 한국어 | 수 | 194,000 | ❏ ❏ ❏ | |||
| 1800-18AF | Mongolian | ↘ | △ |
᠂
|
᠃
|
4 |
|
O | * | Mongolian | mn |
|
| (1,270) | ❏ ❏ ❏ ❏ ❏ | |||
| *ka | : |
Mkhedruli is the modern secular (宗教色のない) alphabet, which is caseless (小文字のみ). Khutsuri (Khucuri) is the old ecclesiastical (教会用) alphabet which has several styles, Asomtavruli looks like uppercase, Nuskhuri (Nuskha-khucuri) lowercase. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| *my | : |
インド諸文字同様、virama (母音消し)、anusvara (鼻音)、visarga (声門閉鎖) があり、
さらに aukmyit という短音を示す声調記号もあります。
また、文字を囲むような大掛かりな子音字結合があります。
実装は難しいようで、Myazedi.ttf は Unicode 4.0 では未定義のアドレスに
状況依存型の子音を割り当てて当座をしのいでいるようです。例えば
1033 : ဳ
1034 : ဴ
1035 : ဵ
を後続の y 音 (かつては r 音) として使っています。
Myanmar の Mya は ma - a (virama) + ya を忠実にレンダリングした
မ္ရ
ではなく、一文字の
ဴမ
が本来の姿なのでしょう。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| *km | : |
Version 4.0 の Code Chart には "(deprecated)",
"use of this character is strongly discouraged",
"These characters are included solely for compatibility with particular applications;"
などの注釈があり、経緯を踏まえつつ作業中のようです。
まず、クメール文字の子音には固有母音 (inherent vowel) が a 音の the first register と、o 音の the second register があります。 子音のグリフは、それぞれのレジスター用に、 または一方のレジスターだけに用意されています。後者の場合 Consonant shifter と呼ばれる符号によって切り替えます。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| *th | : |
声調 (high, middle, low) ごとに複数のグリフを持つ子音字があります。
また、独立型母音字はなく、
อ (O ang, U+0E2D) に依存型母音を付加して表現します。
グリフとしての二部構成依存型母音はなく、それぞれのピースにコードが割り当てられていて、
ベースとなる子音字に順次付加していきます。
左から付加する母音字は子音字より先に入力するものと思われます。
さらに声調符号 (mai) が四つ (ek, tho, tri, chattawa) あります。 これらはベースとなる字の上、上に付く母音符号があればその上、に付加します。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| *lo | : |
声調 sung (高)、tam (低) ごとにグリフを持つ子音 (KHO, SO, THO, PHO, FO, HO) があります。
あと LO も声調 ling と loot ごとにグリフがあります。
NO と MO は HO sung との二重字 (digraph) を構成することにより
sung になります。
ໜ (NO sung, U+0EDC) =
ຫ (HO sung, U+0EAB) +
ນ (NO, U+0E99)
また、独立型母音字はなく、
ອ (O, U+0EAD) に依存型母音を付加して表現します。
グリフとしての二部構成依存型母音はなく、
声調符号 (tone mai) が四つ (ek, tho, ti, catawa) あるのもタイ文字と同様です。
ໝ (MO sung, U+0EDD) = ຫ (HO sung, U+0EAB) + ມ (MO, U+0EA1) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| *bo | : |
Version 4.0 の Code Chart では、
a-chung (U+0F71) という汎用 (というかサンスクリット転写用) 長母音化符号
(common, vowel-lengthening mark) を含む
二部構成依存型母音 (子音の上下に符号をつける) に
"use of this character is (strongly) discouraged" の注釈があります。
たしかに一部構成依存型母音を重ねれば不要に思えます。
実際、Yudit の Tibetan-
Wylie モード (+ utibetan.ttf) ではそうなっています。
また、記号が豊富です (Head marks, Astrological signs, Digits, Digits minus half, Paired punctuation, Transliteration head letters, Cantillation signs, Symbols) が、Dingbats や Miscellaneous Symbols とは 趣が異なります。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| *mn | : | この範囲には蒙古文字と同系の Todo (тод)、 Sibe (锡伯, 錫伯, シボ)、 Manchu (满洲, 滿洲, 満州) 文字、 およびサンスクリット語 (Sanskrit) とチベット語 (Tibetan) を写すための Ali Gali (Galig) 文字も割り当てられています。 また、蒙古系文字には、位置依存形の他に、第二〜四形、女性形などの変化形があり FVS (Free Valiation Selector, 180B-180D) によって制御されます。 もう一つ MVS (Mongolian Vowel Separator, 180E) という制御文字が用意されています。 a 音または e 音で終わるモンゴル文字の単語は、 その母音字を子音字から少し離して、子音字は語尾形で、 母音字は変化語尾形で書く場合があり、 MVS はこのために使われます。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 関連サイト | ♦ | Related Sites |
| • | Alan Wood's Unicode Resources | Unicode and Multilingual Support in HTML, Fonts, Web Browsers and Other Applications. |
| • | UTF-8 SAMPLER by Frank da Cruz | I can't do it. ♦ 私にはできません。♦ Je ne peux pas le faire. |
| • | BabelStone1357 by Andrew West | Scripts and Languages (CJK, パスパ, モンゴル, 満州, チベット, 彝), Unicode (フォント, ツール). |
| • | Savannah by Free Software Foundation | lists the the contributors and contributions to the free UCS scalable font project. |
| • | Unicode in the Unix Environment by チボラ ロマン | The Unicode Standard, Unicode in Practice, Unicode on Unix, Unicode on the Internet, etc. |
| • | UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn | It allows you not only to handle text in practically any script and language used on this planet, it also provides you with a comprehensive set of mathematical and technical symbols that will simplify scientific information exchange. |
| • | GEONAMES | The Countries of the World in their local languages and scripts - with official names, capitals, flags, and administrative divisions |
| • | UniLang Community | provides a home for everybody interested in any aspect of language(s) or linguistics. |
| • | MediaGlyphs project | The common writing system for the world |
| First edition : 2003.7.1 |