パソコンとヒンディー語についてアレコレ・・・
今回はPCとヒンディー語についてダラダラ書き綴ろうかと・・・。


***

つい最近、ウィンドウズXPでヒンディー語を使えるようにするための設定方法を、アルカカットさんが『これでインディア』(身毒企画:ヒンディー語入力の方法)で公開なさってるのを見た。かな~り懇切丁寧に説明がなされてるので、これさえ見ればPC初心者だろうが誰でも(自分でやる気さえあれば)すぐに設定できることだろう。

それに触発され、上記の『これでインディア』の内容に少し付け加えて自分がお勧めしたいのが、このスクリーンキーボード機能。
※以下「ヒンディー語」キーボードの場合(「ヒンディー語 トラディショナル」ではない方のやつ)
 ① 平常時
c0072728_7285268.jpg

 ② Shift キー押しながら
c0072728_7293556.jpg

 ③ 左右の Alt キーを同時押し
c0072728_7295066.jpg

※起動させ方は、XPでは左下の「スタート」 → 「コントロールパネル」 → 「ユーザー補助のオプション」 → 左側「関連項目」欄のなか(「拡大鏡」の下)
または、「スタート」 → 「検索」 → 「ファイルとフォルダ全て」 → 「スクリーンキボード」で検索

まとまった量の長文をヒンディー語で打ち込む場合には、Indic IMEがアルファベットのフォネティックで入力できて圧倒的に便利なのだが、唯一の不満はこのブログを書くときみたくエクスプローラー上では使えない点だ。しかも単語をいくつか挿入したい程度なら、Indic IME使わず(つまり、一度ワードとかで入力して、コピペする手間かけず)に入力するのがラクな場合も多々ある。そしたら「でもキー配置はどうなってるの???」って時なんかによいのでは。
他にも、アラビア語-ペルシア語-ウルドゥー語なんかで、同じ文字のキー位置が微妙に違ってたりするアラビア文字系統を入力する場合も便利かと・・・。
(というか、こんな機能は今更のこと???そりゃ失礼。)


***
で、例にもよって話はダラダラと続きます・・・。

少し過去を振り返ってみると、PCでヒンディー語を使える環境はほんの5~6年前までと比べて飛躍的に整備されたなぁと今更ながら感動。(まぁMac はもっと以前から多言語対応だったらしいけど・・・。)

OSがウィンドウズ98の時はBBC Hindi ですら専用フォントをダウンロードしなければ見れないかったし・・・・。(まぁ一部の専用ソフト&フォントを使えば自由に入力&プリント出力とかできたんだろうけど。)
その次の2000(一般ユーザー向けでは無かったけど)は“一応”多言語対応という事で、ヒンディー語やタミル語 தமிழ் とかインド系文字の言語もいくつか入力できたけど・・・。実際は問題だらけで、本来子音字の左側に来るはずの短母音「イ」の母音字記号(ヒンディー語;ि)や子音字の両側を挟むはずの母音字記号(タミル語;ொ 、など)が全て子音字の右側にきたり、母音字記号や接合文字の後には2~3文字分のスペースが空いて単語を綴れんかったりして、とにかく実用に耐えなかった。
※たしかこんな感じだったはず; मे हं दी, रा जनी त ि, रा ष्ट्री  य

それがXPになって改善されてて、OSをアップグレードした時には感動した覚えも。
加えて、そのように一般ユーザーの間で個々のPC上の多言語対応環境が整備されていったのと同時に、ユニコード規格による多言語対応フォントのおかげで、ネット上でそれらの言語での情報の共有化が進んだのも大きな進歩だ。これもひとえにマイクロソフト社に多数いるインド人エンジニアのおかげ、まぁ海外のヒンディー語マニアにまで恩恵を与えるとは思ってもいなかっただろうけど。

具体的にヒンディー語マニアに何の恩恵があったのかというと、
 ①文字や音声の形式による最新の情報がヒンディー語で手に入る。(学習教材)
 ②人名や地名など固有名詞の綴りや、ヒンディー語化した英単語の綴りとその文法上の性を手軽にググって確認できる。(辞書機能)
 ③ヒンディー語を使って情報を発信することも(無駄な暇さえあれば)できる。(実用機会)
・・・無理やり強引に挙げれば、まぁこんな感じでしょうか。


でも、ネット上での「多言語」環境の実現といっても現実の世界の政治経済力がそこはかとなく反映されてるのが、おもしろいといえばまたおもしろい。
例えば、インド系諸語ではヒンディー語とタミル語のサイトがたくさんできてきた一方で、オリヤー ଓଡ଼ିଆ 語なんか文字はユニコードの表の中にコードがちゃんと割り振られているのに、XPに入力ロケールが標準装備されてない。またスリランカのシンハラ語とかは文字がまだユニコードに含まれていない。などなど・・・。

またインターネットの利点である「情報の共有化」という利便性の観点からは、ネット上の公用語である英語(HTMLとかプログラミングで使用される言語なのと、世界中の人が最大公約数的に理解できる言語って意味で)に情報が集約する一方で、正反対に「広く共有されない」情報、正確には「より狭い範囲で共有される」情報の価値も同時に高まっているのでは。そして、その境目は個人レベルの志向・趣味・信条・専門知識なども想定しうるが、やはり言語の違いが一番大きいだろう。
その「より狭い範囲で共有される」言語での情報への志向が特に強まるのは、インドなどの場合個人のブログではないだろうか。
・・・何か以前にもこういうのあったなぁ、と思ったら案の定、昨年3月にも同じような事(「ヒンディー語ブログについて考察」)書いてたのであとは省略。そっちを参照してくだされ~。


とりあえず無理やり結論つけると、OSがXPの人はせっかくの多言語対応環境を利用しない手は無いのでは??ということですな。
読めないなりに異国の文字に触れて遊ぶ良い機会かと・・・、まぁ先日のデーヴァナーガリー顔文字みたく暇つぶしには良いかと・・・。


***
さらに話はずれてゆきますが・・・

実はユニコードにも少し問題があるようだ。
ヒンディー語などの結合文字では、印刷の異体字みたくPCブラウザー上での表示のしかたが何通りかある。
例えば「श्व シュワ」 (※どれも व, ि, श, ्, व, ा, स が順番に並んでいる。 )
विश्वास = #2357;#2367;#2358;#2381;#2357;#2366;#2360;#32;

विश्‍वास = #2357;#2367;#2358;#2381;#8205;#2357;#2366;#2360;#32;

विश‍्वास = #2357;#2367;#2358;#8205;#2381;#2357;#2366;#2360;#32;
ほかにも、
व्यक्‍ति = व्यक्ति
प्राप्‍त = प्राप्त
भगवद्‍गीता = भगवद्गीता
普通にキーボードで入力すると強制的に結合文字になるので、PCによって勝手に文字の形が違ってくる事はまずないと予測される。だからといって問題無いかといえばそうでもなく、一番最後の「バガヴァドギーター」みたく、多くのサンスクリット起源の単語では結合させずにハル हल् 記号(् )のついた語形で綴らなければいけない場合も多々ある。そういう場合には、上のような文字コードで入力しわける必要あったり、それがブラウザーによっては意図したように表示されない可能性もあったりと、面倒な話がつきまとう。


また、上の場合の違いはグーグル検索には反映されないようだが、さらに厄介なのが見た目に同じで異なる検索結果が出る場合である。

以下のこれら2つ並んだ同じ文字は、左側がキーボードから1文字で入力し、右側はいったんヌクタ नुक़्ता (左下の点:़ )なしの基本の文字を入力した後でヌクタを入力している(つまり、実際は2文字)。
फ़ vs फ़ - फ़ारसीफ़ारसी
क़ vs क़ - क़ानूनक़ानून
ख़ vs ख़ - ख़ासख़ास
ग़ vs ग़ - ग़लतग़लत
ज़ vs ज़ - ज़िन्दाज़िन्दा
ड़ vs ड़ - गाड़ीगाड़ी
ढ़ vs ढ़ - पढ़ेंपढ़ें
これらの文字はどちらも見た目に全く同じである。だが、それぞれの文字を使った単語を同じ綴りグーグル検索した場合、その検索結果のヒット数&内容に両者の違いが歴然と反映されてくる。(詳細は個々の単語につけたリンクを参照のこと。)


この原因はユニコードの文字の割り当てにある。

以下はデーヴァナーガリー文字のユニコードにおける文字コードの割り当てを示す表である。
(英語版ウィぺディア【Devanāgarī】より)
c0072728_7474145.jpg
※ピンク色の部分の文字を入力した場合が前者、水色の部分の文字に青の部分の文字を加えて入力した場合が後者になる。

そもそもピンク色の部分の文字に独立した文字コードを割り振ってしまった点に問題がある。コード番号の割り振りの時に、おそらくヒンディー語を理解しない人がこのような事態を想定せずに決定した事が原因だと思われる。


自分みたいに、ウィンドウズの入力ロケールにあるキーボードから入力する人は、おそらく後者の方式になる場合が多いのでは。上のスクリーンショット③のAlt キー同時押しでやれば、前者の方式の文字を入力できなくも無いが、それはけっこう面倒だし・・・。ただ、ネット上で公開されてるキーボードソフトとか使う人の場合はもしかしたら前者の方式で入力する事が多い可能性もある。

さらに、インドの印刷物のように、ヌクタなどお構いなしに省略して(もしくは打ち忘れて)表記してある場合も合わせると、特定の単語によっては検索しても目当ての情報にたどり着けない可能性も高まってくる。
他の多くの言語で導入されてるような、単語の表記の揺れ(見た目に同じだがデータ上異なる場合も含む)を考慮した検索システムが導入される必要がある。

※ネタ元
 ブラウザー表示:http://hindini.com/ravi/?p=108
 検索結果の違い:http://community.livejournal.com/google_hindi/1008.html


・・・・という問題もあるらしい、というヒンディー語マニアな話でした・・・。

ではでは~。
[PR]
by ek-japani | 2006-02-09 08:46 | 言語


<< 選手の帽子 デーヴァナーガリーで顔文字? >>