OSDN Git Service

seijiseikana/seijiseikana-database.git
9 years agodict.xml: マーク附け修正 master
Hiroshi Moriyama [Sun, 26 Dec 2010 16:22:48 +0000 (01:22 +0900)]
dict.xml: マーク附け修正

9 years agodict.xsd, dict.xml: 屬性 annotation を定義
Hiroshi Moriyama [Sun, 26 Dec 2010 16:07:45 +0000 (01:07 +0900)]
dict.xsd, dict.xml: 屬性 annotation を定義

surface要素にannotation屬性を定義した。變換候補と一緒に表示される短い
註釋などに、この値が利用されることを想定してゐる。

9 years agodict.xml: マーク附け修正
Hiroshi Moriyama [Sun, 26 Dec 2010 16:01:21 +0000 (01:01 +0900)]
dict.xml: マーク附け修正

9 years agodict.xml: 二語追加
Hiroshi Moriyama [Sun, 26 Dec 2010 15:39:29 +0000 (00:39 +0900)]
dict.xml: 二語追加

    * とりあつかひ 取扱ひ 名詞
    * とりあつか・ふ 取(り)扱・ふ ハ行四段

9 years agodict.xmlを更新
Hiroshi Moriyama [Sun, 26 Dec 2010 15:23:30 +0000 (00:23 +0900)]
dict.xmlを更新

實驗的に送り假名のパタンをすべて列挙してゐた「取扱説明書」の表層形
(surface要素)を一つにし、verbose-okuri要素によつて「冗長な送假名」を
明示する方式に戻した。

    <surface><stem>取<verbose-okuri>り</verbose-okuri>扱<verbose-okuri>ひ</verbose-okuri>説明書</stem></surface>

このマーク附けでは送假名のすべてのパタンを列擧することは出來ないが、
かな漢字變換用の辭書向けには全てのパタンは必要ない。形態素解析向けに
は全部欲しいところだがとりあへずそれは後回しにして置かうと思ふ。

なほこのマーク附けからは、次の四つのパタンを取り出せる:

  * 取扱説明書 … 冗長な送假名(verbose-okuri要素)を一切含まない形
  * 取り扱ひ説明書 … 全部のverbose-okuri要素を含む形
  * 取扱ひ説明書 … 二つのverbose-okuri要素を含む形
  * 取り扱説明書 … 一つ目のverbose-okuri要素を含む形

verbose-okuri要素を入籠にすれば全てのパタンの列擧も可能になるかも知れ
ないが、變換處理やマーク附けが煩雜になつてくる。

9 years agodict.xml: surface要素、kana要素をそれぞれグループ化
Hiroshi Moriyama [Sun, 26 Dec 2010 04:48:58 +0000 (13:48 +0900)]
dict.xml: surface要素、kana要素をそれぞれグループ化

dict.xmlのsurface要素をsurfaces要素の子要素、
kana要素をreadings要素の子要素としてそれぞれグループ化した。
これに伴ひ dict.xsd と sort-dict.xsl を更新。

新規ファイル groupoing.xsl はグループ化に使用したスタイルシート。

9 years agodict.xml: 一語追加 「そこな・ふ」
Hiroshi Moriyama [Thu, 23 Dec 2010 11:18:40 +0000 (20:18 +0900)]
dict.xml: 一語追加 「そこな・ふ」

9 years agodict.xml: 「取扱説明書」の項目で、送り假名の全パタンを列擧してみる實驗。
Hiroshi Moriyama [Thu, 23 Dec 2010 11:09:41 +0000 (20:09 +0900)]
dict.xml: 「取扱説明書」の項目で、送り假名の全パタンを列擧してみる實驗。

9 years ago* indent.xsl: 字下げの幅を文字列ではなく數値で指定するやうにした(字
Hiroshi Moriyama [Sat, 18 Dec 2010 14:17:19 +0000 (23:17 +0900)]
* indent.xsl: 字下げの幅を文字列ではなく數値で指定するやうにした(字
下げ一つ分の幅をグローバル變數 offset にセットする)。

9 years ago* indent.xsl: dict.xml用の指定追加。surface, kana要素の子孫要素を整
Hiroshi Moriyama [Sat, 18 Dec 2010 14:12:54 +0000 (23:12 +0900)]
* indent.xsl: dict.xml用の指定追加。surface, kana要素の子孫要素を整
形しないやうに。

9 years ago* indent.xsl: xsl:text要素の改行を數値參照に置き換へた。
Hiroshi Moriyama [Sat, 18 Dec 2010 13:39:40 +0000 (22:39 +0900)]
* indent.xsl: xsl:text要素の改行を數値參照に置き換へた。

9 years ago* dict.xml: New file, XMLを用ゐた汎用辭書の試作。
Hiroshi Moriyama [Sat, 18 Dec 2010 13:36:16 +0000 (22:36 +0900)]
* dict.xml: New file, XMLを用ゐた汎用辭書の試作。
* dict.xsd: New file, dict.xmlのXML Schema定義。
* indent.xsl: New file, XML文書整形用スタイルシート。
* sort-dict.xsl: New file, dict.xmlの内容をソートするスタイルシート。

9 years agodictディレクトリの中身をすべてルートディレクトリに移した。
Hiroshi Moriyama [Sat, 18 Dec 2010 11:01:56 +0000 (20:01 +0900)]
dictディレクトリの中身をすべてルートディレクトリに移した。

9 years agoメールアドレスの變更。
Hiroshi Moriyama [Tue, 14 Dec 2010 03:08:32 +0000 (12:08 +0900)]
メールアドレスの變更。

10 years ago新規ファイル `dict/seikanadict'
Hiroshi Moriyama [Mon, 23 Mar 2009 00:39:35 +0000 (09:39 +0900)]
新規ファイル `dict/seikanadict'

かな漢字變換向の「讀み」「變換後の形」「品詞」からなるシンプ
ルな辭書。「讀み」をローマ字で表記し、活用の「段」の區別を無
くしてある。See also
<http://magicant.txt-nifty.com/main/2009/03/post-af09.html>.

10 years agodict/tankanji-seikana-jisx0208: 843行更新
Hiroshi Moriyama [Fri, 20 Mar 2009 10:56:35 +0000 (19:56 +0900)]
dict/tankanji-seikana-jisx0208: 843行更新

10 years ago『正字正かな單漢字辭書(假稱)』の雛形を追加
Hiroshi Moriyama [Fri, 20 Mar 2009 07:37:17 +0000 (16:37 +0900)]
『正字正かな單漢字辭書(假稱)』の雛形を追加

單漢字辭書の雛形`dict/tankanji-seikana-jisx0208'、及び同ファ
イルを生成するのに用ゐたスクリプトを追加。

`dict/tankanji-seikana-jisx0208'の漢字の竝び順は現在『闇黒日
記』での漢字の出現回數の多い順になってゐる。これは實際に使用
される漢字のデータから埋めて行き、滅多に使用されない漢字の作
業を後廻しにするため。

10 years ago資料『闇黒日記』を追加
Hiroshi Moriyama [Fri, 20 Mar 2009 05:09:10 +0000 (14:09 +0900)]
資料『闇黒日記』を追加

プログラムから扱ひ易いやうUTF-8・XML化した『闇黒日記』のバッ
クナンバ。

  * "闇黒日記のバックナンバなど"
    <http://noz.hp.infoseek.co.jp/diary/>

10 years agoInitial commit of the Seijiseikana Database
Hiroshi Moriyama [Sat, 14 Mar 2009 06:54:57 +0000 (15:54 +0900)]
Initial commit of the Seijiseikana Database

正字正かなづかひに基いた日本語情報處理の爲の辭書その他のテキ
ストデータ集。及びそれらを作成・編輯する爲のスクリプトなど。