[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

BEP@IPA第1回ミーティングログ



井上です。

去る7/15に渋谷のレストラン「シャペルシャ」の部屋をお貸しいただいて、IPA
プロジェクトとしては第1回のBEPミーティングを行いました。
n高橋さんが書いてくださったログに私も追加したものを以下に載せます。
8カ月間はこれまでと速度が変わると思いますが、みなさんがんばりましょう
ね。

------
第1回 BEP ミーティング 2001年7月15日 於シャペルシャ
ログ: n高橋、追加:井上

「IPA 未踏ソフトウェア想像事業」の説明 (渡辺)
実施期間は2001年7月から2002年2月
オープンソースソフトウェア支援
OSは Linux であること
開発成果は会社ではなくて個人に帰属する
人件費も個人に払われる
その他に経費も払われる

プロジェクト内容
Linux および Windows で BEP がまともに動くようにする
(落ちないようにする、読み上げ間違いをなくす)

プライオリティ
1. Speech Server
2. Emacs Lisp
3. ドキュメント
の順

8月にRamanと会って話す(渡辺、井上、切明)
本家 Emacspeak でマルチバイトを受け付けるようにする
(とりあえずパッチは受け付けられたが、まだ問題はある)

今日は何はともあれ項目ごとの担当者を決定する

・Linux用SS:スレッドまわりのプログラム(切明+井上)
7月中に pthread 版を作成し、現行版はフリーズとしたい
11月に新バージョンをリリースする予定
Linux版SAPIの作製が中長期的目標
英語は outloud? festivalは?
outloud のライセンスは大丈夫か?
Outloudは中身が見られないことが問題ではないか?
festival は面白いことは面白い。フリー。アジア系言語には向かないが。
完成度を優先してOutloudでいく。(RedHat以外での動作が可能かという問題は残る。)
Dectalk に代わる新インタフェースを作るべき
ECI(OutloudのI/F) は標準になるか? (SAPI 相当になり得るか)
ATK (by Sun Irelang & Peter Korn) で作ろうという話もあるが、
とりあえずは様子見か?(でてくるのはとりあえず今年末くらい=間に合わない)
SAPIも日本語版は機能が不十分
新たに全部書き直すよりも、堅牢性を重視
IPAの締切を考えると、理想論よりも現実路線
現在の Linux サーバに outloud をつっこんで bilingual 化
その後で内部をきれいにする。(内部をいじるフェーズは
進展が端から見えないがしかたない。例:Emacs21のディスプレイドライバ)
Windowsサーバにも問題あり 非力なマシンだと落ちる
メモリを512MBにすると嘘のように落ちなくなる(切明)

Windows 版にはカタカナ英語がない
Linux 版は bilingual でない
日英速度を別々に操作 (Emacs Lisp で制御。サーバにまかせない)

ひらがな、カタカナ、全角半角、大文字小文字で声を修飾する機能を追加したい
連続読みに合わせてカーソルを動かしたい (Emacs Lisp 側で制御)
文字ごとでなく、一行単位のカーソル移動でも今よりずっとマシ
でも難しい。すごく難しい
読み終わりをユーザが指示した時点でSSから発声中の箇所を示してもらうと、読
み終わった箇所にカーソルをとばすのは可能では?
SSへのコマンドにタグを埋め込む?とりあえずBランク。

Linux 音声表現力が乏しいのをどうにかする
DTalker を使うためには SAPI をいじる必要あり

(ここで昼食および自己紹介)

エンジンはとりあえずDtalker
(ProTalker、東芝も買おうと思えば買える)
Windows版のカタカナ英語読みは簡単に実装できそう
pause&resume は後回し。カーソル追従が可能ならいらないかも。
SAPI5 への移行は可能か? 
今はMS以外の対応エンジンがないが、おいおい出てくるだろう
勝手に読み替えてしまう問題は Dtalker なら生じない。他のエンジンにも
できるだけやらせないように。Linux版は小出さん問い合わせ?
auditory icon はスピーチサーバ側でコントロールしたい
Winでauをならす必要性:au は wav にあらかじめ変換して用意しておく
起動速度向上

Windows 日本語入力時の読み上げ
SRにまかせるのではだめか?それがユーザは一番慣れているはず。
EGG を使うのでなければ SR まかせでいいんじゃないか
どうせ Windows ユーザは MS-IMEやATOKが好き

Linux SS
落ちなくするのが最重要
Audio cue 実装
256(?)byte以上の文字列を渡した時に、正常に読めない問題を回避する
今の動作はセキュリティホールにもなりうるのでは?
サウンドカードによって問題が生じる(高機能なカードで音が重なる)のは、
スレッドの修正で解決できるはず
以上は井上ががんばる
esound の優先度は下げる
読み上げ速度の高速化
読み上げ速度よりも、句読点での無音時間が長すぎるのが問題
paste時に落ちる問題 (超高速入力したのと同じ理由)
latin1の文字があるとssが必ず落ちる問題をなんとかする。
プロセス通信で latin-1 を sjis で送るとどうなる?
文字セットと言語に対応は?ない。UNICODEだと特になくなる。
ATK (GNOME Accessibility TK)のSPI (Service Provider Interface)への準拠
を考慮する

行末であることを知りたい
M-f移動時に行末の.を次行の先頭と一緒に読む問題
Raman 曰く「直せるんなら直していいよ」
text-mode で C-e c しても ' を読んでくれない
lisp-interaction-mode だとちゃんと読む
left parenなど記号の読みを音声出力の言語で切り替える
unibyte-mode-pに対応
SSに何語がはなせるか聞くようにすべき
ELispレベルで言語を判定し、読み上げエンジンをSSに指示する
詳細読み辞書を整備
apelを使わなくする
エコーエリアへの出力は声が別だとうれしい
メッセージを読み飛ばして困る→エコーエリアへの表示時に音を出す?
mewlsの終了時などはcompilationと同じ方法で対処。
W3は放置

担当は以下のように決定
渡辺(統括、Windowsプログラミング)
切明(Linux SSメイン、統括サブ) ; 今年度のキーになる人
井上(Linux SSサブ、lisp部メイン)
南谷(lispパッケージ)
坂本(ドキュメント整備、WEB整備、ユーザテスト)
中村(ドキュメントサブ)
吉本(lispプログラム)
r高橋(ドキュメントサブ)
n高橋(スーパバイザー)
外注(Linux SSエンジン、日本語Win日本語入力関連)

最後に補足

jitterbug等バグトラッキングシステムの導入(切明)
CVSにdocモジュール新設
WEBもupdate以外はBEPメンバー(希望者)が行えるように。

記号の読みをカスタマイズできると嬉しい
任意に読み換えができるとうれしい
ユーザ辞書をすべてに優先できるようにしたい(吉本)

次回8/26予定。



-- 
                    Koichi Inoue, ARGV
                    E-Mail: inoue@...
                    ICQ UIN: 74900690