[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [bep] TODO
- To: bep@argv.org
- Subject: Re: [bep] TODO
- From: WATANABE Takayuki <takayuki@la.shonan-it.ac.jp>
- Date: Fri, 13 Jul 2001 21:45:30 +0900 (JST)
- Delivered-To: mailing list bep@argv.org
- Mailing-List: contact bep-help@argv.org; run by ezmlm
渡辺です。
TODOリスト(案)の更新です。
# 自分用の資料も追加したので、ちょっと長くなっています。
--
渡辺隆行 (WATANABE Takayuki)
*2001年7月13日 BEP-TODO (諸資料つき)
優先度別カテゴリ
A 今年度早期に解決すべき課題 (担当者を決める)
B 今年度中に解決したい課題
C いつか解決したい課題
*SS共通
**B 一文字読み機能の向上 (既存のエンジンは1文字読み上げが出来ない)
***録音した音(ひらがなの'あ'のauファイル)を再生するとレスポンスと明瞭さが向上するか?
***Phoneticで渡してPhoneticのまま読ます機能を使うと向上するか? (phonemic spelling)
**A 3つのバイリンガルモードを作る (全部Jp、カタカナ英語、バイリンガル)
**B 日本語と英語のspeech_rateの比を変えられるようにする
**A 日米共通のIF(API)設計
**B ひらがな、カタカナ、全角半角、大文字小文字をvoice-fontで表現 (要 基礎調査)
**A 必要な音声修飾機能の実装 (要 SAPIやDTalkerでどこまで実装できるかの検討)
***速度
***ピッチ
***ピッチレンジ
***ストレス
***(要追加!!!!
*WinSS
**A 日本語エンジンが音声化しなくなるBug解決 (超重要)
**A DTalkerをデフォルトにできるか?→OKならばDTalkerにする
***TextDataDoneではなくてAudioDoneでnext_queueを読み出せるようにする
***ピッチレンジなどのAudioFormatting実装 (仕様のために出来なかったらどうする)
***小出さんにメール;DTalker3.5のライセンス料金問い合わせ
**A TTSFind時;Lang=Japanese、Sex=Maleなどの情報もいれる
**C defaultの日本語エンジンを選択できるようにする
**C New東芝音声合成エンジンも試してみる
**A カタカナ英語読みの機能を入れる
**A Pause&Resumeを実装
**A OSWのDTalkerがBEP終了時に死んでしまう原因探し
**A Speak終了コマンドが必要か?
***BEPにPowerOff関数作る&Speakの処理ルーチン(メモリ解放)
**B SAPIに我々のIFをかぶせる
**A スピーチエンジン固有の読み変え機能をBEP側で制御可能にする。(あるいは使わない)
例;MSのTTSでe.g.→for example等と読む問題
**A Auditory Icon
***speak.exeにpコマンド実装(auditory-icon)
***Cygwinの/dev/dspを試す
***98系Winでのプロセス問題解決
**B 起動速度向上; とりあえず必要なインスタンスだけ作る
*Win日本語入力
**B IMEにegg IFをかぶせる
***仮名漢字変換時も入力キーを読み上げる
**C (VWSapiKy
***キー読み上げ、IME読み上げ ON/OFF
***IMEオフの時はSpeakkey(OFF)にする
***フォーカスがないときは全機能をOFFにする
***キー読み上げ辞書、IME辞書の場所を環境変数から取得
*Linux用SS
**A thread関連改良(とりあえず落ちなくする)
***`ー'をBSで消すと必ず落ちる原因の解明
**A Audio cue、AU/WAV再生のサポート
**A Bilingualを考慮した上位I/F策定
**A DtalkerにこのIFをかぶせる(外注)
**OutloudにこのI/Fをかぶせる。
**A バイリンガル化 (dtalkerとOutloud)
**A 256(?)byte以上の文字列を渡した時に、正常に読めない問題を回避する
**A YMF7X4などハードウェアで複数音同時再生をサポートしたサウンドカードで読み上げが重なる問題を解決する
**A esoundの利用の有無の決定
**B 読み上げ速度の高速化
**A cut&paste時に落ちる問題
**A latin1の文字があるとssが必ず落ちる問題をなんとかする。
**C ATK (GNOME Accessibility TK)のSPI (Service Provider Interface)への準拠を考慮する。
*ELisp (Emacspeak部)
**A 読み上げがおかしい現象のうち、Lisp部の問題をピックアップ
***M-f移動時に行末の.を次行の先頭と一緒に読む問題
***C-e c でも読まない文字をなくす('を読み上げない場合がある等)
***連続読み時改行を認知できる方法を見当
**A unibyte-mode-pに対応
**A language-environmentがjapaneseだったらBEP機能がActiveになるようにする
**A ELispレベルで言語を判定し、読み上げエンジンをSSに指示する
**A 新コマンド
***言語指定
***日米速度比指定
***カタカナ英語かnative英語かすべて日本語かの指定
***どの単位で日米切り替えをするかの指定
***ひらがな、カタカナ、全角半角、大文字小文字で声を修飾する機能追加
**A いくつかのモジュールの日本語対応: emacspeak-speak, dtk-speak, dtk-tcl
***他にないか探す
**A 詳細読み辞書
***新しい構造をつくる
***データ修正 (機能と昨日だっけ?)
***辞書を使い分ける
***詳細読みのためにapelを使わなくする。(文字種フィールドを追加)
**A voice名などを元に戻してオリジナル版との整合性を考える
**A Windowsのtermモードでtelnet
**B phoneticシンボルでSSに渡す機能
**B 速度の向上。とくにbepの起動時
*ELisp (各種パッケージ)
**A W3への対応
***W3のWin版でACSSが使えない理由を探す
*** w3-4.0-pre46.tar.gzな場合本来はちゃんと表示されているー時でも日本語が
入っているページは<hr>とかその他よくわからないけれど音化けする
*** Octal xxxに変換する文字の正規表現がmultibyteの場合意図した動作になら
ず、結果的にw3で読み上げ中に一部日本語でエラーになる。(未対処、
Emacspeak全般)
*** テーブル中の移動がmultibyte状態では正しくできない。(この部分にはMule
対応のコードが反映されていないと思われる。表示カラム数と文字数の違い?)
(日本語のページでテーブル読みができないことの対策)
*** 売りであるACSS対応が日本語ではうまく動かなかった気がする。(確認しま
す)
*** 今のw3がもうアップデートされないことへの前向きな対処を見当する必要あ
り。新系統w3のフォロー?w3mに本気で対応?
**A w3m
**A mew
*** application/octaed/streamでかつその元のエンコードする前のものはtextな
場合C-c tabで*mew-message*に表示させるとかなりの確立で日本語が音化けする。
(オクタルxxxなように)
**YaTeX
**eterm改良
**lookup
**Semi-Gnus
**wl
*/www.argv.org/bep/メインテナンス
**ftpサイトが欲しい?
**m17nの使い方
*ドキュメント類
**A FAQ
**A インストールマニュアル
**A Emacsの説明 (全体の見た目構造など)
**A EmacspeakとBEPの説明 (概要紹介)
**B Web配信できる紹介ビデオやttyrec素材の準備
**B 英語での情報発信 (Webの整備)
*開発形態
**A jitterbug等バグトラッキングシステムの導入
**A 作業分担(主担当者)の明確化
**A IPA的開発分担の方法定式化
*基礎研究: m17nな音声合成を中心としたAUI
**ひらがな、カタカナ、全角半角、大文字小文字をvoice-fontで表現する
***どう実装するのか; 同じ声の属性を変える、何の属性を使うのか?
**既存TTSには1文字読み上げ機能がない。これが問題であることを指摘
**声は何種類必要か? どんな声なら何種類聞き分けられるか?
**どんな声をどんな性質にアサインすると分かりやすいか?
**異なる声と同じ声の音声修飾による使い分けの2種類の使い分け方
**ピッチは何種類くらい識別できるか?
**(まだまだあるはず!!!
*将来構想
**点字対応
**本家Emacspeakへの取りこみ
**m17n Emacspeak
*IPA的予定(案)
***2001/7
主担当者決め
Linuxスピーチサーバthread部分改良(とりあえず動くように)
Emacspeakのコード読み
***2001/8
Emacspeakのコード読み
Ramanとのミーティング
m17nスピーチサーバI/F案作成と見当
Emacspeak側書き換え方針の決定
m17nスピーチエンジンI/F案作成と見当
# 外注先探し
***2001/9
スピーチエンジンI/F決定
エンジン用「皮」の外注依頼
# 外注先との細かい打ち合わせや仕様と現実のすりあわせが必要?
Emacspeak側の書き換え作業開始
Win-SSの改良
***2001/10
スピーチエンジンI/Fの実装
スピーチサーバI/F部の実装
仕様確認
***2001/11
Emacspeak側書き換え作業
スピーチサーバ統合
Win-SSの新スピーチサーバI/F対応
***2001/12
スピーチサーバリリース、及び新スピーチI/F対応のBEPリリース
ユーザテスト
詳細読み辞書整備
***2002/1,2
ユーザテスト
lisp部の細かな改良
終了処理
***<<実施メンバー>>
渡辺(統括、Windowsプログラミング)
切明(Linux SSメイン、統括サブ)
井上(Linux SSサブ、lisp部メイン)
南谷(lispパッケージ)
坂本(ドキュメント整備、WEB整備、ユーザテスト)
中村(ドキュメントサブ)
吉本
r高橋
n高橋(スーパバイザー)
外注(Linux SSエンジン、日本語Win日本語入力関連)
*資料編
**dtk-voices.el
***Emacspeakが使用している声のリスト 基本はDECTalkの9種類
paul [:np]
harry [:nh]
dennis [:nd]
frank [:nf]
betty [:nb]
ursula [:nu]
ria [:nr]
wendy [:nw]
kit [:nk]
paul-bold [:np-bold]
paul-italic [np-italic]
paul-smooth [:np-smooth]
annotation-voice [:np-annotate]
indent-voice [:np-indent]
paul-animated [:np-animated]
paul-monotone [:np-monotone]
***追加7種類はDecTalkコマンドで以下の属性を変更し、新しい声を定義している
[:dv XX DD] (define voice as mnemonix XX = value DD)
ap (average pitch)
as (average speed)
hs
pr (pitch range)
hr
sr (stress)
qu
sm
ri (richness)
[:pi] pitch
[:ra] speech rate
***Associate faces to standard voices:
(dtk-define-voice-alias 'bold 'paul-smooth)
(dtk-define-voice-alias 'bold-italic 'betty)
(dtk-define-voice-alias 'underline 'ursula)
(dtk-define-voice-alias 'fixed 'paul-monotone)
(dtk-define-voice-alias 'italic 'paul-animated)
(dtk-define-voice-alias 'excerpt 'annotation-voice )
***さらにRamanが追加しているVoice
paul-angry
paul-disgusted
paul-glad
paul-sad
paul-scared
paul-surprised
***standard symbols as voices:
(dtk-define-voice-alias 'voice-lock-comment-personality 'paul-monotone)
(dtk-define-voice-alias 'voice-lock-underline-personality 'paul-animated)
(dtk-define-voice-alias 'voice-lock-bold-personality 'harry)
(dtk-define-voice-alias 'voice-lock-italic-personality 'paul-italic)
(dtk-define-voice-alias 'voice-lock-doc-string-personality 'dennis)
(dtk-define-voice-alias 'voice-lock-string-personality 'betty)
(dtk-define-voice-alias 'voice-lock-function-name-personality 'harry)
(dtk-define-voice-alias 'voice-lock-warning-personality 'paul-angry)
(dtk-define-voice-alias 'voice-lock-keyword-personality 'ursula)
(dtk-define-voice-alias 'voice-lock-builtin-personality 'harry)
(dtk-define-voice-alias 'voice-lock-variable-name-personality 'paul-animated)
(dtk-define-voice-alias 'voice-lock-type-personality 'paul-smooth)
(dtk-define-voice-alias 'voice-lock-reference-personality 'paul-animated)
***the standard symbols used as fonts as personalities
(dtk-define-voice-alias 'font-lock-variable-name-face 'voice-lock-variable-name-personality)
(dtk-define-voice-alias 'font-lock-reference-face 'voice-lock-reference-personality)
(dtk-define-voice-alias'font-lock-comment-face 'voice-lock-comment-personality)
(dtk-define-voice-alias'font-lock-string-face 'voice-lock-string-personality)
(dtk-define-voice-alias 'font-lock-keyword-face 'voice-lock-keyword-personality)
(dtk-define-voice-alias 'font-lock-builtin-face 'voice-lock-builtin-personality)
(dtk-define-voice-alias 'font-lock-function-name-face 'voice-lock-function-name-personality)
(dtk-define-voice-alias 'font-lock-type-face 'voice-lock-type-personality)
(dtk-define-voice-alias 'font-lock-constant-face 'voice-lock-constant-personality)
(dtk-define-voice-alias 'font-lock-warning-face 'voice-lock-warning-personality)
**MS SAPI4の音声修飾の仕様
**ProTalkerの仕様
**DTalkerSAPIの仕様
**MS英語エンジンの仕様
;;; Local Variables: ***
;;; mode:Outline ***
;;; End: ***