[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [bep] TODO
- To: bep@argv.org
- Subject: Re: [bep] TODO
- From: WATANABE Takayuki <takayuki@la.shonan-it.ac.jp>
- Date: Sat, 14 Jul 2001 23:57:00 +0900 (JST)
- Delivered-To: mailing list bep@argv.org
- Mailing-List: contact bep-help@argv.org; run by ezmlm
渡辺です。
TODOリストの管理、ドキュメントの管理をすること賛成です。
TODOはただのテキストとしてCVSで管理するだけでよいのかな?
最新のTODOをWebにも反映した方が良いかな。
TODOの最新版と別冊資料編を同封します。
--
渡辺隆行 (WATANABE Takayuki)
*2001年7月14日 BEP-TODO (諸資料つき)
優先度別カテゴリ
A 今年度早期に解決すべき課題 (担当者を決める)
B 今年度中に解決したい課題
C いつか解決したい課題
D その他
*SS共通
**B 一文字読み機能の向上 (既存のエンジンは1文字読み上げが出来ない)
***録音した音(ひらがなの'あ'のauファイル)を再生するとレスポンスと明瞭さが向上するか?
***Phoneticで渡してPhoneticのまま読ます機能を使うと向上するか? (phonemic spelling)
**A 3つのバイリンガルモードを作る (全部Jp、カタカナ英語、バイリンガル)
**B 日本語と英語のspeech_rateの比を変えられるようにする
**A 日米共通のIF(API)設計
**B ひらがな、カタカナ、全角半角、大文字小文字をvoice-fontで表現 (要 基礎調査)
**B 音を止めた場所でカーソルも止まる機能
**A 必要な音声修飾機能の実装 (要 SAPIやDTalkerでどこまで実装できるかの検討)
DECTalkでRamanが用意している声全部を日本語で用意できない。
最低限どんな声が必要か? 何種類の声?、どんなキャラクタ(monotoneなど)?
***速度
***ピッチ
***モード(Chr)をmonotoneにセットしたり、イントネーションを0にするなどでcharacterを作る
*WinSS
**A 日本語エンジンが音声化しなくなるBug解決 (超重要)
**A DTalkerをデフォルトにできるか?→OKならばDTalkerにする
***TextDataDoneではなくてAudioDoneでnext_queueを読み出せるようにする
***ピッチレンジなどのAudioFormatting実装; 他の機能で置き換えれば多分できる
***小出さんにメール;DTalker3.5のライセンス料金問い合わせ
**A TTSFind時;Lang=Japanese、Sex=Maleなどの情報もいれる
**C defaultの日本語エンジンを選択できるようにする
**C New東芝音声合成エンジンも試してみる
**A カタカナ英語読みの機能を入れる
**B Pause&Resumeを実装
**A OSWのDTalkerがBEP終了時に死んでしまう原因探し
**A Speak終了コマンドが必要か?
***BEPにPowerOff関数作る&Speakの処理ルーチン(メモリ解放)
**B SAPIに我々のIFをかぶせる
**A スピーチエンジン固有の読み変え機能をBEP側で制御可能にする。(あるいは使わない)
例;MSのTTSでe.g.→for example等と読む問題
**A Auditory Icon
***speak.exeにpコマンド実装(auditory-icon)
***Cygwinの/dev/dspを試す
***98系Winでのプロセス問題解決
**B 起動速度向上; とりあえず必要なインスタンスだけ作る
*Win日本語入力
**B IMEにegg IFをかぶせる
***仮名漢字変換時も入力キーを読み上げる
**D (VWSapiKy)
***キー読み上げ、IME読み上げ ON/OFF
***IMEオフの時はSpeakkey(OFF)にする
***フォーカスがないときは全機能をOFFにする
***キー読み上げ辞書、IME辞書の場所を環境変数から取得
*Linux用SS
**A thread関連改良(とりあえず落ちなくする)
***`ー'をBSで消すと必ず落ちる原因の解明
**A Audio cue、AU/WAV再生のサポート
**A Bilingualを考慮した上位I/F策定
**A DtalkerにこのIFをかぶせる(外注)
**OutloudにこのI/Fをかぶせる。
**A バイリンガル化 (dtalkerとOutloud)
**A 256(?)byte以上の文字列を渡した時に、正常に読めない問題を回避する
**A YMF7X4などハードウェアで複数音同時再生をサポートしたサウンドカードで読み上げが重なる問題を解決する
**A esoundの利用の有無の決定
**B 読み上げ速度の高速化
**A cut&paste時に落ちる問題
**A latin1の文字があるとssが必ず落ちる問題をなんとかする。
**C ATK (GNOME Accessibility TK)のSPI (Service Provider Interface)への準拠を考慮する。
*ELisp (Emacspeak部)
**A 読み上げがおかしい現象のうち、Lisp部の問題をピックアップ
***M-f移動時に行末の.を次行の先頭と一緒に読む問題
***C-e c でも読まない文字をなくす('を読み上げない場合がある等)
***連続読み時改行を認知できる方法を見当
***left parenなど記号の読みを音声出力の言語で切り替える。
例: 英語時「left paren」, 日本語時「かっこ」
**A unibyte-mode-pに対応
**A language-environmentがjapaneseだったらBEP機能がActiveになるようにする
**A ELispレベルで言語を判定し、読み上げエンジンをSSに指示する
**A 新コマンド
***言語指定
***日米速度比指定
***カタカナ英語かnative英語かすべて日本語かの指定
***どの単位で日米切り替えをするかの指定
***ひらがな、カタカナ、全角半角、大文字小文字で声を修飾する機能追加
**A いくつかのモジュールの日本語対応: emacspeak-speak, dtk-speak, dtk-tcl
***他にないか探す
**A 詳細読み辞書
***新しい構造をつくる
***データ修正 (機能と昨日だっけ?)
***辞書を使い分ける
***詳細読みのためにapelを使わなくする。(文字種フィールドを追加)
**A voice名などを元に戻してオリジナル版との整合性を考える
**A Windowsのtermモードでtelnet
**B phoneticシンボルでSSに渡す機能
**B 速度の向上。とくにbepの起動時
**B 音声種別や音でminibufferにいるなどの画面上のウインドー位置を識別可能に。
*ELisp (各種パッケージ)
**A W3への対応
***W3のWin版でACSSが使えない理由を探す
(text-propertyはついているが声が変わりません。text-propertyはbetty-5555のような形のものがつきます。
stylesheetでvoice-familyを変えるとtext-propertyに反映するので、stylesheetそのものは読み込まれている。)
***Linux版: 一応ACSSに従って声は変わります。
(音声種別や表現が乏しいため、男性か女性かくらいの差しか分からない。)
*** w3-4.0-pre46.tar.gzな場合本来はちゃんと表示されている
ー時でも日本語が入っているページは<hr>とかその他よくわからないけれど音化けする
*** Octal xxxに変換する文字の正規表現がmultibyteの場合意図した動作にならず、
結果的にw3で読み上げ中に一部日本語でエラーになる。(未対処、Emacspeak全般)
*** テーブル中の移動がmultibyte状態では正しくできない。(この部分にはMule
対応のコードが反映されていないと思われる。表示カラム数と文字数の違い?)
(日本語のページでテーブル読みができないことの対策)
*** 売りであるACSS対応が日本語ではうまく動かなかった気がする。(確認します)
*** 今のw3がもうアップデートされないことへの前向きな対処を見当する必要あり。
新系統w3のフォロー?w3mに本気で対応?
**A w3m
***画面レイアウト情報をどう提示するか。(w3mはレイアウトが売り→音声で聞き難くなる。例:テーブル、フレーム)
**A mew
*** application/octaed/streamでかつその元のエンコードする前のものはtextな場合
C-c tabで*mew-message*に表示させるとかなりの確立で日本語が音化けする。
(オクタルxxxなように)
**YaTeX
**eterm改良
**lookup
***読み上げを最適化して使えるものにする。
**Semi-Gnus
**wl
*www.argv.org/bep/メインテナンス
**ftpサイトが欲しい?
**m17nの使い方
*ドキュメント類
**A FAQ
**A インストールマニュアル
**A Emacsの説明 (全体の見た目構造など)
**A EmacspeakとBEPの説明 (概要紹介)
**B Web配信できる紹介ビデオやttyrec素材の準備
**B 英語での情報発信 (Webの整備)
*開発形態
**A jitterbug等バグトラッキングシステムの導入
**A 作業分担(主担当者)の明確化
**A IPA的開発分担の方法定式化
*基礎研究: m17nな音声合成を中心としたAUI
**ひらがな、カタカナ、全角半角、大文字小文字をvoice-fontで表現する
***どう実装するのか; 同じ声の属性を変える、何の属性を使うのか?
**既存TTSには1文字読み上げ機能がない。これが問題であることを指摘
**声は何種類必要か? どんな声なら何種類聞き分けられるか?
**どんな声をどんな性質にアサインすると分かりやすいか?
**異なる声と同じ声の音声修飾による使い分けの2種類の使い分け方
**ピッチは何種類くらい識別できるか?
**(まだまだあるはず!!!
*将来構想
**点字対応
**本家Emacspeakへの取りこみ
**m17n Emacspeak
*IPA的
**7/15ミーティング 1100-1500?
***議題
1) IPA未踏ソフトウェア創造事業に関する説明、BEPのProposalの説明
2) BEP的なIPAへの取り組み方針; 詳細は3人(渡辺、切明、井上)に任せてね
3) BEPの現状整理、課題整理、方針決定
4) IPAを考慮したBEPの仕事分担と作業予定決定
5) 次回ミーティング予定決定
**BEPの反省
***コードの完成度が低い; WinSS、LinuxSS、ELisp m17n
***これらのコードを触れる人が限られている; 渡辺、井上、+切明(今年度のホープ)
***コードの完成度を挙げるのが再優先課題
***よきサポータも必要
**予定(案)
***2001/7
主担当者決め (7・15)
Linuxスピーチサーバthread部分改良(とりあえず動くように)
Emacspeakのコード読み
***2001/8
Emacspeakのコード読み
Ramanとのミーティング
m17nスピーチサーバI/F案作成と見当
Emacspeak側書き換え方針の決定
m17nスピーチエンジンI/F案作成と見当
# 外注先探し
***2001/9
スピーチエンジンI/F決定
エンジン用「皮」の外注依頼
# 外注先との細かい打ち合わせや仕様と現実のすりあわせが必要?
Emacspeak側の書き換え作業開始
Win-SSの改良
***2001/10
スピーチエンジンI/Fの実装
スピーチサーバI/F部の実装
仕様確認
***2001/11
Emacspeak側書き換え作業
スピーチサーバ統合
Win-SSの新スピーチサーバI/F対応
***2001/12
スピーチサーバリリース、及び新スピーチI/F対応のBEPリリース
ユーザテスト
詳細読み辞書整備
***2002/1,2
ユーザテスト
lisp部の細かな改良
終了処理
***<<実施メンバー>>
渡辺(統括、Windowsプログラミング)
切明(Linux SSメイン、統括サブ) ; 今年度のキーになる人
井上(Linux SSサブ、lisp部メイン)
南谷(lispパッケージ)
坂本(ドキュメント整備、WEB整備、ユーザテスト)
中村(ドキュメントサブ)
吉本
r高橋
n高橋(スーパバイザー)
外注(Linux SSエンジン、日本語Win日本語入力関連)
;;; Local Variables: ***
;;; mode:Outline ***
;;; End: ***
**2001年7月14日 資料編
**dtk-voices.el
***Emacspeakが使用している声のリスト 基本はDECTalkの9種類
paul [:np]
harry [:nh]
dennis [:nd]
frank [:nf]
betty [:nb]
ursula [:nu]
ria [:nr]
wendy [:nw]
kit [:nk]
paul-bold [:np-bold]
paul-italic [np-italic]
paul-smooth [:np-smooth]
annotation-voice [:np-annotate]
indent-voice [:np-indent]
paul-animated [:np-animated]
paul-monotone [:np-monotone]
***追加7種類はDecTalkコマンドで以下の属性を変更し、新しい声を定義している
[:dv XX DD] (define voice as mnemonix XX = value DD)
ap (average pitch)
as (average speed)
hs
pr (pitch range)
hr
sr (stress)
qu
sm
ri (richness)
[:pi] pitch
[:ra] speech rate
***Associate faces to standard voices:
(dtk-define-voice-alias 'bold 'paul-smooth)
(dtk-define-voice-alias 'bold-italic 'betty)
(dtk-define-voice-alias 'underline 'ursula)
(dtk-define-voice-alias 'fixed 'paul-monotone)
(dtk-define-voice-alias 'italic 'paul-animated)
(dtk-define-voice-alias 'excerpt 'annotation-voice )
***さらにRamanが追加しているVoice
paul-angry
paul-disgusted
paul-glad
paul-sad
paul-scared
paul-surprised
***standard symbols as voices:
(dtk-define-voice-alias 'voice-lock-comment-personality 'paul-monotone)
(dtk-define-voice-alias 'voice-lock-underline-personality 'paul-animated)
(dtk-define-voice-alias 'voice-lock-bold-personality 'harry)
(dtk-define-voice-alias 'voice-lock-italic-personality 'paul-italic)
(dtk-define-voice-alias 'voice-lock-doc-string-personality 'dennis)
(dtk-define-voice-alias 'voice-lock-string-personality 'betty)
(dtk-define-voice-alias 'voice-lock-function-name-personality 'harry)
(dtk-define-voice-alias 'voice-lock-warning-personality 'paul-angry)
(dtk-define-voice-alias 'voice-lock-keyword-personality 'ursula)
(dtk-define-voice-alias 'voice-lock-builtin-personality 'harry)
(dtk-define-voice-alias 'voice-lock-variable-name-personality 'paul-animated)
(dtk-define-voice-alias 'voice-lock-type-personality 'paul-smooth)
(dtk-define-voice-alias 'voice-lock-reference-personality 'paul-animated)
***the standard symbols used as fonts as personalities
(dtk-define-voice-alias 'font-lock-variable-name-face 'voice-lock-variable-name-personality)
(dtk-define-voice-alias 'font-lock-reference-face 'voice-lock-reference-personality)
(dtk-define-voice-alias'font-lock-comment-face 'voice-lock-comment-personality)
(dtk-define-voice-alias'font-lock-string-face 'voice-lock-string-personality)
(dtk-define-voice-alias 'font-lock-keyword-face 'voice-lock-keyword-personality)
(dtk-define-voice-alias 'font-lock-builtin-face 'voice-lock-builtin-personality)
(dtk-define-voice-alias 'font-lock-function-name-face 'voice-lock-function-name-personality)
(dtk-define-voice-alias 'font-lock-type-face 'voice-lock-type-personality)
(dtk-define-voice-alias 'font-lock-constant-face 'voice-lock-constant-personality)
(dtk-define-voice-alias 'font-lock-warning-face 'voice-lock-warning-personality)
**MS SAPI4の音声修飾の仕様
***ProTalkerの仕様
PitchSet 50-170
SpeedSet 80-260
Char= Normal, Monotone, Excited
***DTalkerSAPI (V3.5Ex)
****ドキュメントトーカライブラリの仕様
*****音声制御コマンド
声色(ピッチ) 0-4
性別 0,1
速さ 0-9
トーン(ピッチ) 0,1
ボリューム 0-9
イントネーション Robotic or Normal
エコー 0,1
若者声 0,1
ステレオ Mono,L,R
***東芝音声システムV4.0
ピッチ、スピード、ボリューム、モード、phenome、トーン、性別
タグコマンド;context, pause, pitch, speed, voice, volume
****LaLaVoice2001
9種類のキャラクタ
性別(男,女1,女2)
声質(太い,細い) 5段階
抑揚 5段階
速度 10段階
高さ 10段階
トーン 10段階
音量 10段階
***MS英語エンジンの仕様
Pitch
Volume
Speed
Phenome
****Control tags
Character=Angry, Monotone, etc.
Context=address, C, etc
Emphasize
Bookmark
Pause
Baseline Pitch
Prosodic rules
part of speech=abbr, adj, etc.
Reset
Baseline average Speed
Voice character=Lang, Accent, Gender, Speaker, etc.
Volume
;;; Local Variables: ***
;;; mode:Outline ***
;;; End: ***