特殊技術? だったディクテーションも効率化できる時代
Contents
文字起こしとか、音声起こし、書き起こしなど、さまざまな呼ばれ方をする仕事。
YouTubeのビデオが語られている言葉を文字データにして、その文字データをWordのようなテキストファイルとして保存したい、保存したあとその内容を翻訳したい… そんな要望に対応することがあります。
たとえばドイツ人が話すドイツ語、イギリス人が話す英語を文字データにするには、ネイティブスピーカー(たとえば、ドイツ語を母国語とするドイツ人をネイティブスピーカーと呼びます)にそのオーディオデータを聞いてもらいながらタイピングしてもらう必要がありました。
ディクテーション(dictation=口述筆記)などとも呼ばれるこの仕事は、その人でなければできない特定の技術が必要と位置付けられて結構時間とお金がかかる仕事でした。
Googleドキュメント+Windowsのステレオミキサーで文字起こし
その時間とお金がかかっていた仕事も
- 再生した音声を録音する ステレオミキサーと
- [音声入力] の機能を持った Googleドキュメント
をつなぐことで、ワンクリックで完結できるようになるんですね!^^
Googleドキュメント は、いわゆるワードプロセッサーです。
普通ならキーボードからテキストを入力し、ファイルとして保存するソフトウェアですが、そのGoogleドキュメントには [音声入力] 、つまりマイクに向かって話した言葉を文字変換しながらデータ化する機能も備わっているんです。
Googleドキュメントに、たとえば、YouTubeの音声を書かせようとしたら
音声を再生 → スピーカー → マイク → Googleドキュメント
というラインを構築すればよいことになりますね。
そして、このラインの赤字で識別した部分 - スピーカーに出す音声をマイクを通さず、そのまま録音できるようにすることができるのがWindowsにあるステレオミキサーです。
つまり、ステレオミキサーの機能を有効にしておけば
音声を再生 → Googleドキュメント
が実現できるというわけです。
ステレオミキサーを有効にする
私の環境 Windows 10 での説明ですが…
ウィンドウ右下にあるスピーカーのアイコンをマウス右ボタンでクリックして、フローティングメニューを呼び出し、
[サウンド (S)] をクリックします。
サウンドの設定
[サウンド] ウィンドウの [録音] タブを選択します。
このウィンドウでステレオミキサーを設定したいのですが、ステレオミキサーが表示されていない場合がありますので、このウィンドウでさらにマウス右ボタンをクリックしてフローティングメニューを呼び出し、[無効なデバイスの表示] を選択(チェック状態に)します。
いくつか、利用できるデバイスが表示され、その中にステレオミキサーが含まれているはずですから、さらにマウス右ボタンで [有効] にしてやります。
この状態で、私の環境ではWindowsをリブート(再起動)して、ステレオミキサーへの録音回路が有効になってくれました。
Googleドキュメントの使い方
Windows側の準備ができたら、Googleドキュメントを立ち上げます。
ワードプロセッサーソフトといっても、GoogleドキュメントはウェブブラウザGoogle Chromeがあれば無償で使えるソフトウェアです。
使い方は超簡単!!^^
- Googleドキュメントのホームページ http://documents.google.com/?hl=ja に
アクセスすればいいのです。 - Googleアカウントへのログインを求められますから、先にGoogleアカウントを取得しておいてください。
- ただし、[音声入力] の機能を使うには、Google Chromeです!!
Firefox や Internet Exploler で試しましたが、Googleドキュメントが使えるようになっても、[音声入力] の機能が無効になっていましたから。
ホームページにアクセスできるようになれば、+ [空白] のシンボルをクリックすれば新規のブランクページが開きます。
これで準備ができました。
たとえば、YouTubeの特定のページなど、文字起こしをしたい音声を再生し、Googleドキュメントのマウスシンボルをクリックしてテキスト化をするだけです。
Googleドキュメント・音声入力の問題
ただここで問題があります。
Googleドキュメントの音声認識の精度がどの程度かという問題です。
たとえば… で挙げたような「YouTubeの特定のページなど、文字起こしをしたい音声を再生し、Googleドキュメントのテキストにする」というケースだとよく分かると思いますが、直感的にはかなりの精度で音声(ナレーションなど話し手の言葉)をテキスト化してくれるという感じがするものの、音声の話すスピード、なまり、イントネーションなどによっては、テキスト化ができないという症状が出ます。
そうした症状にどう対応できるか、どんな音声なら高精度でテキストできるかをさらに検証してみようと思います。
to be continued …
zoomを録音して、それをGoogleドキュメントに文字起こししようとしています。
ステレオミキサーを有効にするところまではできました。
あとは、
①zoomが開始されたら勝手に録音されているのでしょうか?
②録音後、再生するには、どうするのでしょうか?
水曜日に使用するので、教えていただけると助かります。
久保田さん、ご連絡をありがとうございます。
水曜日は明日ですから、間に合うでしょうか?
zoomでのカンファレンスの内容をダイレクトに文字起こしする…というのではなく、まずzoomで録音、それを再生しながら文字起こしと考えていただくことを勧めたいです。
紹介している文字起こしの方法は、複数の発言に正確には対応できないように思うのです。カンファレンスでも、二人以上の言葉が重なるケースってありませんか?
うまく文字化できますように…。