生成AIと音声認識によるブログ執筆、お試し_1
2025年3月2日 18:19
いつものように仕事の合間にはてなブックマークを見てたら、面白そうな記事が流れてきたので、ちょっとやってみることにするよ。
まぁ何せ今年に入ってから、気がついたら全然ブログ書いてなかった。なるべく適当に書くようにしないともう全然書かなくなっちゃう。
下記の3つの記事をざっくり読んだ。
honeshabri.hatenablog.com umiyosh.hatenablog.com anond.hatelabo.jp
使用環境は、人によってそれぞれ違うから、記載しておこう。
- パソコンは割と古いMacBook Pro(2019)
- スマホは2021年10月購入に買ったOPPO Reno5 A(Android)
- Obsidianは使ってない、Evernoteは不便になりすぎてやめた、ちょっとだけNotion使っている
「忙しい人向けの説明」のセクションがマジでわからない。
「本しゃぶりというブログにChatGPTの使い方について、面白そうな記事があったのでメモ。なんか音声入力を使うといいらしい。これまで話した内容について整理し、マークダウンで出力して」 と喋っておこう。誤字脱字などの修正をせずに投稿すればいい。
「これまで話した内容」と言うのは、一体どこを指しているのか。一連の会話の末尾でやれと言ってるのかよくわからなかった。
とりあえず言われるがままに、Android版のChatGPTに吹き込んでプロンプトを投げたら、
私がこれまで入力してきた結果に基づくメモリに残ってる情報(英語学習やキャリア関連など)が出てきた。それが期待した通りになってるのか、よく分からない。
以下、私が喋る→SuperWhisperで出力されたテキストをコピー →
以下は、私が1人でしゃべった内容を音声認識に入力した結果です。 言い直しやフィラーを修正し、自然でわかりやすい文章に修正してください。
と ChatGPTに指示→結果を少し手直ししたもの。
SuperWhisperをダウンロードしてみた。公式ページに
https://superwhisper.com/ You can try the Pro features for 15 minutes free, after that the free tier features are available to you forever. The no questions asked refund within 30 days of purchase will always be honored.
と書いてあるとおり、最初の15分間だけプロモード(有料版)を使用できるらしい。では、無料版ではどうなるのか? 15分経過後に検証しようとしたが、説明をよく読むと厄介なことに気がついた。
まず、私のMacBookが古いため、インテルチップ搭載のMacではクラウド版が非対応で、ローカル版のみで動作するという制約がある。そして第二に、クラウド版の機能を使えるのはプロモード(有料版)だけだという。つまり、15分が経過して無料版に切り替わると、私はこのソフトウェアを一切使えなくなる。終了。詰んだ。
もちろん、月額8ドルを払ってProモードにすれば解決する話ではあるが、使い始めて今すぐ課金する気にはなれない。しかし、Macのデフォルトの音声認識がまったく満足のいくものではないのも事実だ。私は話し始めに「まぁ」という単語をよく使うのだが、これがほぼすべて「もう」と誤変換されてしまい、かなりイライラする。
検証して気付いたが、開始から15分が経過したらProモードのお試しが終了するのではなく、15分間の音声を入力したあとという意味らしい。
それはさておき、議事録について思い出した。会議中にメモを取るが、最終的な議事録は構造化された文章になる。しかし、人は最初から整理された形で話すわけではなく、「A」という議題について話していたつもりが、途中で脱線して「B」について議論していることもよくある。そして最終的に「Aの結論って何だったっけ?」と話が戻る。そうなると、議事録では発言順ではなく、話の流れを整理して「Aの結論」としてまとめる必要がある。
同じように、最終的に出来上がるブログの文章も、議事録と同様に構造化したい。しかし、話した順番そのままでは構造的な文章にはならない。そこで、この作業をAIに任せて、大規模言語モデル(LLM)に構造化をさせるのが良いのでは、ということだと理解した。
さて、どうしたものか。SuperWhisperを活用できるのは15分間だけのようで、非常に困っている。15分を超えたら検証が続けられないからだ。その後の代替策としては、Googleドキュメントの音声入力を使うのが良いのかもしれない。または、ChatGPTに直接話しかけるのもありか? 音声認識の精度がどれほど高いかが、最終的にLLMに渡るデータの質を左右するのだろう。
うーん、どうしようか。このまま投稿してしまうか……。