概要
最近、音声入力でメモを取ることを試している。タイピングに頼らずに、パソコンに向かって話すだけでテキスト化されるのは快適だが、出力は言い直しや繰り返しが多く、そのままにしておくのは少しもったいない。これを綺麗にしようとcursorのAIを叩いてみたが、どうも望む通りの結果が出てこない。
そこでこの記事では、同一の文章に対して複数の文章整形プロンプトを実行して、どのような結果が出るかを実験した。自分のための技術メモの側面が強いが、もし誰かの役に立つことがあれば幸いである。
はじめに 文字起こしをAIで上手く整形したい
文字起こしのサービスAqua Voiceを使い始めた。精度が高かったので、すぐに有料モードに加入した。そのため、プライベートのメモは1人でブツブツ喋って音声でメモを取ることが増えた。ただしこの方法だと、当然フィラーや言い直しが多い。そこでCursorの出番である。CursorのAIに要約をしてもらっている。いや、要約というのは少し不適当かもしれない……冗長な語を取り除くことをお願いする。しかし、出力文章が予想以上に削除されて短くなったり、逆に削除が不十分で長くなったりと、うまくいかないことがあった。そのため、どういう要約用プロンプトを実行するとどういう結果が返ってくるのかというのを一旦まとめてみたい。
(注意:フィラーとは、「えーと」や「あのー」といった、言い淀んだときに出る言葉のことである。)
実験の設定
サンプル用の入力文
入力となる文章がないと始まらないので、サンプルの例文を用意した、というか自分でパソコンに向かって適当にしゃべった。
(1回目に今日の晩飯について語ったら、Aqua Voiceが不調で途中部分の文字起こしに失敗していた……ショックだ。)
え〜どうしよう、6月だというのになかなかついですね。なんか梅雨入りした本当は梅雨入りしたことは知っているんだけど、梅雨はどこに行ってしまったのかといった感じのお天気である。今日も晴れて最高気温は33度ぐらいになったと思う。夕ご飯を食べた後に軽くジョギングに行きました。今日もリモートワークだったので、家からほとんど出ないと全く運動不足になってしまうから。まあ、というわけで、夜に本当に軽いジョギングに行ったんだけど、夜に走っても結構汗ばむくらいの気温であった。確か研究法によれば少しは雨になるらしいが、ちょっと確認してみよう。研究法を確認してみたら、明日は曇りのち雨だ。久しぶりに雨が降るみたいだ。
Aqua Voiceは喋った結果の音声ファイルを内部で保存しているので、聞き返してみた。Aqua Voiceは結構フィラーを削除してくれる。実際の音声ではもっと「えーと」「まぁ」といったフィラーが多い。
なお、上記には少し文字起こし誤りがある。
- 「なかなかつい」→「なかなか暑い」
- 「研究法」→「天気予報」
今回はこのままcursorに入力してみよう。
モデル
これは俺の用途の関係上、cursorのエディタ内部で使えるモデルから選ばなければならない。
現状(2025年6月23日現在、cursor 1.1.3)エディタ内部のAIで使えるモデルは以下の通りになっている。
- claude-3.5-sonnet
- gpt-4.1
- claude-3.7-sonnet
- gpt-4o
- cursor-small

Text Arena | LMArena とかを調べたけど、claude-3.7-sonnetよりもgpt-4.1のほうが全体的な性能が良いんですかね? gpt-4.1 を使うことにする。
要約するためのプロンプトを考える(作ってもらう)
文字起こしの方法は、「素起こし」「ケバ取り」「整文」という3種類がある。
「素起こし」とは、録音した内容を聞き、聞こえた音をそのまま一字一句正確に書き起こす方法です。
「ケバ」とは文脈上意味を持たない「あのー」「えー」「ああ」「~ね」「~よ」などの言葉を指す用語であり、「フィラー」と呼ばれる場合もあります。
(中略)ケバをきれいに取り除くだけで文章がスッキリし、非常に読みやすくなるのです
「整文」とは、話し言葉を書き言葉に直し、文体をですます調に整える方法です。助詞の補充や、ら抜き言葉の訂正などを行うので、非常に美しく読みやすい文章に仕上がります。
「素起こし」「ケバ取り」「整文」の違いを理解しよう! | コラム | VoXT One(AmiVoice)
ただ「整文」は「要約」ではないんだよな。「整文」は原文にあった意味が欠落する加工ではないはず。
Gemini 2.5 Pro 他に「入力された文章を整えるためのプロンプトを考えて出力して」と言って、プロンプトを作成してもらった。
下記の結果とセットで記載している。
結果 プロンプトと出力結果
5個のプロンプトと実行した出力結果を示す。(他にも試してみたが、上手くいかなかったものは省略。)
一応、元の文章の前後の部分が結果に影響する可能性があるため、新規ファイルを開いてそこに上記のテキストを貼る形で検証した。
レベル1
プロンプト:
フィラーや言い淀みを除去し、誤字脱字を修正して、自然な話し言葉として整えてください。
結果:
どうしよう、6月だというのになかなか暑いですね。梅雨入りしたことは知っているけれど、梅雨はどこに行ってしまったのかという天気です。今日も晴れて、最高気温は33度くらいだったと思います。夕ご飯を食べた後に軽くジョギングに行きました。今日もリモートワークだったので、家からほとんど出ず、全く運動不足になってしまうからです。夜に軽くジョギングに行ったのですが、夜でも結構汗ばむくらいの気温でした。確か天気予報によれば少しは雨になるらしいので、確認してみたら、明日は曇りのち雨だそうです。久しぶりに雨が降るみたいです。
レベル2
プロンプト:
口語は残しつつ、全体のフィラーや言い直しを除去し、多少文脈を調整して自然な話し言葉に整えてください。
結果:
どうしよう、6月なのになかなか暑いですね。梅雨入りしたことは知っているけど、梅雨はどこに行ってしまったんだろうという天気です。今日も晴れて、最高気温は33度くらいだったと思います。夕ご飯のあとに軽くジョギングに行きました。今日もリモートワークだったので、家からほとんど出ず、運動不足になりそうだったからです。夜に走っても結構汗ばむくらいの気温でした。天気予報によると、明日は曇りのち雨らしいです。久しぶりに雨が降るみたいですね。
レベル3
プロンプト:
冗長な表現や遠回しな言い方を、より簡潔で分かりやすい表現に修正してください。
結果:
6月なのに暑い日が続いています。梅雨入りはしているはずですが、雨が降らず晴れて最高気温は33度ほどでした。夕食後に軽くジョギングをしましたが、夜でも汗ばむほどの気温です。リモートワークで運動不足になりがちなので、夜に走るようにしています。天気予報を確認したところ、明日は曇りのち雨で、久しぶりに雨が降るようです。
レベル4
プロンプト:
口語的な表現を書き言葉に直し、文章の構成を整えてください。要点が明確に伝わるようにしてください。
結果:
6月にもかかわらず、連日暑い日が続いています。梅雨入りしたことは知っていますが、梅雨らしい天気にはならず、今日も晴れて最高気温は33度ほどでした。夕食後には軽くジョギングをしました。リモートワークのため外出する機会が少なく、運動不足になりがちだからです。夜に走っても汗ばむほどの気温でした。天気予報によると、明日は曇りのち雨で、久しぶりに雨が降るようです。
レベル5
プロンプト:
文章の要点のみを抽出し、簡潔な文章で再構成してください。元の表現にこだわる必要はありません。
結果:
6月なのに暑い日が続き、今日も最高気温は33度だった。リモートワークで運動不足を感じたため、夕食後にジョギングをした。天気予報によると、明日は久しぶりに雨が降る見込み。
考察
どのようなプロンプトを作れば結果がどこまで短くなるか、予想通りにはいかず、調整が難しい。
レベル3とレベル4の結果がそんなに変わらない長さだった。レベル5で一気に短くなったので、4と5の間の縮約になるプロンプトが作れないか少し試したけど、上手くできなかった。
また、文体についても改善の余地はある。今回は、「ですます調にしろ」とか「箇条書きにしろ」のような特段のスタイルの指示をしないようなプロンプトにした。希望する文体があれば当然それをプロンプトに入れる方が良い。
例えば下記の記事には、2人がしゃべっているPodcastの文字起こしに対して、特定の形式で出力をしてもらうためのプロンプトがある。
ポッドキャストをAIで文字起こしして図解する手順|ノウチ
上記では、出力形式や実行すべき処理をかなり具体的に指示している。
今回の実験はプロンプトがシンプルであることを優先したので、割と短めのプロンプトにした。
先程の「素起こし」「ケバ取り」「整文」との対応関係を見ると、もう文字起こしをした段階でフィラーはある程度削除されているので素起こしにはならない。
「ケバ取り」はフィラーを除去して最低限きれいにするくらいなので、レベル1の結果だろう。
「整文」がどれに当たるかは、どこまで文を整理したいかによる。レベル5まで行くともはや別物なので、レベル2〜4のどれかだろう。
応用としては、例えば各レベルのプロンプトを辞書登録しておいて、すぐに呼び出せるようにしておくことが考えられる。「ケバ取り」をしたいときはcursor上でレベル1のプロンプトを呼び出して実行すれば良い。
今回の実験の限界について。モデルは今回gpt4.1だけにしたが、このモデルが違うと当然結果が違う可能性はある。さらに元の文章も1つしか無い。あとはAqua Voice以外の文字起こしだとそもそも入力文が変わってくるな。(仕事のときはWindows標準の音声入力をつかっているが、アイツはフィラーを入れてくるし、やたらと句読点を入れてくる)ちゃんと定量的に議論しよするには、複数のモデルで複数回実験して……とやる必要があるが、学術論文でもないので簡単な実験でとどめておく。
余談:この作業にObsidianは本当に必要か?
考えてみると、今回の作業をするうえで使っているツールは3つある。Aqua VoiceとObsidianとCursorの3つだ。この3つのツールの担当範囲を箇条書きにすると、こうなる。
- Aqua Voice:入力された音声を文字に起こす
- Cursor:AIを呼び出し、プロンプトを実行して文字起こしを整形する
- Obsidian:デイリーノートの作成と保存
しかし、この3つの貢献度合いは明らかに違う。私が喋った内容が精度高く文字起こしされるのはAqua Voiceのおかげである。私の言い回しが適宜省略され、簡潔に冗長な箇所が削除されて簡潔になるのはCursorとその向こうのAIのおかげである。
ここでObsidianは何をしたかというと、特に何も貢献していない。テキストファイルを扱えるエディタでありすれば良いので、別にObsidianではなく、他のエディターでも良い。例えば使い慣れたVS Codeでも別に問題はない。
強いて言えば、Command+Shift+D のショートカットキーでデイリーノートが開くように設定したので、Obsidianの恩恵は「ショートカットキー一発でデイリーノートを作成して開ける」ことかもしれない。だがそれだけでは、あまりにも小さすぎるのではないか。Cursorの良さはわかるし、Aqua Voiceの良さはわかるけど、Obsidianの良さは未だによくわからない(VS Codeでも良いじゃん)というのが、現時点での私の考えである。









