子供の落書き帳 Renaissance

AIで音声メモを文章整形するための最適なプロンプトを探して、5段階の強度を比較した

2025-06-29T18:26:06+09:00

概要

最近、音声入力でメモを取ることを試している。タイピングに頼らずに、パソコンに向かって話すだけでテキスト化されるのは快適だが、出力は言い直しや繰り返しが多く、そのままにしておくのは少しもったいない。これを綺麗にしようとcursorのAIを叩いてみたが、どうも望む通りの結果が出てこない。
そこでこの記事では、同一の文章に対して複数の文章整形プロンプトを実行して、どのような結果が出るかを実験した。自分のための技術メモの側面が強いが、もし誰かの役に立つことがあれば幸いである。

概要
はじめに文字起こしをAIで上手く整形したい
実験の設定
結果プロンプトと出力結果
考察
- 余談：この作業にObsidianは本当に必要か?

はじめに文字起こしをAIで上手く整形したい

文字起こしのサービスAqua Voiceを使い始めた。精度が高かったので、すぐに有料モードに加入した。そのため、プライベートのメモは1人でブツブツ喋って音声でメモを取ることが増えた。ただしこの方法だと、当然フィラーや言い直しが多い。そこでCursorの出番である。CursorのAIに要約をしてもらっている。いや、要約というのは少し不適当かもしれない……冗長な語を取り除くことをお願いする。しかし、出力文章が予想以上に削除されて短くなったり、逆に削除が不十分で長くなったりと、うまくいかないことがあった。そのため、どういう要約用プロンプトを実行するとどういう結果が返ってくるのかというのを一旦まとめてみたい。
（注意：フィラーとは、「えーと」や「あのー」といった、言い淀んだときに出る言葉のことである。）

実験の設定

サンプル用の入力文

入力となる文章がないと始まらないので、サンプルの例文を用意した、というか自分でパソコンに向かって適当にしゃべった。
（1回目に今日の晩飯について語ったら、Aqua Voiceが不調で途中部分の文字起こしに失敗していた……ショックだ。）

え〜どうしよう、6月だというのになかなかついですね。なんか梅雨入りした本当は梅雨入りしたことは知っているんだけど、梅雨はどこに行ってしまったのかといった感じのお天気である。今日も晴れて最高気温は33度ぐらいになったと思う。夕ご飯を食べた後に軽くジョギングに行きました。今日もリモートワークだったので、家からほとんど出ないと全く運動不足になってしまうから。まあ、というわけで、夜に本当に軽いジョギングに行ったんだけど、夜に走っても結構汗ばむくらいの気温であった。確か研究法によれば少しは雨になるらしいが、ちょっと確認してみよう。研究法を確認してみたら、明日は曇りのち雨だ。久しぶりに雨が降るみたいだ。

Aqua Voiceは喋った結果の音声ファイルを内部で保存しているので、聞き返してみた。Aqua Voiceは結構フィラーを削除してくれる。実際の音声ではもっと「えーと」「まぁ」といったフィラーが多い。

なお、上記には少し文字起こし誤りがある。

「なかなかつい」→「なかなか暑い」
「研究法」→「天気予報」

今回はこのままcursorに入力してみよう。

モデル

これは俺の用途の関係上、cursorのエディタ内部で使えるモデルから選ばなければならない。
現状（2025年6月23日現在、cursor 1.1.3）エディタ内部のAIで使えるモデルは以下の通りになっている。

claude-3.5-sonnet
gpt-4.1
claude-3.7-sonnet
gpt-4o
cursor-small

Text Arena | LMArena とかを調べたけど、claude-3.7-sonnetよりもgpt-4.1のほうが全体的な性能が良いんですかね? gpt-4.1 を使うことにする。

要約するためのプロンプトを考える（作ってもらう）

文字起こしの方法は、「素起こし」「ケバ取り」「整文」という3種類がある。

「素起こし」とは、録音した内容を聞き、聞こえた音をそのまま一字一句正確に書き起こす方法です。
「ケバ」とは文脈上意味を持たない「あのー」「えー」「ああ」「～ね」「～よ」などの言葉を指す用語であり、「フィラー」と呼ばれる場合もあります。
（中略）ケバをきれいに取り除くだけで文章がスッキリし、非常に読みやすくなるのです
「整文」とは、話し言葉を書き言葉に直し、文体をですます調に整える方法です。助詞の補充や、ら抜き言葉の訂正などを行うので、非常に美しく読みやすい文章に仕上がります。
「素起こし」「ケバ取り」「整文」の違いを理解しよう！ | コラム | VoXT One（AmiVoice）

ただ「整文」は「要約」ではないんだよな。「整文」は原文にあった意味が欠落する加工ではないはず。

Gemini 2.5 Pro 他に「入力された文章を整えるためのプロンプトを考えて出力して」と言って、プロンプトを作成してもらった。
下記の結果とセットで記載している。

結果プロンプトと出力結果

5個のプロンプトと実行した出力結果を示す。（他にも試してみたが、上手くいかなかったものは省略。）
一応、元の文章の前後の部分が結果に影響する可能性があるため、新規ファイルを開いてそこに上記のテキストを貼る形で検証した。

レベル1

プロンプト：
フィラーや言い淀みを除去し、誤字脱字を修正して、自然な話し言葉として整えてください。
結果：

どうしよう、6月だというのになかなか暑いですね。梅雨入りしたことは知っているけれど、梅雨はどこに行ってしまったのかという天気です。今日も晴れて、最高気温は33度くらいだったと思います。夕ご飯を食べた後に軽くジョギングに行きました。今日もリモートワークだったので、家からほとんど出ず、全く運動不足になってしまうからです。夜に軽くジョギングに行ったのですが、夜でも結構汗ばむくらいの気温でした。確か天気予報によれば少しは雨になるらしいので、確認してみたら、明日は曇りのち雨だそうです。久しぶりに雨が降るみたいです。

レベル2

プロンプト：
口語は残しつつ、全体のフィラーや言い直しを除去し、多少文脈を調整して自然な話し言葉に整えてください。
結果：

どうしよう、6月なのになかなか暑いですね。梅雨入りしたことは知っているけど、梅雨はどこに行ってしまったんだろうという天気です。今日も晴れて、最高気温は33度くらいだったと思います。夕ご飯のあとに軽くジョギングに行きました。今日もリモートワークだったので、家からほとんど出ず、運動不足になりそうだったからです。夜に走っても結構汗ばむくらいの気温でした。天気予報によると、明日は曇りのち雨らしいです。久しぶりに雨が降るみたいですね。

レベル3

プロンプト：
冗長な表現や遠回しな言い方を、より簡潔で分かりやすい表現に修正してください。
結果：

6月なのに暑い日が続いています。梅雨入りはしているはずですが、雨が降らず晴れて最高気温は33度ほどでした。夕食後に軽くジョギングをしましたが、夜でも汗ばむほどの気温です。リモートワークで運動不足になりがちなので、夜に走るようにしています。天気予報を確認したところ、明日は曇りのち雨で、久しぶりに雨が降るようです。

レベル4

プロンプト：
口語的な表現を書き言葉に直し、文章の構成を整えてください。要点が明確に伝わるようにしてください。
結果：

6月にもかかわらず、連日暑い日が続いています。梅雨入りしたことは知っていますが、梅雨らしい天気にはならず、今日も晴れて最高気温は33度ほどでした。夕食後には軽くジョギングをしました。リモートワークのため外出する機会が少なく、運動不足になりがちだからです。夜に走っても汗ばむほどの気温でした。天気予報によると、明日は曇りのち雨で、久しぶりに雨が降るようです。

レベル5

プロンプト：
文章の要点のみを抽出し、簡潔な文章で再構成してください。元の表現にこだわる必要はありません。
結果：

6月なのに暑い日が続き、今日も最高気温は33度だった。リモートワークで運動不足を感じたため、夕食後にジョギングをした。天気予報によると、明日は久しぶりに雨が降る見込み。

考察

どのようなプロンプトを作れば結果がどこまで短くなるか、予想通りにはいかず、調整が難しい。
レベル3とレベル4の結果がそんなに変わらない長さだった。レベル5で一気に短くなったので、4と5の間の縮約になるプロンプトが作れないか少し試したけど、上手くできなかった。

また、文体についても改善の余地はある。今回は、「ですます調にしろ」とか「箇条書きにしろ」のような特段のスタイルの指示をしないようなプロンプトにした。希望する文体があれば当然それをプロンプトに入れる方が良い。
例えば下記の記事には、2人がしゃべっているPodcastの文字起こしに対して、特定の形式で出力をしてもらうためのプロンプトがある。
ポッドキャストをAIで文字起こしして図解する手順｜ノウチ
上記では、出力形式や実行すべき処理をかなり具体的に指示している。
今回の実験はプロンプトがシンプルであることを優先したので、割と短めのプロンプトにした。

先程の「素起こし」「ケバ取り」「整文」との対応関係を見ると、もう文字起こしをした段階でフィラーはある程度削除されているので素起こしにはならない。
「ケバ取り」はフィラーを除去して最低限きれいにするくらいなので、レベル1の結果だろう。
「整文」がどれに当たるかは、どこまで文を整理したいかによる。レベル5まで行くともはや別物なので、レベル2〜4のどれかだろう。

応用としては、例えば各レベルのプロンプトを辞書登録しておいて、すぐに呼び出せるようにしておくことが考えられる。「ケバ取り」をしたいときはcursor上でレベル1のプロンプトを呼び出して実行すれば良い。

今回の実験の限界について。モデルは今回gpt4.1だけにしたが、このモデルが違うと当然結果が違う可能性はある。さらに元の文章も1つしか無い。あとはAqua Voice以外の文字起こしだとそもそも入力文が変わってくるな。（仕事のときはWindows標準の音声入力をつかっているが、アイツはフィラーを入れてくるし、やたらと句読点を入れてくる）ちゃんと定量的に議論しよするには、複数のモデルで複数回実験して……とやる必要があるが、学術論文でもないので簡単な実験でとどめておく。

余談：この作業にObsidianは本当に必要か?

考えてみると、今回の作業をするうえで使っているツールは3つある。Aqua VoiceとObsidianとCursorの3つだ。この3つのツールの担当範囲を箇条書きにすると、こうなる。

Aqua Voice：入力された音声を文字に起こす
Cursor：AIを呼び出し、プロンプトを実行して文字起こしを整形する
Obsidian：デイリーノートの作成と保存

しかし、この3つの貢献度合いは明らかに違う。私が喋った内容が精度高く文字起こしされるのはAqua Voiceのおかげである。私の言い回しが適宜省略され、簡潔に冗長な箇所が削除されて簡潔になるのはCursorとその向こうのAIのおかげである。

ここでObsidianは何をしたかというと、特に何も貢献していない。テキストファイルを扱えるエディタでありすれば良いので、別にObsidianではなく、他のエディターでも良い。例えば使い慣れたVS Codeでも別に問題はない。
強いて言えば、Command+Shift+D のショートカットキーでデイリーノートが開くように設定したので、Obsidianの恩恵は「ショートカットキー一発でデイリーノートを作成して開ける」ことかもしれない。だがそれだけでは、あまりにも小さすぎるのではないか。Cursorの良さはわかるし、Aqua Voiceの良さはわかるけど、Obsidianの良さは未だによくわからない（VS Codeでも良いじゃん）というのが、現時点での私の考えである。

CNBC「AIのVibe Coding時代」を見たメモ

2025-04-06T22:33:51+09:00

CNBCのYouTube動画を観たので、ちょいと感想を書く。
動画はこちら。

www.youtube.com

CNBCをチャンネル登録しているのは英語学習のためだったが、そこから「Vibe Coding」というフレーズの動画が出てきたのでびっくりした。
AI駆動開発、またはVibe Codingってやつがプログラマーの間ではいま激アツである。QiitaやZennみたいなプログラマー向けサイトにこの話がいくら出てきても俺ももう驚かないんだけど、一般向けチャンネルであるCNBCで取り上げられていて驚いた、っていうのが今回書こうと思った理由。
ただ、全部通して観たわけじゃなくて、動画が40分ある中で前半15分のニュース部分だけ視聴した。後半20分くらいはAbridgeってサービスのCEOとの対談だったからスキップした。
タイトルを見たときはAI駆動開発やコーディングの話に限定した話だ思っていたら、観た感じだともう少し広い内容でちょっと予想外だった。タイトルが一点集中しすぎだろ、と思った。

内容は大きく二つの対立構造で語られていた。
ひとつは汎用モデルを作る側。ChatGPTのOpenAIとか、Claudeを作るAnthropicとか。もう1つは、AIラッパーとかAIアプリと呼ばれる側。コードならCursorやWindsurf、法律ならHarvey、医療ならAbridgeが伸びているらしい。
Googleみたいなビッグテックは既存の収益構造があるから急な方向転換が難しく、既存ビジネスを壊すリスクがある。一方、小規模スタートアップや特化サービスは自前でモデルをファインチューニングして素早くサービスを立ち上げ、急成長できる。という二項対立の構造のようだ。
最初は優れた万能のAIモデルを作ることに注目が集まって、投資の資金も流入した。けれど、最近はAIラッパー、AIアプリに金が流れている。
とはいえ、どちらが善でどちらが悪って話でもなく、ビッグテックも資金力と既存基盤で反撃してくるかもしれないし、これからどう転ぶかはわからない、って感じだった。

具体的なサービス名が結構バンバン出てきてたのでメモしておく。

コード系
- Cursor
- Windsurf
- Replit
- Devin
音声系（会話）
- Sesame
AI エージェント
- Manus ── 中国製。次の DeepSeek? とも言われ、ウェイトリスト 200 万人。
法律系
- Harvey OpenAI内に事例紹介あり法務分野に特化したカスタムモデルを構築 | OpenAI
医療系
- Abridge

最近ブログを全然書いていないので、軽い記事としてまとめてみた。この原稿を LLM で整形して、最後に目を通してアップする予定。おしまい。（ChatGPT o1に推敲を頼んで、各サービスへのリンクを貼っといてと言ったらやってくれた。一応確認したけどちゃんと合ってるな。）

英検1級（2024年度第3回）2次試験面接の質疑メモ、振り返り

2025-03-13T00:44:07+09:00

2025年3月2日（日）に英検2次試験を受けたので振り返りメモ。（2024年度第3回）
ギリギリ合格だった。

試験開始まで
入室〜フリートーク
スピーチ準備
スピーチ
質疑
反省（帰宅しながら色々思ったこと）
- トピックをどう解釈すべきか?
- スピーチについて
結果発表！
感想
関連記事

試験開始まで

案内ハガキには「10時15分に集合（時間厳守）」と言われて、ほぼギリギリに着いた。
あ、そうだ。控室に入ると携帯電話の電源は切らなければいけない。（使用すると不正行為に当たる）このことを覚えていなかったが、電車で移動中に面接用の文章のAnkiカードを完了させておいたので良かった。次回も忘れずにそうしろよ、俺。
案内係の女性が「10時40分から試験開始である。ただし。会場には3つ部屋があり、この部屋は3番目である。したがって試験までにはしばらく時間がかかる」という話をしていた。3番目の部屋の中でも私は最後の方に入室したので、私が試験を受けたのは12時の少し前だった。
結構長時間待つことになるが、上述の通り携帯電話は使えないので、勉強するならノートや参考書が必要。

入室〜フリートーク

というわけで会話の内容をメモ。

※ 注意：ここからは一応、私が言おうとした内容/会話の内容を日本語で記述していますが、おそらく英語はこれよりもだいぶ崩れている。また、言い直しも結構多かったと思います。

試験前の前置きフェーズ。「自己紹介をお願いします」
「ITコンサルタントしてます。AI関連の部署にいるので、毎日AI関連のニュースが出てくるのに追いつくのが大変ですが、楽しいです」
「休日は何をしていますか」
「ゲームしたりYouTubeみたりしています」

自分の仕事内容についてはどこまで答えるかよくわからなくなって、だいぶごちゃっとした（=文構造が崩れた）答えをしてしまった。
そもそも自己紹介をしろと言われていて、自分の仕事について述べよと言われているわけではない。せっかくなら「1回2次試験で落ちたので、次に今回は成功できるようにベストを尽くします」と言うとか、「ゲームを英語の字幕でやっていると英語表現が身に付いて面白いです」とか、言えばよかったかもなぁと今になって思っている。
休日の過ごし方については、無難に「ゲームをしてYouTubeを見てます」と答えてしまった。

スピーチ準備

「では試験を始めましょう」

というわけでトピックを選んで+スピーチ準備の1分間。

https://www.eiken.or.jp/eiken/exam/grade_1/

ここにはサンプル問題があるけど、実際はこれよりかなり長い文章だったと思う。旺文社から出てる過去問を見れば実際に過去に出題されたトピックカードが見られるんですかね?

トピック1は発展途上国とか書いてあった気がする。国際関係は行けそうになかったのでパス。
トピック2か3で、なんか見て分からない単語があった気がするんだよ。あとセレブがどうとか書いてあった気がして、この辺はマジでわかんないからパス。
Twitter検索したら「若者は伝統文化に無関心か」というのが出てきた。うん、2か3のどちらかがこれだったかもしれない。
トピック4が私の選んだやつで、就業可能な最小年齢を引き下げることは労働者に良い経験をもたらすか
トピック5は確か技術的な発展が将来にわたって永久に続くかみたいなこと

4と5でだいぶ迷う。5番は「YES」と答えれば良さそうだと思ったけど、理由が2つ思いつかなかったので4番にした。
労働関係のトピックはよく出るので、週4日労働制度・男女の格差・リモートワークなどあたりかなと思ったけど、まさか就業年齢の引き下げについての問題が来ると思わなかったので驚いた。
注意点として、valuable experienceという書き方をしていたので、これは会社の立場や政府の立場で答えてはいけない。聞かれたことに対して正しく答えなければいけない。

スピーチ

「一部の人は、就業可能な最小年齢を引き下げることは労働者に良い経験をもたらすと考えていますが、私はそうは思いません。その理由は2つあります。
第一に、（価値ある業務には前提の知識が必要的なことを言えたかなぁ……自信がない。）私の個人的な経験から言えば、私のいまの業務は大学で学んだことに基づいています。若い年齢で働いても、単純な繰り返しの業務をすることになり、これは価値のあるものとは言えません。
第二の理由として若い人が搾取されると言う可能性があります。自分の会社は悪意を持っていたり、人を騙そうとしていたりするかもしれません。若い労働者は判断力がそれほどないので、そのような会社に搾取される危険性があります。
結論として、就業可能の最小年齢を引き下げることは良い考えではありません。」

第二の理由を言い終わったあたりでタイマーが鳴ったので、「あれ、スピーチを終わったほうが良いの?」と思った。だが制止されなかったので、最後に簡単に結論部分を喋って一応スピーチを終わらせた。

質疑

日本人の試験官「Q. 今、日本では伝統的（traditional）の産業に従事する人が少なく、政府も産業の保存のために取り組んでいます。農業や漁業といった業界の労働者が不足しています。例えば、若い人が今すぐ農業や漁業に従事して働きたいと言った場合、働いてもらうのは良い考えですか。」

下のカッコ内は俺がその場で思ったことです。
（この面接官すごいしゃべるなぁ……traditionalというと俺の好きな江戸切子や日本酒の話をすればいいか。いや待てよ。農業や漁業の話なのかー。肯定してもいいけど、そうするとスピーチの自分の内容と矛盾するから、否定で回答するのがいいか。）

「難しい質問だが、私はそうは思わない。農業は機械化されていますし、現代の農業は関連する理論に基づいています。まず学校で農業の技術などを習得して、それから実際に農業に従事して働けばいいと思います。」
機械化されているから単純労働の必要性は薄い、みたいなことを言いたかったんだと思うけど、多分そこまでちゃんと筋道通った話をできていなかったと思う。

ネイティブの試験官「Q. 貧しい家庭で大学に行けない学生の場合はどうしますか。大学の授業料は、無料では無いですよね。」

「そうですね。高校卒業してから大学に行かずに働き始めるというのは特に問題ないと思っています。その場合は彼らは18歳になっているわけですし、基本的な判断力はあるでしょう。しかしまだ若く判断力が不足することもあると思うので、彼らが搾取されないように、若い労働者を守る法律の整備が必要だと思います。」
あんまり同じ話で終わらせるのは良くないなと思ったので法律の話を最後にくっつけた。enforce lawsという言い回しはAnkiで覚えておいてよかった……。

ネイティブの試験官「Q. 若者が搾取されるというのはあなたのスピーチでも述べていましたね。法律以外にできる対策はありますか。」

（若者がそういう状況に置かれたときに、自分から訴えることが必要で、だとするとえーと……あ、教育だわ。よしこれでいこう。）

「A. 1つの選択肢は教育だと思います。高校等の授業で労働のシステムについて教えておけば、学生が高校を出て働き始めた後で自分の環境が劣悪であった場合、その状況に自分の状況に気づくことができて苦情を提出できると思います」

The problem should be educated to the student in high schoolsとか言ってしまって「あ、マズい」と思ったけどそのまま押し通した。（educateの目的語は人物なので不可。taughtが正解。）
あと最後「file a issue」とか言っちゃったな。いま英辞郎を検索したら「file a complaint」あたりが正解っぽい。

ここで時間終了となった。

反省（帰宅しながら色々思ったこと）

トピックをどう解釈すべきか?

就業可能の最小年齢の引き下げと言うテーマなので、これを落ち着いて考えてみると、よく分からねぇなと。
日本の法律を考えると、就業可能な最低年齢って15歳じゃないですか。これは引き下げようっていうことなのか……? だとすると「中学生が働くことになり、義務教育の機会が奪われるから問題です」の一択になりそうな気がする。
でもいま高校進学率は90%を超えているから、最小年齢で働き始める人ってほとんどいないし、最小年齢を上げ下げすることによる効果はほとんど無さそうだし……。自分でも何歳から何歳に引き下げる話をしているかよくわからない……と思いつつしゃべっていた。
そもそも問題文では日本の話に限定されていなかったので、一般論で答えるべきなんだろうか。日本の話として喋りますと前置きして、日本限定で語っても良いのかな……? よく分からん。

スピーチについて

せっかく個人的な経験を語っているので、大学で情報工学を学んだとか、プログラミングの知識とかもうちょっと具体的なことを言っても良かったと思った。
「私の個人的な経験から言えば、私のいまの業務は大学で学んだことに基づいています。」だと具体的にどう基づいているのか分からないからね。

農業は機械化されている……は、直前に見てた参考書から思いついたものだったので、最後に粘って勉強したのも無駄ではなかったと思う。多分。

結果発表！

ギリギリで合格してた。

SHORT SPEECH 6
INTERACTION 7
GRAMMAR AND VOCABULARY 7
PRONUNCIATION 6

合計26 / 40。これがギリギリで受かるスコアですよ皆さん。 CSEスコアの合格基準が602で、これがCSEスコアが605だった。多分

前回（2024年度第1回）は上から4-6-4-6で不合格だった。我ながら酷いスコアだ。比較すると、SHORT SPEECHとGRAMMAR AND VOCABULARYが主に伸びたということだな。

感想

改めて振り返ってみると英検1級2次試験は間違いなく難化したと思います。今回含めて5回受験していますが、今までで1番トピック選びに苦戦しました。お題がよりニッチになったこと、トピック文が長くなり複雑になった事が考えられそうです。この事を鑑みると今後英検1級2次試験を対策するには参考書や過… https://t.co/OFqUHQ3L5F
— とげまる| 和田啓 (@KTogemaru) 2025年3月4日

英語学習と英検受験を長年続けているとげまるさんが書いている通り、トピックが難しかった。
どれもこれも変にひねったトピックに見えた。素直なトピック、例えば「週4日労働に賛成か反対か」みたいなのはもう出題されないのかな?

最後の質問の教育は「困ったときの教育だな」と思いつつ答えていたが、「困ったときには○○の観点から回答すれば良い」という観点を13個リストアップしている記事を見つけた。
確かに答える観点はある程度似てくるので、いくつかの観点を用意しておけば良いという作戦は納得である。これはいくつか頭に入れておくと便利かもしれない。

note.com

答えられるようにしていた（つもりの）トピックは「インターネット、フェイクニュースと陰謀論、メディア」あたりと「労働問題、働き方」あたりの2点くらいだった。
この辺に山をかけていたわけだ。次はもうちょっと対応可能なトピックを増やしておこう。

試験対策の勉強法などは書きませんが、せっかくなので使った参考書を下に貼っておきます。
それでは。

出る順で最短合格！英検1級単熟語EX 第2版

作者:ジャパンタイムズ出版,ロゴポート
ジャパンタイムズ出版

Amazon

英検1級面接・攻略ポイント20 英検面接・攻略ポイント20

作者:アスク編集部
アスク

Amazon

linus-mk.hatenablog.com

生成AIと音声認識によるブログ執筆、お試し_1

2025-03-02T19:25:33+09:00

2025年3月2日 18:19

いつものように仕事の合間にはてなブックマークを見てたら、面白そうな記事が流れてきたので、ちょっとやってみることにするよ。
まぁ何せ今年に入ってから、気がついたら全然ブログ書いてなかった。なるべく適当に書くようにしないともう全然書かなくなっちゃう。

下記の3つの記事をざっくり読んだ。

honeshabri.hatenablog.com umiyosh.hatenablog.com anond.hatelabo.jp

使用環境は、人によってそれぞれ違うから、記載しておこう。

パソコンは割と古いMacBook Pro（2019）
スマホは2021年10月購入に買ったOPPO Reno5 A（Android）
Obsidianは使ってない、Evernoteは不便になりすぎてやめた、ちょっとだけNotion使っている

「忙しい人向けの説明」のセクションがマジでわからない。

「本しゃぶりというブログにChatGPTの使い方について、面白そうな記事があったのでメモ。なんか音声入力を使うといいらしい。これまで話した内容について整理し、マークダウンで出力して」と喋っておこう。誤字脱字などの修正をせずに投稿すればいい。

「これまで話した内容」と言うのは、一体どこを指しているのか。一連の会話の末尾でやれと言ってるのかよくわからなかった。
とりあえず言われるがままに、Android版のChatGPTに吹き込んでプロンプトを投げたら、私がこれまで入力してきた結果に基づくメモリに残ってる情報（英語学習やキャリア関連など）が出てきた。それが期待した通りになってるのか、よく分からない。

以下、私が喋る→SuperWhisperで出力されたテキストをコピー →

以下は、私が1人でしゃべった内容を音声認識に入力した結果です。言い直しやフィラーを修正し、自然でわかりやすい文章に修正してください。

と ChatGPTに指示→結果を少し手直ししたもの。

SuperWhisperをダウンロードしてみた。公式ページに

https://superwhisper.com/ You can try the Pro features for 15 minutes free, after that the free tier features are available to you forever. The no questions asked refund within 30 days of purchase will always be honored.

と書いてあるとおり、最初の15分間だけプロモード（有料版）を使用できるらしい。では、無料版ではどうなるのか？ 15分経過後に検証しようとしたが、説明をよく読むと厄介なことに気がついた。

まず、私のMacBookが古いため、インテルチップ搭載のMacではクラウド版が非対応で、ローカル版のみで動作するという制約がある。そして第二に、クラウド版の機能を使えるのはプロモード（有料版）だけだという。つまり、15分が経過して無料版に切り替わると、私はこのソフトウェアを一切使えなくなる。終了。詰んだ。

もちろん、月額8ドルを払ってProモードにすれば解決する話ではあるが、使い始めて今すぐ課金する気にはなれない。しかし、Macのデフォルトの音声認識がまったく満足のいくものではないのも事実だ。私は話し始めに「まぁ」という単語をよく使うのだが、これがほぼすべて「もう」と誤変換されてしまい、かなりイライラする。

検証して気付いたが、開始から15分が経過したらProモードのお試しが終了するのではなく、15分間の音声を入力したあとという意味らしい。

それはさておき、議事録について思い出した。会議中にメモを取るが、最終的な議事録は構造化された文章になる。しかし、人は最初から整理された形で話すわけではなく、「A」という議題について話していたつもりが、途中で脱線して「B」について議論していることもよくある。そして最終的に「Aの結論って何だったっけ？」と話が戻る。そうなると、議事録では発言順ではなく、話の流れを整理して「Aの結論」としてまとめる必要がある。

同じように、最終的に出来上がるブログの文章も、議事録と同様に構造化したい。しかし、話した順番そのままでは構造的な文章にはならない。そこで、この作業をAIに任せて、大規模言語モデル（LLM）に構造化をさせるのが良いのでは、ということだと理解した。

さて、どうしたものか。SuperWhisperを活用できるのは15分間だけのようで、非常に困っている。15分を超えたら検証が続けられないからだ。その後の代替策としては、Googleドキュメントの音声入力を使うのが良いのかもしれない。または、ChatGPTに直接話しかけるのもありか？音声認識の精度がどれほど高いかが、最終的にLLMに渡るデータの質を左右するのだろう。

うーん、どうしようか。このまま投稿してしまうか……。

［論文メモ］M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

2024-11-24T23:19:15+09:00

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど | AIDB

で論文紹介を見かけて、RAG関連の業務を実施している俺としては気になったけど、AIDBって有料会員にならないと読めないのね。というわけで、自分で何とかすることにした。

論文のArXivリンクは下記： arxiv.org

注意: ChatGPTの無料版（GPT-4o）にPDFを入力して質問しつつ理解したものですが、記事の文章自体は（引用の1ヶ所を除き）全文俺自身が書いています。

どんな論文?
先行研究と比べてどこがすごい?
技術や手法の肝はどこ？
- 2) Page Retrieval （ページ検索）
- 3) Question Answering （質問応答）
議論はある?
Figure 6 をよく調べる
おまけ：

どんな論文?

M3DocRAG というRAGを提唱。複数文書や複数ページの文書に対応していること、テキストだけではなくその他の視覚情報（図や表など）を読み取れることを特徴とする。
また、評価のために新たなベンチマーク「M3DocVQA」を提案。40000ページ・3000ファイルのPDF文書（WikipediaをPDF化したもの）のDocument visual question answering (DocVQA)のベンチマーク。

先行研究と比べてどこがすごい?

論文中のFigure 1

(a) Single-page DocVQA → 単一ページに関してvisual question answering (VQA)をしているから、複数のページ/文書に対応できない。
(b) Text-based RAG → OCRで文字情報だけを読むから、図や表などの情報が欠落する。
(c) M3DocRAG (Ours) →上記2つのいいとこ取りをしました。つまり多くのページやファイルを扱えるし、図や表などの情報（visual information）も扱える。

こう並べてみると、いいとこ取りをしようという発想になるのは自然な気がする。

技術や手法の肝はどこ？

提案手法のM3DocRAG は3つのステップからなっている。

1) Document Embedding （ドキュメントの埋め込み計算） ColPaliというvisual embeddingを使って、PDF文書の各ページの埋め込みを軽鎖する
2) Page Retrieval 質問文に近い上位Kページを抽出するんだろう。細かい手法は分かってないけど。
3) Question Answering マルチモーダルのLM （例えば、Qwen2-VL）を使って、最終的な答えを得る。

論文にするほどの価値（新規性）って何なんだろう? と疑問に思っている。文書ファイルを画像の形のまま埋め込みベクトルに変換できて、クエリとの類似性を計算できるのであれば、それを使ってRAGを作れるのは当然に思える。すごいのはColPaliであってM3DocRAGでは無いのでは?

「ColPali」で検索して出てきたこの記事も、この論文が出る前の時点だけど、類似度計算してRAGを作っているようだし。
Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた

2) Page Retrieval （ページ検索）

入力クエリと各文書との類似度を普通に計算しようとすると、文書の数だけ計算する必要があり、計算コストが高い。 IVF（Inverted File Index）という方法を採っているらしい。

文書に対してembedding計算→クラスタリングをする。
入力クエリが来たら、各クラスタの代表点ベクトルとの類似度を計算する。
入力クエリと近いクラスタに対して、クラスタに属する各文書との類似度を計算する。

類似度を計算する対象の文書が大幅に減るので、計算時間が20s→2sくらいまで減る。
精度はちょっと落ちるけどそれほど顕著な性能劣化ではないので、計算時間の大幅減のほうがメリットが大きいでしょう、ということらしい。
Oracle が出してる記事が図が多くて分かりやすかったのでそちらを参照。
Inverted File Flatベクトル索引の理解

3) Question Answering （質問応答）

ColPaliのembeddingとQwen2-VLのembeddingは別物らしい。

The visual encoder takes K-retrieved page images P_K^q as inputs and outputs visual embeddings (different from ColPali encoder’s outputs).
論文 2.3

ChatGPTに聞いたら↓のように返ってきたけど、論文中にここは書いてないと思うし、真偽のほどは分からない。

ColPaliの埋め込み空間とQwen2-VLの埋め込み空間は異なります。

ColPaliは検索タスクの類似度計算用に最適化されており、その埋め込みは視覚情報だけを重視しています。

一方、Qwen2-VLは、視覚情報とテキスト情報を統合して自然言語の形で回答を生成することを目的としており、埋め込み空間が異なる設計です。

議論はある?

この論文にはDiscussion の章が無いので、該当するのはラストのConclusionの後のLimitations 部分ですかね。

元の検索モデル・言語モデルが英語中心のデータセットで訓練されたので、英語以外で書かれたドキュメントやプロンプトで性能劣化する懸念。
誤った/偏った結果が出力される可能性がある→実運用では人間の監視が必要。

Figure 6 をよく調べる

Question: "What distance was the AP Warrior fast race at the Del Mar Racetrack?"
ColPali + Qwen2-VL 7B: "Seven Furlongs"
質問: AP Warrior（競馬の競走馬の名前）がDel Mar Racetrackで走った際のfast raceの距離は何か?
ColPali + Qwen2-VL 7B の回答: "Seven Furlongs"

表の中で Track = Del Mar Racetrack である記録は2つあるから、どっちか分からなくない? と思ってしまった。
もう一つCondition = fast という条件があって、それを満たすのはオレンジで囲った下から2番目の行しか無いね。
Condition って何だよと思ったけど、馬場状態 - Wikipedia / Going (horse racing) - Wikipedia の話らしい……競馬1ミリもわからん。

おまけ：

論文を読む際の落合陽一フォーマットを使った。プロンプトは下記から拝借した。
論文読みフォーマット by 落合陽一 for ChatGPT - work4ai

論文名で調べると、最初に挙げたAIDB以外、LLMが要約したと思われる記事ばっか出てきてちょっと困る。あんまり理解の助けにならないページが検索上位に来るのはどうなんだ。
まぁ、だからこそ、AIDBみたいなサイトが価値を持つのかもしれんが……
それでは。

「最後の英単語」リストを避けるべき理由：英単語の選定・日本語訳の問題点を徹底分析

2024-08-18T17:38:03+09:00

「最後の英単語：約20000語の英単語リスト」というものがインターネット上にある。
https://l-formula.com/last-words
今回、このリストのうち1000語をAnkiを使って単語カードにして覚えた。その結論がこれだ。

結論：この単語集を使うのはやめとけ

これだけ覚えて帰ってくれれば問題ないです。
どこがどう良くないのかを詳しく知りたいという人向けに続きを書いていきます。

「最後の英単語」を使って単語を覚えた状況について
英単語の選び方がおかしい
和訳がおかしい
発音が間違っている
総評：ただより高いものはない。単語帳の本を買いましょう。
この妙な誤字はどこから来たのか（どの辞書を使っているのか）

「最後の英単語」を使って単語を覚えた状況について

使い始めた動機について。どこで初めて知ったのか今となっては思い出せない……
無料で入手できる大学レベルの英単語一覧とその語彙レベルあたりを見ていて、「10000語英単語リスト」とかでいろいろ調べていて、偶然見つけたんだと思う。

使い方については、今年（2024年）の1月にAnkiに入れて、ひたすら英語→日本語を回した。
（Ankiでの学習方法については、この記事で紹介しないので、他の人の記事を見てください。）
以下の記事を書いたときに単語数を測定したときには9200程度だったので、9001〜10000が妥当かなと思い、この1000語を覚えた。
linus-mk.hatenablog.com

さてこのサイトの説明には、

総計19511単語の英単語について、英単語・意味・発音記号を重要度順に並べた英単語のリストです。

と書いてある。英単語が1つ、それについて和訳を表示、というシンプルな形式である。
したがって、（発音記号を無視した場合）この英単語リストが良くないと批判する理由は、英単語の選び方がおかしいか、和訳がおかしいか、その両方か、である。
そして実際、その両方なのだ。
というわけで、以下「英単語の選び方がおかしい」「英単語の和訳がおかしい」に分けて詳述する。（以下の説明中で、9001〜10000はサイト上の単語に付記されている番号である）

英単語の選び方がおかしい

全体的なレベル感

フォローしておくと、9001〜10000のレベルは平均的には英検1級くらいの語彙が多いと思う。例えば、以下は英検1級の単語帳（EX英単語帳）にも登場する単語である。

vigil（9002）
debris（9003）
dissuade（9020）

私が英字新聞を読んでいたりして一度調べた単語（exuberance, flimsyなど）もあり、全部が全部ダメというわけではない。一部の単語がダメなのだが、その一部が決して少なくない割合なのである。

固有名詞が少なからずある

国名と地名が結構ある。あと神話の人物が結構ある。こんな感じだ。英単語の勉強ではなく地理か神学の勉強になってしまうから、サッサと学習対象から除外した。

Aphrodite（アフロディーテ：ギリシャ神話の女神）
Brazilian（ブラジルの）
Copenhagen（コペンハーゲン、デンマークの首都）

異常に簡単な単語がある

この9001〜10000のセクションにあった中で最も簡単な単語は、おそらく、bus, menu あたりだろう。
普通に英単語を覚えていって、9000単語覚えるまでにbusとmenuを覚えてないってこと、あるか??

あとは派生形の単語を派生元の単語と1つにまとめなていないので、元の単語を知っていれば容易に推測できる単語がやたらとある。
winner（9059）、buyer（9112）、normally（9302）、undeveloped（9806）などなど。このへんはわざわざ覚えなくても良いでしょう。

異常に難しい単語がある

かと思うともう一方で、やたらと難しいというかマニアックな単語がある。

phalanx 古代ギリシャ軍の方陣
chancel (教会堂の)内陣(聖職者・合唱隊などの席)

など。気合で覚えたけど、これが文章中で出てくることはあるんだろうか。古代ギリシャに関する文献を読まないとほぼ出てこないと思うが。 thrush（ツグミ）もあったが、別に俺は鳥類学者になりたいわけじゃないんだが……。

ちなみに何に基づいてこの単語が並んでいるかというと、以下のように説明されている。

単語選定の方法
Project Gutenbergを用いたRank決定
Project Gutenbergという、著作権の切れた文書をインターネット上に公開するプロジェクトがあります。
これを利用して、単語の出現数を調べ、頻出のものが重要になるようにしてあります。
https://l-formula.com/last-words

基本的には、文章がたくさんあり、その中での単語の頻度順に並んでいるということだろう。
busとmenuとphalanxとchancelが同程度の頻度で出現する文章、どういうものだろうか。

ここまで「英単語の選び方がおかしい」話であった。しかしこれに関しては、「変な単語だな」と思ったら、Ankiを使っている場合は除外すれば問題が出なくなるからまだ良い。ここからは英語に対応する日本語がおかしいという話なので、そうもいかない。

和訳がおかしい

和訳がおかしい話。なお、この「最後の英単語」がどこから和訳を利用しているかという話については、最後のセクションで述べる。

誤字が非常に多い

中でも一番目立つのは誤字である。こんなに誤字脱字が多いことってある? と言いたくなるくらい多い。
1000単語の中で30個以上は見つけた。まだあるかもしれない。

番号	英単語	サイト上の和訳（一部抜粋の場合あり）	誤字訂正内容
9034	enjoyable	楽しろい,愉快な,楽しめる	楽しろい→楽しい
9072	lunar	年の,年に関連する	年→月
9096	bruise	打に傷(あざ)をつける;……（中略）打ち傷がつく	打に傷→打ち傷
9097	left-hand	《名詩の前にのみ用いて》	名詩→名詞
9129	spar	(ボクシングの練習のために)ハパーリングをする	ハパーリング→スパーリング
9217	ballast	(気救の)砂袋	気救→気球
9311	confusing	乱混させる[ような],当惑させる	乱混→混乱
9341	saffron	サフラン/サフラン自の	自→色
9347	homesick	ホームショクの	ョ→ッ
9365	artery	(道路・水路・鉄道などの)勘線	勘線→幹線
9367	bribery	贈賄(ぞうわい);周賄	周賄→収賄
9370	terrify	おびやすか	おびやすか→おびやかす
9384	talker	話し手 / おじゃべりな人	おじゃべり→おしゃべり
9387	insertion	挿入物;(新物の)折り込み広告	新物→新聞
9404	debauchery	《通例複数形で》らんちぎ騒ぎ	らんちぎ→らんちき（乱痴気）
9411	stuffing	(枕なとの中に入れる)詰め物	と→ど
9440	enhance	…‘の’程度(仮値など)を高める	仮値→価値
9473	masquerade	仮面舞踏班に出る	班→会?
9495	impiety	不信心,分敬,分孝	分→不
9643	mettle	気性,気質 / 件気,勇気	件気→血気
9681	collateral	担保,低当,見返り物資	低当→抵当
9714	scamp	ならず者 / いたずら者,わんぱく小訴	小訴→小僧
9724	magnify	〈レンズなどが〉…‘を’『拡大うる』	う→す
9803	billiards	玉突き,撞救,ビリヤード	撞救→撞球
9825	baleful	有割な;悪意のある	有割→有害
9833	perversion	墜落,邪道,変熊	墜落→堕落、熊→態
9839	usury	高利貸し業 / (法外な・違な)高利	違→違法
9857	baffle	〈人〉’を’除方に暮れさせる	除方→途方
9884	cobbler	鞍直し職人コブラー(フルーツパイの一種)	鞍→靴
9880	notch	〈競技の得殿など〉’を’記録する	得殿→得点
9892	insoluble	浴解しない	浴→溶
9906	shred	(特に細長い)切れ端;断語	断語→断片?
9941	lurk	『潜む』,潜状する	潜状→潜伏
9955	gable	破風(はふ),切り妻(屋根の斜目を2辺とした三角形の外壁部)	斜目→斜面?
9994	unmindful	(…を)気にかけない,(…に)むとなじゃくな	むとなじゃく→むとんじゃく
10000	pewter	白目(しろめ)(すずめを主成分とした合金;昔,台所用品に用いた)	すずめ→すず（錫）
9692	infusion	振り出し汁	???

mettleの「件気」は「元気」の誤りに見えなくもないが、英辞郎を引いたら「血気」という訳語が出たのでこれの誤字と解釈した。

何でこんなに誤字脱字が多いのか気になりすぎたので、パターンを分類してみた。（ここの矢印は、上の表とは逆で正しい字→誤字の順。）

「字形が似た漢字（読みは異なる）」に化けた。精度の悪いOCRを適用した際の誤りだろうか。
- 溶解→浴解、不孝→分孝
「読みが同じ漢字（字形は異なる）」に化けた
- 幹線→勘線
- 断片→断語も最初意味不明だったが、「かた」という読み仮名を持つので、読みが同じ漢字どうしと思われる。
「読みが似た漢字」に化けた
- 血気→件気、斜面→斜目
ひらがな関係
- 楽しい→楽しろい、枕など→枕なと、すず→すずめ
その他、もう何が何だか分からない
- 混乱→乱混、月の→年の、仮面舞踏会→仮面舞踏班

どういうプロセスでこの辞書は作られたんだろうか……??
ある辞書に対してOCRを適用したならば「読みが同じ漢字（字形は異なる）」に変化することはないだろう。逆にパソコンに手で打ち込んでいったならば、「字形が似た漢字（読みは異なる）」がありえないと思うのだが。全くもって謎である。

誤字脱字が大量にあるが、その中で一番ヤバいのは lunar 「年の」である。俺はこの単語帳をやる前の時点で「lunar = 月の」だと知っていたので、間違いに気づいたが、何も知らない人がこの単語帳で勉強したら、「lunar = 年の」だと信じてそれで覚える可能性が高い。

2番目に同様にヤバいのは「cobbler」である。 lunarとは違って、俺はこっちの単語を知らなかった。ただ「鞍直し職人」という（実は間違っている）訳語を見た俺が、「いや鞍直し職人ってなんだよ。馬の鞍を直すの専門なのかよ」と思って各種辞書を調べたら、こう出てきた。

cobbler 【名】靴屋、靴修理屋英辞郎

A cobbler is a person whose job is to make or mend shoes. COBBLER definition and meaning | Collins English Dictionary

おい！鞍じゃなくて、靴じゃないか！危うく「lunar」と同じように間違ったほうで覚えるところだった。

訳語が妙に多い

番号	英単語	サイト上の和訳全文
9264	tilt	…‘を’傾ける / (馬上槍試合で)〈槍〉‘を’突き出す,〈相手〉‘を’槍で突く / 傾く / 馬上槍試合をする / (相手を)槍で突く《+at+名》 / (文章・言葉で)(…を)攻撃する《+at+名》 / 傾き,傾斜(slope) / (中世騎士の)馬上槍試合 / (一般に)対決,試合
9622	graze	〈家畜が〉『牧草を食う』,草を食う / 〈家畜が〉(草などを)食(は)む《+『on』+『名』》 / 〈家畜〉‘に’『牧草を食べさせる』;〈家畜〉‘を’放牧する / 〈草原〉‘を’牧場に使う / 〈家畜が〉〈生草〉‘を’食う …‘を’かする / …‘の’皮膚をすりむく / (…を)かすめて通る《+『along』『by』,『past』)+『名』》 / (…で)こすってすりむく《+『against』+『名』》 / 〈U〉〈C〉かすめて通ること / 〈C〉すりむいた傷

tiltは「英検1級単熟語EX」にも載っているが、その訳語は「動（人・ものが）傾く；（もの）を傾ける / 名傾く［傾ける］こと」である。当然ながら馬上槍試合のことは書いていなかった。 grazeは大きく2つの意味があるから長くなりがちだが、それにしても同じような訳語が何度も書いてある。

訳語が妙にマニアック

番号	英単語	サイト上の和訳全文
9451	lettuce	レタス,チシャ
9998	bale	(輸送または貯蔵用に包装した))…の)大包み,こり,俵《+『of』+『名』》 / …’を’こりにする,俵に入れる =bail

チシャってなんだ!?と思ったらレタスの和名（萵苣）らしい。それは「レタス」だけ書いておけば良いんだよ。全員それでわかるから。
「こり」を知らなかったのでまた誤字かと思ったが、「梱」と書いて「こり」と読むらしい。英和辞典を引いてもだいたいこの訳語なので、これで合っているのだろうが……わかりにくいね。

訳語が妙に少ない

番号	英単語	サイト上の和訳全文
9795	exuberance	豊富,充満;繁茂
9828	glue	『にかわ』,にかわ剤;(一般に)接着剤 / …‘を’にかわで付ける / 《しばしば受動態で》(…に)…‘を’くっ付けて離さない(離れない),〈視線など〉‘を’くぎ付けにする《+『名』+『to』(『on』)+『名』》
9876	ingredient	(混合物の)成分,原料 / 構成要素

exuberanceは英辞郎を引いたら「元気いっぱいなこと、活力にあふれていること」と出た。一番良く見かけるのはこれじゃないか?
glueの一番一般的な訳語は「のり」だと思う。
ingredientの一般的な訳語は「料理の材料」だと思う。

探せばもっとある気がするが、もう書ききれないのでこの辺で終わりにしよう。

発音が間違っている

「英単語の選び方がおかしい」「英単語の和訳がおかしい」の2つだけと言ったな、あれは嘘だ。発音の誤りも見つけてしまった。

番号	英単語	サイト上の発音記号
9881	ruse	rú:sei

総評：ただより高いものはない。単語帳の本を買いましょう。

2024年の4月からは英検1級のEXをつかって単語を覚えているが、さすがに単語の選び方・訳語ともしっかりしていて、いちいち疑わずに安心して覚えられる。タダにつられて適当な単語帳を使うと、いちいち調べ直して時間を無駄にしたり、「lunar = 年の」と間違って覚えることになったりするので、ちゃんとお金を出して単語帳を買ったほうがよいということを身をもって思い知った。

出る順で最短合格!英検1級単熟語EX 第2版 (単熟語EXシリーズ)

ジャパンタイムズ出版

Amazon

この妙な誤字はどこから来たのか（どの辞書を使っているのか）

さて、一体この妙な和訳の元ネタは何なんだろうか?

この「最後の英単語」とは無関係に、Amazonでなりしか「極限の英単語」のレビューを見ていたら、驚くべき指摘を見つけた。

cobblerが「鞍直し職人」となっているが鞍じゃなく靴ではなかろうか
https://www.amazon.co.jp/gp/customer-reviews/R28DXE7VDZTVXF/ref=cm_cr_dp_d_rvw_ttl?ie=UTF8&ASIN=B074MD9QCB

なに〜〜〜!? cobblerを「鞍直し職人」と間違って書いてあるのは、この「最後の英単語」となりしか「極限の英単語」で共通しているのか!? となると、両者に共通する元ネタとなる辞書があるはずだ。

「cobbler "鞍直し職人"」で検索すると、4件ヒットする。2件は「最後の英単語」と「Amazonのレビュー」だから、残りは2つだ。

http://eigoyasan.blog.fc2.com/blog-entry-2553.html からたどっていくと、

辞書データはネット上に公開されているejdicの修正版を使わせていただきました（出所：無料英和辞書データダウンロード＠WEB便利ツール by クジラ飛行机様）。

と書いてある。

いまはEnglish-Japanese Dictionary "ejdict-hand" というGitHubリポジトリになっている。
（件数が多すぎるので）いままで述べてきた誤りを全部確認したわけではないが、

単純な誤字については殆ど直っている。（昔に「最後の英単語」の方には反映されていないので、俺が作ったAnkiカードには大量の誤字が入っている）
ただし、訳語を見て誤字と分からないものは直っていない。
lunarは「年の」だしlunar eclipseは「年食」だ。
cobblerも間違った訳語「鞍直し職人」だ。

元となったデータは「ejdic」もしくは「ejdict」という名前らしい。
PrepTutorEJEICについてを見ると、古くからあり起源は不明らしい。
GitHubのデータは誤字が修正され、だいぶ良くなっているが、上記のような誤りが混入していることには注意した方が良い。

それでは。

英検準1級に合格した

2024-03-18T01:56:37+09:00

英検準1級に合格した

2023年第3回試験
1月21日（日）1次試験
3月3日（日）2次試験
3月12日〜合否発表（ネット上）
というわけで確認したら受かってました。

結果
1次試験
2次試験
これからどうする?

結果

特にリーディングは700/750って書いてあるから、CEFRのC1レベルに届いているな。（準1級だとC1達成と判定しないので、結果ページのCEFRではB2ってことになっているが……）

B2の下限が英検CSEスコア2300、C1の下限が2600。俺の現在スコアが2487（下限+187点）。
ということはB2の中でも下から6割くらいのところか。

1次試験

筆記試験90分の時間配分をメモっていたのでここに書いておきます。最初の問題から順に解いています。

語彙：14分
大問2（設問31まで）：8分（合計22分）
大問3（設問41まで）：30分（合計52分）文章3つのそれぞれを解いたのが合計29分、40分、52分のとき。
英作文開始。YES/NOそれぞれの理由を書き出して、NOで行こうと書き始めたのが16分後（合計68分）
最初の書き出しにだいぶ悩んで、最後に書き終わったのは終了の2分前くらいだった。

ただリーディング大得意で読むの速い人の記録なので、もう少し長くかかると思います。これから受ける人は英作文を早めに書き上げられると良いでしょう。

2次試験

さて2次試験について書いていくが……

英検の公式ホームページにも2次試験の過去問は掲載されていない。
第一に質問文を著作権の関係でも問題があるし、第二に正確な質問文は覚えていない。日本語でだいたいの意味を書いています。
（ただ2024年度から試験形式が変わるから、あまり参考にはならないかも?）

着席して軽く話をする。自己紹介は「35歳です、ITエンジニアとしてITコンサルティング会社で働いています」と喋った。
2問目で「休日は何をしていますか」と聞かれることに備えて、どう答えようか事前にあれこれ考えていたが、1問目だけで本題の試験に入った。

4コママンガは高層マンションの話。（詳しくは過去問題集を見てください。）

これを2分で説明する。 2コマ目では営業マンが「I can take you to the construction site.」的なセリフを喋っていた。これを間接話法で話さなければいけないので、とっさには難しい。「He told them that he can ... he could take them to the construction site.」と一度言い直した。

4コマ目は citizens are against the construction とか言った気がする。反対するなら「be opposed to the construction」とか使えば良かったな。

ここから質疑応答が4問入る。1問目はお決まりの「4コマ目の登場人物の心情を答えよ」である。
……さて、後から振り返ると、これは英検準1級の過去の傾向、典型から外れた、結構イレギュラーな4コママンガである。
YouTubeの解説動画を見ると、1コマ目で何か課題が発生します的なことを言っていたと思うけど、今回の1コマ目では明らかに問題は発生していない。
4コマ目で問題が起きたといえば起きたが、そんなに重大な問題でもない。別に家を購入したわけじゃないんだから、

というわけで試験当時に戻ると、俺は困ってしまった。
「反対運動なんか知らない、俺は絶対にここに住むんだ」という極端な賛成も「反対運動が起きているから、ここに住むのは絶対に無理だ、諦めよう」という極端な反対も極端な反対も取りにくいな、と思った。
「ここに住むのは良いと思うが、住民の反対が強いので住むのが難しいのではないか……」的などっちつかずなことを言った。

第2問。インターネット上のコンテンツは人々がものを買うことに影響しているか、じゃなかったっけ?
これはYESが答えやすいでしょう。

インターネット上には多くの広告がある
人々は多くの広告を普段目にしているので、ものを買う上でそれらを参考にする
また口コミサイトも多くあるので、これもものを買う上で他の人の意見を参考にする

的なことを言おうとしたが、「参考にしている」が全然出てこなくてだいぶ詰まった。

第3問。最近の若者が政治に関わっているかだね、確か。

なぜか咄嗟にグレタ・トゥーンベリが思い浮かんだので、YESで。

今日は世界的な課題が多くある、例えば大気汚染や難民など。
これらの課題を解決するためには政治的な取り組みが必要である。
若者はこれらの課題を解決すべきだと訴えている。また政治家にもアピールしている。

LOGOPHILIAの単語帳で見た「take to the streets」（街頭デモを行う）を使おうとしたが、間違って「take out to the streets」って言った気がする。

第4問。都会に農業地帯を増やすべきか、だったと思う。

agricultural という単語が聞こえたので農地のことだとは思ったが、咄嗟に論説が組み立てられなくて、ただの緑地として答えてしまった。
都会の人間はストレスが溜まってるから緑を見てリラックスできるので、緑地……and agricultural areaを増やすべきだ、と最後で強引に軌道修正した。

これからどうする?

次は英検1級……だがそのハードルは結構高そう。

リーディング
- の中の単語（語彙）。これはもう単語帳を頑張れということしかない。
  - 「でた単」のアプリやる? いやでもあのアプリ、準1級を少し使ったけど、単語の日本語の意味の書き方に引っかかることが多かったんだよな……
  - パス単は単語レベルが簡単になってしまった的な話を聞くので、ジャパンタイムズ社の問題集か、EXか、キクタンか……あれ結構種類があるな。
  - 過去記事で書いた通り、私は英単語をフレーズで覚えるのが大好きなので、これの1級のバージョンが出ないか期待している。
- それ以外の読解力については心配してないです。英語を読むのは早い自信があるし、内容の把握もほぼ間違えないだろう。
リスニング
- TOEICでやってたから余裕だろと思ったら今回ボコボコにされた。
- 一発で聞き取って内容を把握する
ライティング
- 要対策だと思うけど
スピーキング
- 一番苦手……
- やはりこれは日常生活の中で英語を喋る機会がないと言うことに尽きる。なので機会を作らなければならない。
- 準1級の前はDMM英会話をやったけど、少しやったら飽きてしまった。

英検1級に本当に受かりたかったら全体的に底上げが必要だと思うけど、なんとなく単語帳だけやってしまって試験の日を迎えるような気がしてならない。

出る順で最短合格!英検1級単熟語EX 第2版 (出る順で最短合格シリーズ)

ジャパンタイムズ出版

Amazon

ちなみに準1級の過去問は↓を使っていました。

英検準1級過去問題集 (2024年度)

作者:Gakken
Gakken

Amazon

それでは。

追伸英検1級の合格はこちら。ちょうど1年後でした

linus-mk.hatenablog.com

今までの英語学習まとめはこちら。 linus-mk.hatenablog.com

2023年に買ってよかったもの

2024-01-29T22:53:31+09:00

2023年に買ってよかったもののメモ。あんまり多くない気がする。

Shokz OpenRun Pro 骨伝導イヤホン
VOLTRX 電動プロテインシェイカー
VALX プロテイン
ランニングポーチ
SUZURI ドライTシャツ
ワークマンボアフリースカーディガン
総評：やっぱり少ないな

Shokz OpenRun Pro 骨伝導イヤホン

一番はこれだろう。7月のAmazon大規模セールにつられて購入。
今まで有線のイヤホンでリモートワークの会議に参加していたが、パソコンの前にいる必要がなく自由に動けるようになったのは良い。音質も聞きやすい。口の前にマイクはないのだが、ちゃんと話もできる。
ジョギングとの相性も良い（耳をふさがないので、車の音なども聞こえる）。
ただ寝転んだ場合の相性は悪い（頭の後ろが当たるので）。

……そういえば有線で良いイヤホン買ってないな……（Ultimate Ears UE900sは断線で壊れてしまった。あとゼンハイザーのIE60はここ数年間行方不明だ。どこ行ったんだろう……）

Shokz OpenRun Pro 骨伝導イヤホン最新骨伝導技術低音再生強化急速充電 DSPノイズキャンセリング・マイク 10時間の音楽再生と通話公式ストア正規品ワイヤレス防水 bluetooth5.1 ブラック

SHOKZ

Amazon

VOLTRX 電動プロテインシェイカー

プロテインを飲み始めたときに、自分で混ぜなければいけないのに面倒くさくなって電動シェイカーを購入。
（自分で振るシェイカーをすっ飛ばして、いきなり電動シェイカーを買った）
ボタンを押すだけなので楽。プロテインの粉がきれいに溶ける。
ただ、物持ちは悪い。2022年末に購入して、数ヶ月したらボタンを押さなくても勝手にスイッチがオンになって「ブーン」と音を立てるようになってしまった。その後、最近は完全に壊れて電動部分が全く動かなくなった。捨てて次を買おう……
考えてみると、これはコップの一種なので水を入れたり洗ったりして濡れることが多い。そして、充電式なのでUSB Type-Cで充電する必要がある。当然、ちゃんと乾かしてから充電するようにすれば問題ないのだろう。しかし、面倒くさがりの俺には無理だった……

VOLTRX 電動シェイカー - VortexBoost プロテインシェイカーミキサー - USB C 充電プロテインシェイカー - BPAフリー、防水、カラフルなライトショー、600ml（オーロラグリーン)

VOLTRX

Amazon

VALX プロテイン

プロテインの方はもっぱらVALXを買っている。
公式サイトで毎月末にセールしているので、無くなってきたら4つセットで買うことにしている。
最初に買ったGronGがあまりにもまずかったので、色々調べたりしてここにたどり着いた。
個人的にはどの味を買っても美味しくてハズレがない。
と思うが、動画とかを見ているとまずいって言ってる人もいる模様。個人によって感じ方に差があるようなので自分にあったプロテインを見つけるしかないね。

最初に飲むならカフェオレ味が無難な気がする。プロテインっぽさが無くて普通のカフェオレと思って飲める。ロイヤルミルクティーとか抹茶も好き。

VALX バルクスホエイプロテインカフェオレ風味ぷろていんホエイプロテイン Produced by 山本義徳 1kg 国内製造

VALX

Amazon

ランニングポーチ

ランニングするときにポケットにケータイ入れてると揺れて落ちそうで怖いな……ということで購入。
スマホと鍵とSuicaを入れる。

【日本代表選手が愛用】ランニングポーチウェストポーチ TRAN 伸縮大容量フィットして揺れにくいスマホ収納イヤホン穴鍵入れ・カード入れ別収納ジョギング・マラソンに便利

TRAN(トラン)(R)

Amazon

SUZURI ドライTシャツ

犬たくさんバックプリント
 DDRするときはだいたいこれ。汗でびしょ濡れになってもすぐに乾く。
面白いデザインのドライTシャツ出てこないかな。

ワークマンボアフリースカーディガン

最後は貧乏くさいやつだが……
サンシャイン池袋に「ワークマン女子」があって、出かけたついでに寄ってみたらフリースが980円でびっくりしたので買ってしまった。
これが1000円を切るってどうなってるんだ。ワークマン恐るべし。家で着ているが、暖かくて良い。
商品ページが見つからなかったので、紹介記事の方でリンクを張っておく。
ワークマンで買える「ボアフリースカーディガン」が、想像以上の快適さだった。コレで980円はさすがすぎる…

総評：やっぱり少ないな

ちゃんと不便や必要性を察知して「これを買おう」と決める力が弱い気がする。
面倒くさがりだからそういう意思決定を避けてしまうのであった。
年間の収支は結構なプラスだったし（マネーフォワードの記録を見た）、もっと積極的に新しいガジェットとかを買ってもいいと思うんだよな。毎月1万円とか5千円を新しいものを買うのに強制的に充てるとかしたほうが良いのか……
しかし問題は何を買うかよな。例えばYouTubeで「買ってよかったもの」で検索するとたくさん出てくるけど、それが俺に合うかは分からないわけだし。
さてどうしたものか……みんなどうしてるんやろ?
それでは。

2023年の振り返り

2024-01-16T02:47:36+09:00

1月も気づけばあっという間に半分が終了してしまった。
忘れないうちに2023年の振り返りをしよう。

2022年版はこちら。
2022年の振り返り - 子供の落書き帳 Renaissance

※ 今年・去年・来年がややこしくなりそうなので、2023年・2024年で表記を統一します。

仕事

2023年はずっと1つのプロジェクトに従事していた。 12月にリリース・本番稼働ができて、良かったね……と、少なくとも表面的には言えるだろう。だが本当にうまくやれただろうか。

リリース・本番稼働に向けた各段階において、起こり得る問題を先回りして特定し、関係する他のチームの人たちと適宜相談して課題を解決できた。
色々なところから飛んできた調査依頼や相談については、丁寧に応対してきたし、それによってプロジェクトが前に進むことに貢献できたという自負はある。

じゃあ、何で自分のところの仕様に詳しいのかと考えると、何というか「そのチームに長く在籍しているから」なのだ。そりゃ長いことその部分に関与してきて、ずっとやっていれば詳しくもなるだろうという当然の道理である。
ちゃんと自分の理解を、他のチームにも分かるようにドキュメントや仕様書として残すべきだったのだが、納期に間に合わせるためにドキュメント化は犠牲になったのである。去年の仕事の心残りは、ドキュメントがボロボロだったこと、この1点に尽きる。
自分の強みは、複雑な事柄を読み解いて、他の人にも分かるような適切な形で整理することだと思っている。その強みがフロー（日々のSlackのやり取り）では活きたものの、永続的なストック（各種ドキュメント）に強みを活かすことが少なかったのは、まぁまぁフラストレーションになっている。

他チームが（俺のチームの担当部分を含む全体の仕様を整理するために）俺のチームの範囲の動作仕様を整理した図を作っていたのとか、恥でしょ。我々が職務怠慢をしていて他のチームに肩代わりしてもらったことの証左なんだから。今思い出したって忸怩たる気分だ。というか、ドキュメント不足のせいでどういう仕様なのか俺自身でさえ把握できていない箇所があるしな。

Pythonのコードを自分自身が書くことは殆ど無くなって（少しはある）、人のコードをレビューするのが多くなった。
じゃあプロジェクトマネジメントやチームリーディングを担当しているかというと、そういうわけでも無いし、自分の担当している業務がうまく表現できなくて、いつももどかしい気分になる。
自チームで作っているシステムについて何でもやります、というのが正しい気がしている。

一人暮らし

面倒くさがりな性格のせいで、「一応生きていくことはできるが、使いにくくて不便」という状況になっているので、どうやって住みやすい暮らしにすれば良いかな……

一人暮らしして1年半、この状態が継続中……生活力が皆無であることが露呈するのであんまり具体的には言えないけど。
あと、一人暮らしを脱出できなかったわ。

自己学習

2023年も2022年に続いてほとんどやらなかったなぁ……。

ブログに技術的な内容で書いたのは、この2個か。

確かにこの2つは実際の業務で詰まったから、調べてまとめたんだよな。今でも思い返すことができる。
他の点は行き詰まることが無かったのか……というと、そういう訳では無い。
課題は他にもまだまだあったが、課題の抽象度が上がって、上記2つのような具体的なものとして指し示すことができなくなった。
こにふぁーさんのKonifar's ZATSU みたいな感じで、うまく抽象化して書くのが良いのかなぁ……

connpassのイベントの話

年末に、同僚が「connpassなどの外部の勉強会に積極的に参加している」という話をしていた。まず第一に「勉強熱心ですごいなぁ」と思ったが、その次に「もっと早く知りたかったなぁ」と思った。（別に個々のイベントの内容を全部知りたいわけではなくて、（俺を含む）周りの人を感化することができたんじゃないか、的な。）

会社内の周囲の人たちが、（仕事以外に）どういう技術的な活動をしていて、どういうことに興味があるか、が見えにくい。
俺、チーム、プロジェクト、顧客、以上。って感じだわ。

さりとて、どのイベントに行くかって考えると、難しくないかなぁ。ディープラーニングを業務で使っているわけでもないし。機械学習じゃないデータ分析系ってあんまりイベントにならない気がするし。ん〜〜、Pythonの書き方とかシステム構築の一般論とかそのへんだろうか。

英語だけはやり始めた話

11月あたりから急に英語をやりだした。
きっかけはおそらく、ふるやん（@furuya1223）さんが漢検1級を取ったことだと思う。 https://www.creativ.xyz/kanken-1k/

（俺自身が漢検準1級を10年ほど前に取ったので分かるのだが）漢検1級は準1級とは別格の難しさがある。その割に取っても使い所が殆ど無いという資格である。あれを1年くらい? それ以上? 長期間にわたって継続して勉強して合格まで行くの、マジすごい。と思った。

俺も何か資格を取るかなーとぼんやり考え始めた。合格してどれくらい役に立つ/役に立たない目標にしようか色々考えつつ、漢検1級は無理な気がしたので英語にした。英語使えたほうが何かと便利だし……（既に役に立つ方を目指そうとしてしまっている）
TOEIC満点を目指すのは、意味があんまりない資格なのでそれを目標にしようかな（既に一度975点を取っているので、990点とそう変わらないため）とも思った。結局、TOEICと別の尺度でやってみたら面白そうな気がしたので、英検で。ライティングとスピーキングなんて普段全くやらないから、これを機にやるのも悪くないだろう。 2024/1/21に英検準1級（1次）を受けます。準1級の後、英検1級を目指すか、TOEIC満点を目指すかは考え中。

今は英字新聞を読んだり、YouTubeで英語のニュースを聞いたりして勉強しているが、ちょっと前に勉強した単語が別のところで登場しているのを見たりすると、純粋に楽しくて嬉しい。
やっぱり自分は（ストレングスファインダーでいうところの）学習欲の人間なんだなーと。
「学習欲」が強い人は、すぐに役立ったりしなくても、何かを学ぶときに楽しくなる、的なことが書いてあった気がする。

ゲーム

音ゲー

2023年にプレイした音ゲーは、ほとんどがDDRだった。
skill attack 2022末
 skill attack 2023末

レベル14の99万点が1→3譜面、レベル15の99万点が0→1譜面。レベル16の95万点が1→12譜面。まぁ逆詐称の譜面が新たに増えたという理由も一部あるとはいえ、地力は向上したと思っていいだろうなぁ。

あとはクリア目線、18を弱・中・強の3つに分けたときに弱は大体はクリアできて、中はできたりできなかったり、クリアできそうでできないのが、Cosy Catastrophe、VOLAQUAS、Triple Journey -TAG EDITION-、このあたり。というか他の曲はほとんどやってないな。頑張ってクリアするところまで粘着してない。

んー……一応ドラマニも書いておく? でも全然プレイして無かったと思う。
HIGH-VOLTAGE gsv記録
 FUZZ-UP gsv記録
新曲を全然詰めてないな。あと旧曲もちゃんとやってないからスキルポイント減ってるな。オワタ。

音ゲー以外

原神が主。
螺旋12層が全然できないのが悩み。多分適当にやっているから戦闘スキルが低い。

ポエム

最近、ぼんやりと「もう少しあの活動に時間と労力をかけていれば、もっと結果を出せていたのかもしれないな」と思うことが多い。簡単に言えば時間配分のトレードオフというやつだ。
「あの活動」に入るのは、だいたいちょっと取り組んだこと、多分音ゲー（DDR）とAI画像生成（Stable Diffusion他）である。
技術的な取り組みが「あの活動」に代入されることがない時点でどうなのよ感がある。結構、ある。技術へのコミットメントを増やしたいという課題意識を、そもそも持っていないということなのか……???
一方で、去年1秒もやらなかったこと、例えば「もう少し将棋に時間をかけて取り組んでいれば……」というふうに考えたことはないな。別に将棋のことは何とも思っていないので。

音ゲー（DDR）が分かりやすくて、去年はDDRに集中していたのでDDRの腕前は伸びたけど、その代償に他の音ゲー（ドラマニとサンボル）は腕が落ちた。なぜならプレイしていないので。
それでもDDRのプレイ頻度はそんなに高くないから、もっとプレイ回数を増やせばもっとうまくなるだろうけど、そうすると他の活動の時間を減らさなければならない。
まぁ労力を投下したからと言って結果が必ず良くなるとは限らないな。極端な場合、時間と労力をかけたのに何の成果も得られなかった場合もあるから……（遠い目）

……と言いつつ、ダラダラとゲームしてたら休日が終わったりするんだよな。「ある活動を取って他の活動を捨てる」とかじゃなくて、「何の足しにもならない活動」に時間を割き過ぎている場合がある。
などと思っていたら、こんな動画がYouTubeのレコメンドに上がってきていた。やってみようか? Use Strategic Thinking to Create the Life You Want - YouTube

あと英語は別に「頑張って歯を食いしばって英語をやっている（=努力して英語学習に時間と労力を費やしている）」わけじゃないんだよな。
何か面白いから英単語帳を開くし、英字新聞読むし、Ankiで単語帳を進める、とかやってると、気づいたら1日30分とか1時間くらいは英語関連のことをやっている。
忙しいふりしてたけど、普通に英語学習の時間が割り込んでくる余地あるんじゃん! と自分で自分に驚いているのが1つ。
あとは、こういう風に気づいたら時間をかけて取り組んでいてスキルが上がるならそれが一番いいよね、というのが1つ。

まぁ子育てしてる人からすれば「独り身のくせに（=自分の時間と財産を全て自分のためだけに使えるくせに）何言ってるんだ」とか言われそうだが。

特に結論はない。強いて言うならば

自分自身がどの活動にどの程度、時間と労力を費やしているのかを把握したい
「何の足しにもならない活動」に時間を費やすのをやめたい
こと技術に関しては、「気づいたら時間と労力を費やしていた」になるような仕組み（仕掛け）を作れないかな

あたりだろうか。

総評?

だいたい書きたいことは書けたので完成ということにする。

ひとまず以上です。

今までの英語学習と試験結果を振り返る

2023-12-23T22:35:20+09:00

長文のブログを書く体力と習慣がなくなってしまった……

最近になってなぜか英語勉強の熱が再燃してきた。
英検準1級の試験に申し込みしてきた。これを期に今までの英語学習を振り返るための記事である。

小学校より前
小学校
中学校
高校
- システム英単語
- Z会東大マスターコース
大学〜大学院
社会人

小学校より前

セサミストリートとか見てたと思うけど、詳しいことはもはや覚えていない。

小学校

英語の勉強らしい勉強をしたのは、小6の最後で中学受験に合格したあとのこと。3日間か5日間だったような。
いわゆるフォニックス（英単語の発音の規則）について教わった。

中学校

Asahi Weekly

朝日新聞から発刊されている（英語学習者向けの）英字新聞。多分母親がこの新聞を取ったんだと思う。暇なときに読む、くらいだったけど、読解力の役には立ったと思う。
そういえば、思い出した。中2のときの先生が「英語の文章をノートに書き写して。写したページ数に応じて得点を与える」という課題を出したことがある。
で、俺はこのAsahi Weeklyの記事の文章を書き写して提出した。ノートが返却されたときに「君は難しい文章を書いてくれたので、通常の得点の2倍で計算しておきます」という注釈が書いてあって、嬉しかったな。
むしろ、英字新聞のような書き写すネタが無かった他の人は、何の文章を書いていたんだろうか? 教科書や問題集の文面を書き写すだけだと、飽きると思うけど。

K会

河合塾系列の塾。夏期講習などの長期休みだけ参加。
「英語を学ぶんじゃなくて、英語で学ぶんや!」みたいなコンセプトで、聖書とかギリシャ神話とか、あとはイギリスの歴史とか科学史とか、色々な長文を読まされた気がする。何ページも続く英文に抵抗がなくなったのはK会のおかげかもしれない。

PEANUTS / スヌーピー

小学校の頃からスヌーピーの漫画が好きでよく読んでいたが、中学校に上がって英語で読めるようになると日本語訳と見比べながら読むようになったかな。
海外の文学作品とかだったら、日本語版には日本語だけが書いてあるけど、PEANUTSはなぜか昔から原文と和訳を併記する形だった。
（あの独特の書き文字も漫画作品の一部だからかなぁ。日本語版の形式にもよるが、セリフの中の英文はそのままで、枠の外に日本語訳が書いてあることが多い。）
偶然だけど、好きになった作品が英語の勉強に役立つもので良かった。

高校

システム英単語

大学受験のときの英単語帳はシステム英単語の1冊だけだった。単語はフレーズで覚えると良い、という序文に感銘を受けたことを覚えている。（最新版のシステム英単語だと序文は違っている。当時の版のもの。）
この教えに従い、現在に至るまで、単語はフレーズで覚えたい派である。
しかしフレーズで覚えられるという条件を満たす、システム英単語より上のレベルの単語帳を見つけていない……
誰か「フレーズで覚えるという、システム英単語と同形式の単語帳をまとめてレビュー」って記事書いてくれないかな。

受験当時に使っていたのはこの版。 https://www.amazon.co.jp/gp/product/4796110593/

Z会東大マスターコース

それと、塾はZ会に通っていた。この記事の中で唯一個人名が出てくるが、柳瀬晃先生である。
まぁなかなか厳しい先生だった。自作プリントを作って配ることが多く、そのプリント演習でガチで難しい構文の英文和訳を解かされた。その甲斐あって、英文解釈の力はめちゃめちゃに強くなった。自作のプリントは捨てるのも惜しいので未だに取っておいてある。
「国外留学したこともない俺が英語力で困ることもなくやっていけているのは何故か」といえば、柳瀬先生のおかげであることは間違いない。15年以上経った今でも、いくつかの話は思い出せるもんな……
「はい、『at the ... of 〜』で『〜を代償・犠牲にして』の意味になる単語4つを答えてもらおうか、では〇〇さんどうぞ」（正解は cost/price/expense/sacrifice）

柳瀬先生は「アラン・ド・ボトン」という小説家が好きらしく、この人の文章から自作プリントを作ることが非常に多い。そういや、この「アラン・ド・ボトン」の小説をいつか読もうと思って、まだ読んでないな……

（柳瀬先生の評判を知りたくてこの記事を読む東大受験生はいないと思うが、もしいたら1点だけ注意。英作文については柳瀬先生は全部カットするので、自分でちゃんと対策しましょう。自分でやらなかった俺は試験本番で英作文の2問中1問を空欄で提出してしまった。まぁ、それでも受かったけど。）

大学〜大学院

TOEIC（2007年?月）

1回公式問題集を解いただけで受験。確か920点。
すっかり拍子抜けした俺は「はーん、TOEICなんて簡単じゃねーか」という気持ちになった。

TOEFL（2010年5月）

大学院の入試で、英語の試験の代わりにTOEFL iBTのスコアを提出する必要があったので受けた。
これは手元に記録がある。 120点満点で、Reading 27, Listening 22, Speaking 14, Writing 20で83点。 Reading > Listening > Writing > Speaking という大小関係なのは納得である。Speakingは普段全然やってないから、できる気がしないからな。

TOEIC（2011年11月）

M1の11月なので、就活のためにもう一度受けとくかと思って受けたんだろう。これは手元に記録がある。総合975（Listening 495, Reading 480）。絶対リーディングのほうが自信があったのに、リスニングが満点でリーディングが満点-15というのが意外。

社会人

TOEIC （2013年4月）

新卒で入った会社で、業務後に受けさせられたやつ。なので団体試験。（TOEIC IPテスト）確か905点。

Anki

単語帳アプリ。出題と復習までの間隔をうまく調整してくれる。PCとスマホで同期が取れる。そういう特徴についてはここで説明する気はないので他を見てほしいが、オススメのアプリである。
Ankiに入れた単語帳は英語だけじゃなくて、資格試験（応用情報/LPIC/セキュスペ）で覚えたいものとか、その他IT関連で覚えておきたいものを適宜入れていた。前職では社員食堂があったので、そこで並ぶときか昼飯を食べながらでAnkiをやることが多かった。
ただ、何年かログインしていないとデータが消える。最近（2023年12月）にAnkiを再度使おうと思って、ログインしたら消えていた。

Ankiを使う場合、自分で問題を作るか、既存の（公開されている）デッキを使うかのどちらかになる。資格試験の途中などで、覚えたいものが出てきた場合は当然前者だが、ここで大きな欠点がある。自分で問題を作って入力するのがめちゃめちゃ時間がかかるのだ。休日にカードを作り始めたら1〜2時間経過していたことも結構あったような覚えがある。

単語のリストがあって（たとえばSVLとか）、1000個の単語とその訳を覚えたい、とかであればある程度自動的にできるかもしれない。……が、俺は普段、覚えたい単語に出会ったときは以下のステップを踏む。

ネットの英辞郎を引く
電子辞書の例文一覧で単語を検索する
2つの中から良さそうな例文を選ぶ
単語帳に入力する

なので時間もかかるし自動化もし辛い。悩ましいところである。

語彙力高めの日-英のデッキは少ないので、 SATとかGRE向けの、英英の（日本語訳の無い）デッキを使ってた。 ……という話が旧ブログに書いてあるな。

http://luvtome.blog5.fc2.com/blog-entry-593.html
http://luvtome.blog5.fc2.com/blog-entry-600.html
http://luvtome.blog5.fc2.com/blog-entry-613.html

TestYourVocab

2023年12月23日の結果

（2023年12月23日時点）書くついでにまた測ったら9201と言われた。 10000まで行きたい〜と思いつつ、あと800覚えるのなかなか大変だなぁ。うへ。

2024年9月25日の結果

（2024年9月25日時点）

1冊の単語帳を1127日かけて2周したら語彙力が1万2千語になった: わたしが知らないスゴ本は、きっとあなたが読んでいるを読んだついでに測った。

9201→12672 3471も増えてる!?
いやー、前回からの差分って

「最後の英単語」1000単語、そのうち覚えてなかったのは600語くらい?
- 参考：「最後の英単語」リストを避けるべき理由：英単語の選定・日本語訳の問題点を徹底分析 - 子供の落書き帳 Renaissance
英検1級EXの1000単語、そのうち覚えてなかったのは600語くらい?
Ankiで400語くらい?

全部で1600語くらいだと思うけど。ちょっと確認のために調べながらやったりしたので（少し考えて意味を出せたものはチェックを付けた）結構高めの結果になったんだと思う。

英字新聞

ProPublicaのTwitterアカウントをフォローしている。何のきっかけで知ったのか忘れたけど。 ProPublica、New York Timesはたまに読んでた。……久々にNew York Timesを再訪問したら、有料会員にならないと全然記事が読めなくなっていてガッカリした。最近はGuardianが無料で全部読めるということに気づいたので、たまに読んでいる。

何か書き加えることができたら加筆します。
それでは。

IIJmioの料金プランをギガプランに変更した

2023-08-20T17:42:09+09:00

IIJmioの料金プランを2023年6月18日に、昔のライトスタートプラン（データ6GB）→新しいギガプラン（データ5GB）に変更したという話。
請求額は税込み2700円〜3000円から1000円程度に減った。もっと早くに変えておけばよかったぜ……!

プラン変更前の状況

マイページから確認すると下記のとおりだった。

申し込み日：2016年10月30日
料金プラン：ライトスタートプラン

毎月の料金は、
月額基本料(ライトスタートプラン) 税抜1520円、税込1672円
音声通話機能付帯料税抜700円、税込770円
で合計税込2442円。
これに通話代が数百円かかって、月に2700円〜3000円くらい払っている。

倉田けいさんのIIJmioの広告がTwitterで流れてきて、俺は重い腰を上げたのであった。

🌸#ギガプラン ×SNSマンガ家コラボ🌸
第4弾は…倉田けい(@kurata_kei)さん✨

池にスマホを落としたら女神が現れた⁉️
しかし見せられたのは金や銀の斧ではなく…🧐

価格はそのままでギガ増量😍
4ギガ→5ギガになっても990円(税込)#IIJmio で通信費をお得に👏

詳細はこちらhttps://t.co/iLsd7HaTVj pic.twitter.com/fsYkWcEjp6
— IIJmio (@iijmio) May 9, 2023

変更先のギガプランを決める

ライトスタートプランは、データが毎月6GB使えるプランである。
https://www.itmedia.co.jp/mobile/articles/2302/22/news203.html によれば、 4GBのプランが2023年2月に5GBに増量された。ライトスタートプランの6GBから移行するなら、これが良いだろう。

過去30日間のデータ利用量を確認したら（正直ここはもっと前までデータ利用量を確認させてほしい）、ちょうど6GBちょっとだった。
ただこれは1泊旅行に行ったときに2GB以上使っている影響が大きい。普段は4GBでギリギリ、5GBなら余裕を持って使える、というところか。5GBに上がってくれて助かった。

と思ったらどうやらギガプランの場合は月ごとのデータ利用量を照会できるらしい。
https://help.iijmio.jp/answer/611e5819ae05cd001c0ec994?search=true
プラン切替後に確認したが、 ギガプランを使っている時期だけでなく旧プランのときも含めて 過去1年分の月ごとのデータ利用量を確認できる。

（余談：itmediaの記事中の資料によればギガプランの人が9割近くいるらしい。俺完全にラガードじゃん。）

プランの「データを分け合う方式」の違い

https://www.iijmio.jp/hdc/spec/index.html#comparison の比較にある通りで、データを分け合う方式が異なる。

新しいギガプラン = プラン”間”でデータを分け合う
例)2ギガプラン、5ギガプランをそれぞれ契約。合計7ギガを2人で分け合う。
従来のライトスタートプランなど = プラン”内”でデータを分け合う
例)ファミリーシェアプラン(12GB)内でSIMカード3枚でデータ量を分け合う。
https://www.iijmio.jp/hdc/spec/index.html#comparison

俺のiPad Proは、SIMを差せるのに差さずに使い続けるという変な使い方をしている。
ギガプランの場合、もしiPadにSIMを入れたくなったら、新しく別のギガプランを契約する必要がある。SIMが2枚必要ならば契約プランも2つ必要だからだ。
この点がずっと引っかかっていて躊躇っていたけど、いまはSIM無しで使っているので、SIMを入れたくなったら考えることにしよう……。

プラン変更時の注意点

重要説明事項からコピー。

・IIJmioモバイルサービス（ギガプラン）へ変更された場合、元のプラン(IIJmioモバイルサービスまたはIIJmioモバイルプラスサービス)へは戻すことはできません。
・IIJmioモバイルサービスまたはIIJmioモバイルプラスサービスでご利用中のクーポン残量を引き継ぐことはできません。残量は消滅します。

ずっと溜まっていたデータ通信量の残量は消えてしまうので注意。

プラン変更後の状況

6月中旬に変更したので、7月1日から適用になった。

データについて。上記の通り、変更のタイミングでクーポン残量が無くなったが、7月は5GBのうち4.7GBを使った。この調子なら少しずつ溜まるので大丈夫だろう。

料金について。まずギガプランの5GBは税抜900円、税込990円だ。
2023年7月利用分の請求金額には、6月の電話の通話料が入る。（電話の通話料に関しては1ヶ月ズレるらしい）6月はたまたま電話を使わなかったので、合計の支払い料は1000円を切った。マジか……ネットで完結する手続きするだけで月間1700円くらい浮いたぞ……もっと早くに変えておけばよかったぜ……!

それでは。

daskのquery関数で変数名を指定する方法

2023-02-28T23:58:43+09:00

daskでデータ絞り込みをするためにquery関数を使ったけど、構文が難しくてちょっと詰まった話。

daskのDataFrameに対するquery関数の公式ドキュメントはこちらだ。
dask.dataframe.DataFrame.query

このドキュメントを見ると、
「pandasは@で変数名を使えるが、daskではそれは使えないので、代わりにf文字列かlocal_dictキーワードを使ってくれ」と書いてある。
なるほど、@の代わりにf文字列を使えばそれで良いのね。……と単純に考えていると、ちょっとつまずく。という話である。

準備
サンプルデータの作成
数値型のカラムの場合
文字列型のカラムの場合
数字が入っている文字列型の場合
まとめ

準備

import pandas as pd
import dask.dataframe as dd
import dask
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。

# 動作環境の確認
print(pd.__version__)
print(dask.__version__)

# --------------------

1.1.2
2023.1.0

サンプルデータの作成

# データに特に意味はない。https://linus-mk.hatenablog.com/entry/pandas-unique-integer-id から持ってきて適宜改変。
df = pd.DataFrame({
    'name'    : ['Alice', 'Bob', 'Charlie', 'Charlie', 'Alice', 'Bob'],
    'item' : ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'],
    'number'    : [3, 2, 4, 3, 2, 1],
    'id_code' : ['012', '123', '234', '123', '012', '345']
})

df

# --------------------

      name item  number id_code
0    Alice  aaa       3     012
1      Bob  bbb       2     123
2  Charlie  ccc       4     234
3  Charlie  ddd       3     123
4    Alice  eee       2     012
5      Bob  fff       1     345

df.dtypes

# --------------------

name       object
item       object
number      int64
id_code    object
dtype: object

ddf = dd.from_pandas(df)

# --------------------

---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-6-bcb6b963da62> in <module>
    ----> 1 ddf = dd.from_pandas(df)
    
    /usr/local/lib/python3.8/site-packages/dask/dataframe/io/io.py in from_pandas(data, npartitions, chunksize, sort, name)
        260 
        261     if (npartitions is None) == (chunksize is None):
    --> 262         raise ValueError("Exactly one of npartitions and chunksize must be specified.")
        263 
        264     nrows = len(data)
    ValueError: Exactly one of npartitions and chunksize must be specified.

どうもよく分かっていないのだが、dask.dataframe.from_pandasはnpartitionsとchunksizeのうちどちらか片方（のみ）を指定する必要があるらしい。今は特に何でも良いので、npartitions=1を指定する。

ddf = dd.from_pandas(df, npartitions=1)
print(ddf)

# --------------------

Dask DataFrame Structure:
                 name    item number id_code
npartitions=1                               
0              object  object  int64  object
5                 ...     ...    ...     ...
Dask Name: from_pandas, 1 graph layer

ddf.compute()

# --------------------

      name item  number id_code
0    Alice  aaa       3     012
1      Bob  bbb       2     123
2  Charlie  ccc       4     234
3  Charlie  ddd       3     123
4    Alice  eee       2     012
5      Bob  fff       1     345

これで準備はできた。

数値型のカラムの場合

上述の公式ドキュメントにも載っている、数字の例を見てみよう。
まず、データのうち、numberカラムが2であるものを抽出しよう。

# pandas 直接値を指定
df.query("number==2")

# --------------------

    name item  number id_code
1    Bob  bbb       2     123
4  Alice  eee       2     012

# dask 直接値を指定
ddf.query("number==2").compute()

# --------------------

    name item  number id_code
1    Bob  bbb       2     123
4  Alice  eee       2     012

# pandas 変数名を使用 @
num = 2
df.query(f"number==@num")

# --------------------

    name item  number id_code
1    Bob  bbb       2     123
4  Alice  eee       2     012

# dask 変数名を使用 f文字列、成功
num = 2
ddf.query(f"number=={num}").compute()

# --------------------

    name item  number id_code
1    Bob  bbb       2     123
4  Alice  eee       2     012

# pandas 変数名を使用 実はf文字列でも行ける
num = 2
df.query(f"number=={num}")

# --------------------

    name item  number id_code
1    Bob  bbb       2     123
4  Alice  eee       2     012

pandas側で@variable_nameと書く代わりに、daskでは{variable_name}と書けば良さそうな気がしてくる。ところがそれが上手く行かないケースが存在するのだ。

文字列型のカラムの場合

データのうち、nameカラムが"Bob"であるものを抽出しよう。

# pandas 直接値を指定
df.query("name=='Bob'")

# --------------------

  name item  number id_code
1  Bob  bbb       2     123
5  Bob  fff       1     345

# dask 直接値を指定
ddf.query("name=='Bob'").compute()

# --------------------

  name item  number id_code
1  Bob  bbb       2     123
5  Bob  fff       1     345

ここまでは何も問題ない。
ところが、変数名を使用すると状況が変わってくる。

# pandas 変数名を使用 @
target = 'Bob'
df.query(f"name==@target")

# --------------------

  name item  number id_code
1  Bob  bbb       2     123
5  Bob  fff       1     345

pandas側で@variable_nameと書く代わりに、daskでは{variable_name}と書くと失敗する。

# dask 変数名を使用 f文字列 失敗例
target = 'Bob'
ddf.query(f"name=={target}").compute()

# --------------------

エラー。長いので折りたたみます。

クリックでエラー内容を表示

    KeyError                                  Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py in resolve(self, key, is_local)
        187             if self.has_resolvers:
    --> 188                 return self.resolvers[key]
        189 
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/collections/__init__.py in __getitem__(self, key)
        897                 pass
    --> 898         return self.__missing__(key)            # support subclasses that define __missing__
        899 
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/collections/__init__.py in __missing__(self, key)
        889     def __missing__(self, key):
    --> 890         raise KeyError(key)
        891 
    KeyError: 'Bob'
    
    During handling of the above exception, another exception occurred:
    KeyError                                  Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py in resolve(self, key, is_local)
        198                 # e.g., df[df > 0]
    --> 199                 return self.temps[key]
        200             except KeyError as err:
    KeyError: 'Bob'
    
    The above exception was the direct cause of the following exception:
    UndefinedVariableError                    Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/dask/dataframe/utils.py in raise_on_meta_error(funcname, udf)
        194     try:
    --> 195         yield
        196     except Exception as e:
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in _emulate(func, udf, *args, **kwargs)
       6570     with raise_on_meta_error(funcname(func), udf=udf), check_numeric_only_deprecation():
    -> 6571         return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
       6572 
    /usr/local/lib/python3.8/site-packages/dask/utils.py in __call__(self, _methodcaller__obj, *args, **kwargs)
       1102     def __call__(self, __obj, *args, **kwargs):
    -> 1103         return getattr(__obj, self.method)(*args, **kwargs)
       1104 
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in query(self, expr, inplace, **kwargs)
       3339         kwargs["target"] = None
    -> 3340         res = self.eval(expr, **kwargs)
       3341 
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in eval(self, expr, inplace, **kwargs)
       3469 
    -> 3470         return _eval(expr, inplace=inplace, **kwargs)
       3471 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/eval.py in eval(expr, parser, engine, truediv, local_dict, global_dict, resolvers, level, target, inplace)
        340 
    --> 341         parsed_expr = Expr(expr, engine=engine, parser=parser, env=env)
        342 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in __init__(self, expr, engine, parser, env, level)
        786         self._visitor = _parsers[parser](self.env, self.engine, self.parser)
    --> 787         self.terms = self.parse()
        788 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in parse(self)
        805         """
    --> 806         return self._visitor.visit(self.expr)
        807 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Module(self, node, **kwargs)
        403         expr = node.body[0]
    --> 404         return self.visit(expr, **kwargs)
        405 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Expr(self, node, **kwargs)
        406     def visit_Expr(self, node, **kwargs):
    --> 407         return self.visit(node.value, **kwargs)
        408 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Compare(self, node, **kwargs)
        698             binop = ast.BinOp(op=op, left=node.left, right=comps[0])
    --> 699             return self.visit(binop)
        700 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_BinOp(self, node, **kwargs)
        519     def visit_BinOp(self, node, **kwargs):
    --> 520         op, op_class, left, right = self._maybe_transform_eq_ne(node)
        521         left, right = self._maybe_downcast_constants(left, right)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in _maybe_transform_eq_ne(self, node, left, right)
        440         if right is None:
    --> 441             right = self.visit(node.right, side="right")
        442         op, op_class, left, right = self._rewrite_membership_op(node, left, right)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Name(self, node, **kwargs)
        532     def visit_Name(self, node, **kwargs):
    --> 533         return self.term_type(node.id, self.env, **kwargs)
        534 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/ops.py in __init__(self, name, env, side, encoding)
         83         self.is_local = tname.startswith(_LOCAL_TAG) or tname in _DEFAULT_GLOBALS
    ---> 84         self._value = self._resolve_name()
         85         self.encoding = encoding
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/ops.py in _resolve_name(self)
        100     def _resolve_name(self):
    --> 101         res = self.env.resolve(self.local_name, is_local=self.is_local)
        102         self.update(res)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py in resolve(self, key, is_local)
        203 
    --> 204                 raise UndefinedVariableError(key, is_local) from err
        205 
    UndefinedVariableError: name 'Bob' is not defined
    
    The above exception was the direct cause of the following exception:
    ValueError                                Traceback (most recent call last)
    <ipython-input-17-6b73727f207c> in <module>
          1 # dask 変数名を使用 f文字列 失敗例
          2 target = 'Bob'
    ----> 3 ddf.query(f"name=={target}").compute()
    
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in query(self, expr, **kwargs)
       5178         2  1  3    2
       5179         """
    -> 5180         return self.map_partitions(M.query, expr, **kwargs)
       5181 
       5182     @derived_from(pd.DataFrame)
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in map_partitions(self, func, *args, **kwargs)
        873         None as the division.
        874         """
    --> 875         return map_partitions(func, self, *args, **kwargs)
        876 
        877     @insert_meta_param_description(pad=12)
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in map_partitions(func, meta, enforce_metadata, transform_divisions, align_dataframes, *args, **kwargs)
       6639     dfs = [df for df in args if isinstance(df, _Frame)]
       6640 
    -> 6641     meta = _get_meta_map_partitions(args, dfs, func, kwargs, meta, parent_meta)
       6642     if all(isinstance(arg, Scalar) for arg in args):
       6643         layer = {
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in _get_meta_map_partitions(args, dfs, func, kwargs, meta, parent_meta)
       6750         # Use non-normalized kwargs here, as we want the real values (not
       6751         # delayed values)
    -> 6752         meta = _emulate(func, *args, udf=True, **kwargs)
       6753         meta_is_emulated = True
       6754     else:
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in _emulate(func, udf, *args, **kwargs)
       6569     """
       6570     with raise_on_meta_error(funcname(func), udf=udf), check_numeric_only_deprecation():
    -> 6571         return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
       6572 
       6573 
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/contextlib.py in __exit__(self, type, value, traceback)
        129                 value = type()
        130             try:
    --> 131                 self.gen.throw(type, value, traceback)
        132             except StopIteration as exc:
        133                 # Suppress StopIteration *unless* it's the same exception that
    /usr/local/lib/python3.8/site-packages/dask/dataframe/utils.py in raise_on_meta_error(funcname, udf)
        214         )
        215         msg = msg.format(f" in `{funcname}`" if funcname else "", repr(e), tb)
    --> 216         raise ValueError(msg) from e
        217 
        218 
    ValueError: Metadata inference failed in `query`.
    
    You have supplied a custom function and Dask is unable to 
    determine the type of output that that function returns. 
    
    To resolve this please provide a meta= keyword.
    The docstring of the Dask function you ran should have more information.
    
    Original error is below:
    ------------------------
    UndefinedVariableError("name 'Bob' is not defined")
    
    Traceback:
    ---------
      File "/usr/local/lib/python3.8/site-packages/dask/dataframe/utils.py", line 195, in raise_on_meta_error
        yield
      File "/usr/local/lib/python3.8/site-packages/dask/dataframe/core.py", line 6571, in _emulate
        return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
      File "/usr/local/lib/python3.8/site-packages/dask/utils.py", line 1103, in __call__
        return getattr(__obj, self.method)(*args, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/frame.py", line 3340, in query
        res = self.eval(expr, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/frame.py", line 3470, in eval
        return _eval(expr, inplace=inplace, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/eval.py", line 341, in eval
        parsed_expr = Expr(expr, engine=engine, parser=parser, env=env)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 787, in __init__
        self.terms = self.parse()
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 806, in parse
        return self._visitor.visit(self.expr)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 398, in visit
        return visitor(node, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 404, in visit_Module
        return self.visit(expr, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 398, in visit
        return visitor(node, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 407, in visit_Expr
        return self.visit(node.value, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 398, in visit
        return visitor(node, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 699, in visit_Compare
        return self.visit(binop)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 398, in visit
        return visitor(node, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 520, in visit_BinOp
        op, op_class, left, right = self._maybe_transform_eq_ne(node)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 441, in _maybe_transform_eq_ne
        right = self.visit(node.right, side="right")
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 398, in visit
        return visitor(node, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 533, in visit_Name
        return self.term_type(node.id, self.env, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/ops.py", line 84, in __init__
        self._value = self._resolve_name()
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/ops.py", line 101, in _resolve_name
        res = self.env.resolve(self.local_name, is_local=self.is_local)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py", line 204, in resolve
        raise UndefinedVariableError(key, is_local) from err

またpandasでも似たようなエラーが出る。

# pandas 変数名を使用 f文字列 失敗例
target = 'Bob'
df.query(f"name=={target}")
# --------------------
エラー。長いので折りたたみます。

クリックでエラー内容を表示

    KeyError                                  Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py in resolve(self, key, is_local)
        187             if self.has_resolvers:
    --> 188                 return self.resolvers[key]
        189 
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/collections/__init__.py in __getitem__(self, key)
        897                 pass
    --> 898         return self.__missing__(key)            # support subclasses that define __missing__
        899 
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/collections/__init__.py in __missing__(self, key)
        889     def __missing__(self, key):
    --> 890         raise KeyError(key)
        891 
    KeyError: 'Bob'
    
    During handling of the above exception, another exception occurred:
    KeyError                                  Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py in resolve(self, key, is_local)
        198                 # e.g., df[df > 0]
    --> 199                 return self.temps[key]
        200             except KeyError as err:
    KeyError: 'Bob'
    
    The above exception was the direct cause of the following exception:
    UndefinedVariableError                    Traceback (most recent call last)
    <ipython-input-18-52c23030a7f6> in <module>
          1 # pandas 変数名を使用 f文字列 失敗例
          2 target = 'Bob'
    ----> 3 df.query(f"name=={target}")
    
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in query(self, expr, inplace, **kwargs)
       3338         kwargs["level"] = kwargs.pop("level", 0) + 1
       3339         kwargs["target"] = None
    -> 3340         res = self.eval(expr, **kwargs)
       3341 
       3342         try:
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in eval(self, expr, inplace, **kwargs)
       3468         kwargs["resolvers"] = kwargs.get("resolvers", ()) + tuple(resolvers)
       3469 
    -> 3470         return _eval(expr, inplace=inplace, **kwargs)
       3471 
       3472     def select_dtypes(self, include=None, exclude=None) -> "DataFrame":
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/eval.py in eval(expr, parser, engine, truediv, local_dict, global_dict, resolvers, level, target, inplace)
        339         )
        340 
    --> 341         parsed_expr = Expr(expr, engine=engine, parser=parser, env=env)
        342 
        343         # construct the engine and evaluate the parsed expression
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in __init__(self, expr, engine, parser, env, level)
        785         self.parser = parser
        786         self._visitor = _parsers[parser](self.env, self.engine, self.parser)
    --> 787         self.terms = self.parse()
        788 
        789     @property
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in parse(self)
        804         Parse an expression.
        805         """
    --> 806         return self._visitor.visit(self.expr)
        807 
        808     @property
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        396         method = "visit_" + type(node).__name__
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
        400     def visit_Module(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Module(self, node, **kwargs)
        402             raise SyntaxError("only a single expression is allowed")
        403         expr = node.body[0]
    --> 404         return self.visit(expr, **kwargs)
        405 
        406     def visit_Expr(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        396         method = "visit_" + type(node).__name__
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
        400     def visit_Module(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Expr(self, node, **kwargs)
        405 
        406     def visit_Expr(self, node, **kwargs):
    --> 407         return self.visit(node.value, **kwargs)
        408 
        409     def _rewrite_membership_op(self, node, left, right):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        396         method = "visit_" + type(node).__name__
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
        400     def visit_Module(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Compare(self, node, **kwargs)
        697             op = self.translate_In(ops[0])
        698             binop = ast.BinOp(op=op, left=node.left, right=comps[0])
    --> 699             return self.visit(binop)
        700 
        701         # recursive case: we have a chained comparison, a CMP b CMP c, etc.
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        396         method = "visit_" + type(node).__name__
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
        400     def visit_Module(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_BinOp(self, node, **kwargs)
        518 
        519     def visit_BinOp(self, node, **kwargs):
    --> 520         op, op_class, left, right = self._maybe_transform_eq_ne(node)
        521         left, right = self._maybe_downcast_constants(left, right)
        522         return self._maybe_evaluate_binop(op, op_class, left, right)
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in _maybe_transform_eq_ne(self, node, left, right)
        439             left = self.visit(node.left, side="left")
        440         if right is None:
    --> 441             right = self.visit(node.right, side="right")
        442         op, op_class, left, right = self._rewrite_membership_op(node, left, right)
        443         return op, op_class, left, right
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        396         method = "visit_" + type(node).__name__
        397         visitor = getattr(self, method)
    --> 398         return visitor(node, **kwargs)
        399 
        400     def visit_Module(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit_Name(self, node, **kwargs)
        531 
        532     def visit_Name(self, node, **kwargs):
    --> 533         return self.term_type(node.id, self.env, **kwargs)
        534 
        535     def visit_NameConstant(self, node, **kwargs):
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/ops.py in __init__(self, name, env, side, encoding)
         82         tname = str(name)
         83         self.is_local = tname.startswith(_LOCAL_TAG) or tname in _DEFAULT_GLOBALS
    ---> 84         self._value = self._resolve_name()
         85         self.encoding = encoding
         86 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/ops.py in _resolve_name(self)
         99 
        100     def _resolve_name(self):
    --> 101         res = self.env.resolve(self.local_name, is_local=self.is_local)
        102         self.update(res)
        103 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/scope.py in resolve(self, key, is_local)
        202                 from pandas.core.computation.ops import UndefinedVariableError
        203 
    --> 204                 raise UndefinedVariableError(key, is_local) from err
        205 
        206     def swapkey(self, old_key: str, new_key: str, new_value=None):
    UndefinedVariableError: name 'Bob' is not defined

これはquery関数の中にある文字列を単独で表示させるとよく分かる。

print(f"name=={target}")

# --------------------

name==Bob

Bobに引用符をつけなければいけないのに、ついていない。これではBobはただの列名として扱われるはずだ。
正しい結果を得るためには、f文字列の中、Bobの外側に引用符を書く必要がある。

# dask 変数名を使用 f文字列 成功例
target = 'Bob'
ddf.query(f"name=='{target}'").compute()

# --------------------

  name item  number id_code
1  Bob  bbb       2     123
5  Bob  fff       1     345

# pandas 変数名を使用 実はf文字列でも行ける
target = 'Bob'
df.query(f"name=='{target}'")

# --------------------

  name item  number id_code
1  Bob  bbb       2     123
5  Bob  fff       1     345

数字が入っている文字列型の場合

データのうち、id_codeカラムが"123"であるものを抽出しよう。

# pandas 直接値を指定
df.query("id_code=='123'")

# --------------------

      name item  number id_code
1      Bob  bbb       2     123
3  Charlie  ddd       3     123

# dask 直接値を指定
ddf.query("id_code=='123'").compute()

# --------------------

      name item  number id_code
1      Bob  bbb       2     123
3  Charlie  ddd       3     123

ここまでは何も問題ない。
ところが、変数名を使用すると状況が変わってくる。

# pandas 変数名を使用 @
code = '123'
df.query(f"id_code==@code")

# --------------------

      name item  number id_code
1      Bob  bbb       2     123
3  Charlie  ddd       3     123

# dask 変数名を使用 f文字列 失敗例
code = '123'
ddf.query(f"id_code=={code}").compute()

# --------------------

Empty DataFrame
Columns: [name, item, number, id_code]
Index: []

query関数の結果は空のDataFrameになる。
エラーが出るほうがまだハッキリ間違い箇所が分かる分だけ修正しやすいかもしれない……
これもquery関数の中にある文字列を単独で表示させるとよく分かる。

print(f"id_code=={code}")

# --------------------

id_code==123

これをquery関数に入れると、id_codeが数字の123に等しいものを探してしまう。だから該当する行は無く、空のDataFrameが返る。
なお、pandasでは数字（より正確には10進数の整数リテラル）の先頭に0をつけてはいけないので、012で同じことをやると違う状況になる。

# pandasでは数字の先頭に０をつけてはいけない
x = 012

# --------------------

  File "<ipython-input-27-d581e4a9bb8c>", line 2
    x = 012
          ^
SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers

# dask 変数名を使用 f文字列 失敗例その２
code = '012'
ddf.query(f"id_code=={code}").compute()
# --------------------
エラー。長いので折りたたみます。

クリックでエラー内容を表示

    SyntaxError                               Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/dask/dataframe/utils.py in raise_on_meta_error(funcname, udf)
        194     try:
    --> 195         yield
        196     except Exception as e:
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in _emulate(func, udf, *args, **kwargs)
       6570     with raise_on_meta_error(funcname(func), udf=udf), check_numeric_only_deprecation():
    -> 6571         return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
       6572 
    /usr/local/lib/python3.8/site-packages/dask/utils.py in __call__(self, _methodcaller__obj, *args, **kwargs)
       1102     def __call__(self, __obj, *args, **kwargs):
    -> 1103         return getattr(__obj, self.method)(*args, **kwargs)
       1104 
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in query(self, expr, inplace, **kwargs)
       3339         kwargs["target"] = None
    -> 3340         res = self.eval(expr, **kwargs)
       3341 
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in eval(self, expr, inplace, **kwargs)
       3469 
    -> 3470         return _eval(expr, inplace=inplace, **kwargs)
       3471 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/eval.py in eval(expr, parser, engine, truediv, local_dict, global_dict, resolvers, level, target, inplace)
        340 
    --> 341         parsed_expr = Expr(expr, engine=engine, parser=parser, env=env)
        342 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in __init__(self, expr, engine, parser, env, level)
        786         self._visitor = _parsers[parser](self.env, self.engine, self.parser)
    --> 787         self.terms = self.parse()
        788 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in parse(self)
        805         """
    --> 806         return self._visitor.visit(self.expr)
        807 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        393                     e.msg = "Python keyword not valid identifier in numexpr query"
    --> 394                 raise e
        395 
    /usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py in visit(self, node, **kwargs)
        389             try:
    --> 390                 node = ast.fix_missing_locations(ast.parse(clean))
        391             except SyntaxError as e:
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/ast.py in parse(source, filename, mode, type_comments, feature_version)
         46     # Else it should be an int giving the minor version for 3.x.
    ---> 47     return compile(source, filename, mode, flags,
         48                    _feature_version=feature_version)
    SyntaxError: invalid syntax (<unknown>, line 1)
    
    The above exception was the direct cause of the following exception:
    ValueError                                Traceback (most recent call last)
    <ipython-input-28-5004d24aebb2> in <module>
          1 # dask 変数名を使用 f文字列 失敗例その２
          2 code = '012'
    ----> 3 ddf.query(f"id_code=={code}").compute()
    
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in query(self, expr, **kwargs)
       5178         2  1  3    2
       5179         """
    -> 5180         return self.map_partitions(M.query, expr, **kwargs)
       5181 
       5182     @derived_from(pd.DataFrame)
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in map_partitions(self, func, *args, **kwargs)
        873         None as the division.
        874         """
    --> 875         return map_partitions(func, self, *args, **kwargs)
        876 
        877     @insert_meta_param_description(pad=12)
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in map_partitions(func, meta, enforce_metadata, transform_divisions, align_dataframes, *args, **kwargs)
       6639     dfs = [df for df in args if isinstance(df, _Frame)]
       6640 
    -> 6641     meta = _get_meta_map_partitions(args, dfs, func, kwargs, meta, parent_meta)
       6642     if all(isinstance(arg, Scalar) for arg in args):
       6643         layer = {
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in _get_meta_map_partitions(args, dfs, func, kwargs, meta, parent_meta)
       6750         # Use non-normalized kwargs here, as we want the real values (not
       6751         # delayed values)
    -> 6752         meta = _emulate(func, *args, udf=True, **kwargs)
       6753         meta_is_emulated = True
       6754     else:
    /usr/local/lib/python3.8/site-packages/dask/dataframe/core.py in _emulate(func, udf, *args, **kwargs)
       6569     """
       6570     with raise_on_meta_error(funcname(func), udf=udf), check_numeric_only_deprecation():
    -> 6571         return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
       6572 
       6573 
    /usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/contextlib.py in __exit__(self, type, value, traceback)
        129                 value = type()
        130             try:
    --> 131                 self.gen.throw(type, value, traceback)
        132             except StopIteration as exc:
        133                 # Suppress StopIteration *unless* it's the same exception that
    /usr/local/lib/python3.8/site-packages/dask/dataframe/utils.py in raise_on_meta_error(funcname, udf)
        214         )
        215         msg = msg.format(f" in `{funcname}`" if funcname else "", repr(e), tb)
    --> 216         raise ValueError(msg) from e
        217 
        218 
    ValueError: Metadata inference failed in `query`.
    
    You have supplied a custom function and Dask is unable to 
    determine the type of output that that function returns. 
    
    To resolve this please provide a meta= keyword.
    The docstring of the Dask function you ran should have more information.
    
    Original error is below:
    ------------------------
    SyntaxError('invalid syntax', ('<unknown>', 1, 13, 'id_code ==0 12 \n'))
    
    Traceback:
    ---------
      File "/usr/local/lib/python3.8/site-packages/dask/dataframe/utils.py", line 195, in raise_on_meta_error
        yield
      File "/usr/local/lib/python3.8/site-packages/dask/dataframe/core.py", line 6571, in _emulate
        return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
      File "/usr/local/lib/python3.8/site-packages/dask/utils.py", line 1103, in __call__
        return getattr(__obj, self.method)(*args, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/frame.py", line 3340, in query
        res = self.eval(expr, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/frame.py", line 3470, in eval
        return _eval(expr, inplace=inplace, **kwargs)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/eval.py", line 341, in eval
        parsed_expr = Expr(expr, engine=engine, parser=parser, env=env)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 787, in __init__
        self.terms = self.parse()
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 806, in parse
        return self._visitor.visit(self.expr)
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 394, in visit
        raise e
      File "/usr/local/lib/python3.8/site-packages/pandas/core/computation/expr.py", line 390, in visit
        node = ast.fix_missing_locations(ast.parse(clean))
      File "/usr/local/Cellar/python@3.8/3.8.5/Frameworks/Python.framework/Versions/3.8/lib/python3.8/ast.py", line 47, in parse
        return compile(source, filename, mode, flags,

正しい結果を得るためには、f文字列の中、123の外側に引用符を書く必要がある。

# dask 変数名を使用 f文字列 成功例
code = '123'
ddf.query(f"id_code=='{code}'").compute()
# '012' の場合も同様なので、省略する。

# --------------------

      name item  number id_code
1      Bob  bbb       2     123
3  Charlie  ddd       3     123

まとめ

「pandas側で@variable_nameと書く代わりに、daskでは{variable_name}と書く」という意識だと失敗する。
「変数を使わずにquery関数の引数の文字列を書くにはどうすればよいか」「それをf文字列で実現するにはどうすればよいか」 を考えれば良さそう。長々と色々な例を書いてきたけど、要約すれば上記のとおりになる。
daskのqueryの場合、扱っているのは普通のf文字列なので、文字列内の変数を展開したときに期待通りになっていれば良いというわけだ。

……というかここまで書いて気づいたけど、 pandasのqueryも引数に取るのはただの文字列なんだから、

num = 2
df.query(f"number=={num}")

が行けるとか書いてたけど、ただの文字列の書き方の違いじゃん。引数の文字列をそのまま書くかf文字列の展開を使って書くかの違いじゃん。
pandasのqueryといえば@を使うのが当たり前で、f文字列でも上手くいくのが意外で特別なことのように見えてしまった。しかし、むしろ@を使った記法の方が、引数文字列の中身が違うから特殊だった（pandasの特殊な記法）。f文字列による指定は普通のpythonが分かっていれば自然な、一般的な話であった。

それでは。

docker image pruneで「何日前より前のイメージを全て削除」を指定する

2023-01-21T19:27:20+09:00

Dockerイメージを作ってAmazon ECSにプッシュ、を繰り返していた。その結果、docker imagesコマンドを打つと、使っていない（最新でない）dockerイメージが大量に表示されてわかりにくくなってしまった。イメージを削除する方法を調べた。

Q1. Docker image を多数一斉に消すためのコマンドは何か?
Q2. デフォルトだとどの範囲が消えるの?
Q3 untilの使い方は?
Q4 3日前よりも前に作られた宙ぶらりんな（dangling）imageを全部消したい。どのようにコマンドを打てばよいか?

Q1. Docker image を多数一斉に消すためのコマンドは何か?

A1. docker image prune

ドキュメントはこちら。
https://matsuand.github.io/docs.docker.jp.onthefly/engine/reference/commandline/image_prune/
…… docker.com　のドメインの下に無いんだけど、これって公式なのか? 個人的な翻訳なのか? 分からん。
https://docs.docker.jp/engine/reference/commandline/image_prune.html
ドメインにdockerが入っているのはこっちですね。

docker image rm もイメージを削除するコマンドだが、イメージのidを指定する必要があるので、一定条件に当てはまるイメージをまとめて削除はできない。

Q2. デフォルトだとどの範囲が消えるの?

A2. 宙ぶらりんなイメージ = 「タグを持たず、他のコンテナからも参照されないイメージ」

全ての宙ぶらりんな（dangling）イメージを削除します。（先ほどのドキュメントより）
って言われても分からないな。別のページの説明によれば「タグを持たず、他のコンテナからも参照されないイメージ」のこと。

宙ぶらりんイメージとは、タグを持たず、他のコンテナからも参照されないイメージです。
https://docs.docker.jp/config/pruning.html

Q3 untilの使い方は?

A3. ある時点より手前の宙ぶらりんなイメージを全部削除する。

以下2つの方式が可能。

具体的なタイムスタンプを指定して「until=2017-01-04T00:00:00」とするか、
現在からの相対時間で「until=240h」とするか

Q4 3日前よりも前に作られた宙ぶらりんな（dangling）imageを全部消したい。どのようにコマンドを打てばよいか?

A4. until=3d も until=3D も不可。until=72hとする必要あり。

3日は3dで行けるのかなーとやってみたら、

> docker image prune --filter until=3d
WARNING! （省略。yを入力して実行する）
Error response from daemon: failed to parse as time or duration: "3d"

とエラーになったので、「3日を指定する方法ってどうするんだろう」と思ってドキュメントを見ると、こう書いてあった。

デーモンが動作しているマシン上の時刻からの相対時間を、 Go duration 文字列（例： 10m 、 1h3-m ）で計算します。 https://docs.docker.jp/engine/reference/commandline/image_prune.html

じゃあこの書式を調べようと思って「Go duration 文字列」で検索しても、情報が出てこない。「Go duration」で調べると出てくる。
https://leben.mobi/go/time/go-programming/#timeDuration
Go言語でtimeパッケージのtime.Duration型は、2つの時刻の差を表す型である。pythonだとdatetime.timedeltaに相当するものだな。
そしてその単位は最大で"h（時間）"までしか対応していない。

Valid time units are "ns", "us" (or "µs"), "ms", "s", "m", "h".
https://pkg.go.dev/time#Duration

というわけで3日をそのまま指定することはできない。72時間に単位換算して、

> docker image prune --filter until=72h

とするのが正解だ。

慣れないDockerを使い始めた初心者の覚え書きでした。それでは。

2022年の振り返り

2023-01-02T23:49:22+09:00

2022年の振り返り

一人暮らし
仕事
自己学習
ゲーム
- 音ゲー
- 音ゲー以外
歯
総評

実家にパソコンを持って帰ってきたけど、考えてみるとここにはパソコン作業をするための机がない。引っ越すときに机を持ち出したからだ。変な姿勢で書いている。

※ 今年・去年・来年がややこしくなりそうなので、2022年・2023年で表記を統一します。

一人暮らし

2022年の個人的に最大の変化。6月から一人暮らしを始めた。
面倒くさがりな性格のせいで、「一応生きていくことはできるが、使いにくくて不便」という状況になっているので、どうやって住みやすい暮らしにすれば良いかな……

仕事

主なプロジェクトは3つ。
第1のプロジェクトは4月まで。あんま覚えてない……仕事のコミュニケーションって大変ですねというに留めておくか。
第2のプロジェクトは9月途中まで。ここは大変だった。火消しに追われて、現職への入社以来初めて残業時間が要注意ラインを超えた。けど、振り返ってみると期待以上の働きができたと思う。チームリーダーとしての面目躍如である。データ分析系なら少人数チームの進捗管理して成果上げることできるんだな。
第3のプロジェクトは継続中。これまでは小規模データを手元（ローカルマシン上）で解析することが多かったが、AWS系のシステム構築だったりで初見要素が多い。まぁ慣れないなという感想に尽きる。
業務中は基本的にあんまり細かい反省はしないことが多い。「今の自分にはXXXが足りていない。その対処としてYYYを実行した。その結果としてZZZという成果を上げた」みたいな細かい分析はせずに「今の自分にできることをできる範囲で頑張るわ」という感じで生きているので、構造化面接とかで掘り下げられると困ってしまう。みんなそんな緻密に考えて仕事してるの?
職位も1個上がったけど、このままやっていくか考え中なので、データサイエンティストを探している会社がいましたら連絡ください。話しましょう。あ、エージェントは間に合ってるので不要です。

有給休暇も年5日（法律的に取得が義務付けられている最低ライン）だった。わざわざ有給休暇を取ってやることが思いつかないという理由もあり、取ったら業務の進捗に遅れをきたすかなと言う心配もあり。

自己学習

なんか2022年は全然やらなかった。
この技術ブログも復活させようと何度か月次目標に書いてみたりもしたのだが、実際の作業が伴わず記事を書き上げられなかった。
競技プログラミングのAtCoderも2022年に出たのは9月の1回だけ。GCJは辛うじて毎年恒例で参加したけど。
社内で週1で開催されている勉強会も、業務の打ち合わせとかぶるので参加できなくなって、そのまま不参加がデフォルトになってしまった。うーーん。
原因はよく分からない。コロナ禍のせい（リアルの勉強会が無くなった）か、一人暮らししたせい（暇があったらゲームするかゲーセンに行くかするようになった）か、転職したせい（業務している時間が長くなった）のどれかだと思うけど。
ともあれ、原因を分析するよりも事態を改善するのが先だと思うので、来年は技術ブログ復活の年にしたい……。
活発に技術の勉強をしているコミュニティを見つけて参加するのが良いのかなとボンヤリ思っている。
「技術の自己学習をしなければいけないと思っているようではダメ。真のエンジニアは勉強したくて仕方がないから暇さえあれば勉強してる」みたいな言説もあるけど、黙殺させてもらうことにする。

ついでにいうと読書も全然しなくなったんだよな。ここ1年で朝井リョウの「何者」を読んだくらいじゃないか?

ゲーム

音ゲー

数年に1回ある「メインの音ゲーが移り変わる」が発生した。 2022年の途中まではドラマニがメインだった。HIGH-VOLTAGEが稼働したのが2021年4月だ。そのちょっと前（NEX+AGE後半。2020年秋頃?）からドラマニメインだった。
けど、気づいたらDDRに移行していた。9〜10月ごろか?
HIGH-VOLTAGE gsv記録
5500目標だったけど達成しないうちに新作にFUZZ-UPに。こうなるとスキルが0にリセットされるのでモチベがダルいね。

DDRはskill attackを詰めてみたけど、2015年当時→2022年末で、14〜15のスコア能力は多少伸びたらしいので嬉しい。ただ17〜18のクリア能力は多分当時ほど戻っていない。今は18弱がクリアできるかできないかの実力だ。

skill attack 2015当時
 skill attack 2022末

音ゲー以外

原神：冒険者ランク59まで行ったのに螺旋最終12章を倒せないのって俺くらいじゃないですかね……まぁイベントが次々配信されているので惰性で続けている感覚。やめようかなとたまに思いつつも続けている。
オクトパストラベラー：2022年5月に買って、70時間ほど。シナリオは終盤に来たけどサブシナリオは全然取れていない。続編の2が2023年2月24日発売なのでその前にクリアしたいが……
星のカービィ　ディスカバリー：2022年5月に買って、最初の方で止めている。

歯

2022年はなぜか歯の不調に悩まされた。

2022年の初めのほう、夕方になったら右下の歯がすごい痛むのに歯医者行っても異常なしと言われる（おそらく非歯原性歯痛）
→対処が分からなくて調べる
→何か調べたら筋膜を押すと良いらしい
→奥歯を外から押し込みすぎて歯並びが変わってしまったっぽい
→右上の歯に力が加わってフィステルになった（5月）

その後も色々とあり、現状、口の中からやたらとパキパキという音がなるようになってしまった。噛み合わせも安定しないし、舌が歯に変に当たって舌炎になることも多いし。歯医者は現状で行ってるから歯科矯正するか。残りの人生をこのめっちゃ不便な状態で過ごすことを考えたら必要な処置だとは思う。けど費用がかなり高い…… タイムマシンがあったら「奥歯を押し込んで歯並びを変えるのをやめろ」って過去の俺に言いたい。

総評

一人暮らしして変わるかなと思ったけどかなり順当な変化だった。一人暮らしして生きるためのこと（炊事・洗濯・掃除）をやり、気兼ねなく外出できるようになったので日本酒と音ゲー要素が増えた。

新規追加されたのはスポーツジム・筋トレ・プロテインの要素くらいか。ピカチュウがライチュウになったみたいな感じだよなって年末から思っている。（順当な・予想できる進化だよなー、ということ）もう少し意外性のある進化をしても良い気がする。
せっかく自分だけで完全に自由に使える時間と空間があるわけで。その自由が続く時間は（願わくは）そう長くはないので、使い方を考えていきたいね。

ひとまず以上です。

seabornのswarmplotで点の色を直接指定する

2022-05-31T23:18:40+09:00

【注意】この記事は完成度70%くらいです。一部の図が張れていないので正しく表示されません。気が向いたら読める形にします。

seabornが好きだ。
特に指定しなくても、大抵の場合はきれいな色で美しいグラフを描画してくれるし、 matplotlibでは簡単に描けないような複雑なグラフも一発で作れる。

seabornを使って多数のグラフを別々に作った場合に、色を合わせたい場合がある。
例えば「1月のデータは赤、2月は青」という決まりでグラフを書きたい場合である。一部のグラフでその決まりが崩れていると、読んで理解するのに時間がかかってしまうだろう。そこで今回は、swarmplotで色を直接指定する方法について調べた。
seaborn公式ドキュメントのswamplot関数の説明はこちら

準備
1つ目：軸に指定したカテゴリに合わせて色を指定したい
2つ目：軸に指定したものとは別のカテゴリに合わせて色を指定したい
余談：color変数の挙動

準備

import seaborn as sns
import matplotlib

# --------------------

Duplicate key in file PosixPath('/usr/local/lib/python3.8/site-packages/matplotlib/mpl-data/matplotlibrc'), line 258 ('font.family : Hiragino sans')

# 動作環境の確認
# print(pd.__version__)
# print(np.__version__)
print(sns.__version__)
print(matplotlib.__version__)
!python3 --version

# --------------------

0.11.0
3.3.1
Python 3.8.5

# https://seaborn.pydata.org/generated/seaborn.swarmplot.html
# ★styleの設定どうする?
tips = sns.load_dataset("tips")
tips.dtypes

# --------------------

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

※上記のdtypesで、dayなどのカラムが文字列型ではなくカテゴリカル型であることに注意、
（文字列型だと異なる挙動をする可能性もある。今回は検証していない。）

seabornのswarmplotで、色を指定する方法は2つある。
1つが、xとyのうち片方に指定したカテゴリに合わせて色を指定する方法である。
もう1つが、軸に指定したものとは別のカテゴリに合わせて色を指定する方法である。
この順に紹介する。

1つ目：軸に指定したカテゴリに合わせて色を指定したい

ax = sns.swarmplot(x="day", y="total_bill", data=tips)

xにdayを指定すると、xに応じて点に色が付く。
この色を直接指定したい。
例えば、Thurを赤で、Friを黒で、……のように具体的な色の希望があった場合、どうすればよいのか?
色を単純に入れ替えたいだけならば、hue_orderで順序を指定すれば良い……かと思ったが、hue_orderを用いてもx軸上の並びは変わらなかった。
（たぶん元データの中でdayのデータ型がcategoryなので、hue_orderを指定しても無視されて、categoryが優先される?）

ax = sns.swarmplot(x="day", y="total_bill", hue_order=["Fri", "Sun", "Sat", "Thur"], data=tips)

正解は引数のうち、paletteを指定すればよい。

palette palette name, list, or dict
Colors to use for the different levels of the hue variable. Should be something that can be interpreted by color_palette(), or a dictionary mapping hue levels to matplotlib colors.
https://seaborn.pydata.org/generated/seaborn.swarmplot.html より

palette引数に指定できるのは、paletteの名前かlistかdictである。
「paletteの名前」はpastelやbrightなどである。カラーパレットに関する公式ドキュメントの説明を参照。今回は具体的な色を指定したいので「paletteの名前」は使えない。 listを使って指定してみよう。以下のようになる。 listの中身である「具体的なそれぞれの色」の指定方法はいくつかあるが、今回は色の名前（文字列）を使う。

ax = sns.swarmplot(x="day", y="total_bill", palette=["purple", "green", "orange", "skyblue"], data=tips)

リストだと、どの値がどの色になるのか分かりづらい。dictも指定できて、この場合は対応関係が明確になる。

ax = sns.swarmplot(x="day", y="total_bill", palette={"Thur": "purple", "Fri": "green", "Sat": "orange", "Sun": "skyblue"}, data=tips)

ちなみにpaletteをリストで指定し、長さが足りない場合、繰り返しになる

ax = sns.swarmplot(x="day", y="total_bill", palette=["purple", "green"], data=tips)

辞書でkeyがない場合は、エラーになる。そのdayを何色で塗ればいいか分からないからね。

# 辞書のkeyにFriがないのでエラー 
ax = sns.swarmplot(x="day", y="total_bill", palette={"Thur": "purple", "Sat": "orange", "Sun": "skyblue"}, data=tips)

# --------------------

---------------------------------------------------------------------------

KeyError                                  Traceback (most recent call last)
<ipython-input-9-c9f97ba5b082> in <module>
      1 # 辞書のkeyにFriがないのでエラー
----> 2 ax = sns.swarmplot(x="day", y="total_bill", palette={"Thur": "purple", "Sat": "orange", "Sun": "skyblue"}, data=tips)

/usr/local/lib/python3.8/site-packages/seaborn/_decorators.py in inner_f(*args, **kwargs)
     44             )
     45         kwargs.update({k: arg for k, arg in zip(sig.parameters, args)})
---> 46         return f(**kwargs)
     47     return inner_f
     48 
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in swarmplot(x, y, hue, data, order, hue_order, dodge, orient, color, palette, size, edgecolor, linewidth, ax, **kwargs)
   2989         warnings.warn(msg, UserWarning)
   2990 
-> 2991     plotter = _SwarmPlotter(x, y, hue, data, order, hue_order,
   2992                             dodge, orient, color, palette)
   2993     if ax is None:
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in __init__(self, x, y, hue, data, order, hue_order, dodge, orient, color, palette)
   1171         """Initialize the plotter."""
   1172         self.establish_variables(x, y, hue, data, orient, order, hue_order)
-> 1173         self.establish_colors(color, palette, 1)
   1174 
   1175         # Set object attributes
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in establish_colors(self, color, palette, saturation)
    304                 else:
    305                     levels = self.hue_names
--> 306                 palette = [palette[l] for l in levels]
    307 
    308             colors = color_palette(palette, n_colors)
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in <listcomp>(.0)
    304                 else:
    305                     levels = self.hue_names
--> 306                 palette = [palette[l] for l in levels]
    307 
    308             colors = color_palette(palette, n_colors)
KeyError: 'Fri'

2つ目：軸に指定したものとは別のカテゴリに合わせて色を指定したい

# Color the points using a second categorical variable:
# 2つ目のカテゴリカル変数を用いて、点の色を指定する
ax = sns.swarmplot(x="day", y="total_bill", hue="sex", data=tips)

xにdayというカテゴリカル変数を指定して、色のパラメータhueにはsexという別のカテゴリカル変数を指定するパターン。色を単純に入れ替えたいだけならば、hue_orderで順序を指定すれば良い。以下のようになる。

ax = sns.swarmplot(x="day", y="total_bill", hue="sex", data=tips, hue_order=["Female", "Male"])

次に、「男性が緑、女性が紫」のように、直接色を指定したい場合はどうすればよいだろうか? palette変数だよなー多分。
palette palette name, list, or dict
Colors to use for the different levels of the hue variable. Should be something that can be interpreted by color_palette(), or a dictionary mapping hue levels to matplotlib colors.

ax = sns.swarmplot(x="day", y="total_bill", hue="sex", palette=["green", "purple"], data=tips)

リストだと、どの値がどの色になるのか分かりづらい。dictも指定できて、この場合は対応関係が明確になる。

ax = sns.swarmplot(x="day", y="total_bill", hue="sex", palette={"Male": "green", "Female": "purple"}, data=tips)

# https://matplotlib.org/stable/api/_as_gen/matplotlib.colors.to_hex.html
    
print(matplotlib.colors.to_hex("green"))
print(matplotlib.colors.to_hex("purple"))

# --------------------

#008000
#800080

ax = sns.swarmplot(x="day", y="total_bill", hue="sex", palette={"Male": "#008000", "Female": "#800080"}, data=tips)

余談：color変数の挙動

color matplotlib color, optional
Color for all of the elements, or seed for a gradient palette.

ax = sns.swarmplot(x="day", y="total_bill", color="red",  data=tips)

なぜかFemaleの色だけを赤に指定するっぽい?

# Color the points using a second categorical variable:
# 2つ目のカテゴリカル変数を用いて、点の色を指定する
ax = sns.swarmplot(x="day", y="total_bill", hue="sex", color="red", data=tips)

ではcolorとして色の配列を渡せば良さそうに見えるが、それではエラーになる。

# Color the points using a second categorical variable:
# 2つ目のカテゴリカル変数を用いて、点の色を指定する
ax = sns.swarmplot(x="day", y="total_bill", hue="sex", color=["red", "gray"],  data=tips)

# --------------------

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)
<ipython-input-18-9e9e98d7907f> in <module>
      2 # 2つ目のカテゴリカル変数を用いて、点の色を指定する
      3 
----> 4 ax = sns.swarmplot(x="day", y="total_bill", hue="sex", color=["red", "gray"],  data=tips)

/usr/local/lib/python3.8/site-packages/seaborn/_decorators.py in inner_f(*args, **kwargs)
     44             )
     45         kwargs.update({k: arg for k, arg in zip(sig.parameters, args)})
---> 46         return f(**kwargs)
     47     return inner_f
     48 
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in swarmplot(x, y, hue, data, order, hue_order, dodge, orient, color, palette, size, edgecolor, linewidth, ax, **kwargs)
   2989         warnings.warn(msg, UserWarning)
   2990 
-> 2991     plotter = _SwarmPlotter(x, y, hue, data, order, hue_order,
   2992                             dodge, orient, color, palette)
   2993     if ax is None:
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in __init__(self, x, y, hue, data, order, hue_order, dodge, orient, color, palette)
   1171         """Initialize the plotter."""
   1172         self.establish_variables(x, y, hue, data, orient, order, hue_order)
-> 1173         self.establish_colors(color, palette, 1)
   1174 
   1175         # Set object attributes
/usr/local/lib/python3.8/site-packages/seaborn/categorical.py in establish_colors(self, color, palette, saturation)
    293                     colors = light_palette(color, n_colors)
    294                 elif self.default_palette == "dark":
--> 295                     colors = dark_palette(color, n_colors)
    296                 else:
    297                     raise RuntimeError("No default palette specified")
/usr/local/lib/python3.8/site-packages/seaborn/palettes.py in dark_palette(color, n_colors, reverse, as_cmap, input)
    541 
    542     """
--> 543     rgb = _color_to_rgb(color, input)
    544     h, s, l = husl.rgb_to_husl(*rgb)
    545     gray_s, gray_l = .15 * s, 15
/usr/local/lib/python3.8/site-packages/seaborn/palettes.py in _color_to_rgb(color, input)
    465         color = xkcd_rgb[color]
    466 
--> 467     return mpl.colors.to_rgb(color)
    468 
    469 
/usr/local/lib/python3.8/site-packages/matplotlib/colors.py in to_rgb(c)
    344 def to_rgb(c):
    345     """Convert *c* to an RGB color, silently dropping the alpha channel."""
--> 346     return to_rgba(c)[:3]
    347 
    348 
/usr/local/lib/python3.8/site-packages/matplotlib/colors.py in to_rgba(c, alpha)
    187         rgba = None
    188     if rgba is None:  # Suppress exception chaining of cache lookup failure.
--> 189         rgba = _to_rgba_no_colorcycle(c, alpha)
    190         try:
    191             _colors_full_map.cache[c, alpha] = rgba
/usr/local/lib/python3.8/site-packages/matplotlib/colors.py in _to_rgba_no_colorcycle(c, alpha)
    263         raise ValueError(f"Invalid RGBA argument: {orig_c!r}")
    264     if len(c) not in [3, 4]:
--> 265         raise ValueError("RGBA sequence should have length 3 or 4")
    266     if not all(isinstance(x, Number) for x in c):
    267         # Checks that don't work: `map(float, ...)`, `np.array(..., float)` and
ValueError: RGBA sequence should have length 3 or 4

pandasの時系列カラムの時刻を特定書式の文字列に変換する方法

2022-03-12T12:00:00+09:00

pandasの時系列カラムの時刻を特定書式の文字列に変換する方法

最近、このような状況が発生した。

データ分析用にダミーの簡単なデータを作る必要がある
そのデータは時刻カラムを含む
時刻カラムは、タイムゾーンが設定されていて、UTCである
実際のデータの表示書式はYYYY-MM-DDThh:mm:ssZ の形式（例 2020-07-27T02:12:40Z）であるため、ダミーデータについても同じ書式で作成したい
どうすれば実現できるか?

注意：以下の説明で、「time zone naive = タイムゾーンが設定されていない」「time zone aware = タイムゾーンが設定されている」という意味である。

準備
pandasの時刻カラムのタイムゾーン有無を調べる
pandasの時刻カラムにタイムゾーンを設定する
時刻が特定の書式になっているCSVを作る2つの方法
- 時刻のデータをcsvに保存する際に、時刻形式を変更する方法
- 時刻のデータから、希望する形式の文字列に変換する方法

時刻表現 TやZの意味 | No pain,No gain.
で書いてあるように、2020-07-27T02:12:40Z という時刻の形式がある。時刻を表現するときの国際的な規格として定められている、ISOもしくはRFCに従った形式である。
ISO規格だと ISO 8601
RFC規格だとRFC 3339
らしい。（ほぼ同じと見ていいらしい。Wikipediaの情報だけど）
pandasの時刻データをこの形で作る方法を調べた。

準備

import pandas as pd
import datetime
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。

# 動作環境の確認
print(pd.__version__)

# --------------------

1.1.2

時刻の列として、適当な時刻を3つほど作成する。datetime オブエジェクトを作り、日付と時までを適当に埋めよう。

datetime_list = [
    datetime.datetime(2022, 1, 2, 3, 0),
    datetime.datetime(2022, 2, 3, 4, 0),
    datetime.datetime(2022, 3, 4, 5, 0),
]

val_list = [10, 30, 20]

df_datetime = pd.DataFrame({
    'datetime'    : datetime_list,
    'val' : val_list
})

df_datetime

# --------------------

             datetime  val
0 2022-01-02 03:00:00   10
1 2022-02-03 04:00:00   30
2 2022-03-04 05:00:00   20

pandasの時刻カラムのタイムゾーン有無を調べる

自分の理解を整理するために、Q&Aの形式で書いていく。

Q1. このDataFrameのdatetimeカラムは、タイムゾーンがある時刻か、ない時刻か?
A1. タイムゾーンがない時刻である。

Q2. タイムゾーンがないということはどうして分かるのか?
A2. 以下2つの方法がある。
1つ目の方法は、カラムを調べることである。Series（カラム）にタイムゾーンがないことは、Seriesのdtypeを見れば分かる。

https://pandas.pydata.org/docs/user_guide/timeseries.html#time-zone-series-operations
A Series with time zone naive values is represented with a dtype of datetime64[ns].
A Series with a time zone aware values is represented with a dtype of datetime64[ns, tz] where tz is the time zone.

拙訳：タイムゾーンが設定されていない値を持つSeriesは、datetime64[ns]というdtypeで表される。

タイムゾーンが設定されている値を持つSeriesは、datetime64[ns, tz]というdtypeで表される。ここで、tzはタイムゾーンである。

df_datetime.dtypes

# --------------------

datetime    datetime64[ns]
val                  int64
dtype: object

2つ目の方法は、入っている時刻データを調べることである。

https://pandas.pydata.org/docs/user_guide/timeseries.html#time-zone-handling
By default, pandas objects are time zone unaware:

拙訳：デフォルトでは、pandasのオブジェクトにはタイムゾーンが設定されていない。

この公式ドキュメントによれば、tzという属性がNoneならタイムゾーンが設定されてないようだ。見てみよう。

datetime1 = df_datetime.loc[0, 'datetime']
datetime1

# --------------------

Timestamp('2022-01-02 03:00:00')

# 注：datetime1.tzと単に書くと、jupyter notebook上で結果のNoneが表示されないので、明示的にprintをつけてNoneを表示させている。
print(datetime1.tz)

# --------------------

None

どちらの方法にせよ、datetimeカラムにはタイムゾーンが設定されていないことが分かった。さて、欲しいデータはUTCなので、タイムゾーンを設定しよう。

pandasの時刻カラムにタイムゾーンを設定する

Q3. 下記のコードでは、タイムゾーンを設定しようとしてSeries.tz_localize()を使っている。なんでエラーになるの?
A3. Series.tz_localize()はindexの時刻をローカライズ処理するため。Seriesの値をローカライズするには、Series.dt.tz_localize()を使う。

https://pandas.pydata.org/docs/reference/api/pandas.Series.tz_localize.html Localize tz-naive index of a Series or DataFrame to target time zone.
This operation localizes the Index. To localize the values in a timezone-naive Series, use Series.dt.tz_localize().

拙訳：SeriesまたはDataFrameの、タイムゾーンの設定されていないindexを指定されたタイムゾーンにローカライズする。
この操作はインデックスをローカライズする。タイムゾーンの設定されていないSeriesの値をローカライズするには、Series.dt.tz_localize()を使うこと。

……と公式ドキュメントに書いてあるとおりで、Seriesに対して直接tz_localizeを実行しようとindexの時刻を変更しようとする。
今回はindexが時刻ではなくて数値なので「（indexの時刻を変更しようとしたら）indexが時刻じゃないんだけど」とエラーが出ている。

df_datetime['datetime_utc'] = df_datetime['datetime'].tz_localize(tz='UTC')

# --------------------

---------------------------------------------------------------------------
    TypeError                                 Traceback (most recent call last)
    <ipython-input-10-d343d953d675> in <module>
    ----> 1 df_datetime['datetime_utc'] = df_datetime['datetime'].tz_localize(tz='UTC')
    
    /usr/local/lib/python3.8/site-packages/pandas/core/generic.py in tz_localize(self, tz, axis, level, copy, ambiguous, nonexistent)
       9643             if level not in (None, 0, ax.name):
       9644                 raise ValueError(f"The level {level} is not valid")
    -> 9645             ax = _tz_localize(ax, tz, ambiguous, nonexistent)
       9646 
       9647         result = self.copy(deep=copy)
    /usr/local/lib/python3.8/site-packages/pandas/core/generic.py in _tz_localize(ax, tz, ambiguous, nonexistent)
       9625                 if len(ax) > 0:
       9626                     ax_name = self._get_axis_name(axis)
    -> 9627                     raise TypeError(
       9628                         f"{ax_name} is not a valid DatetimeIndex or PeriodIndex"
       9629                     )
    TypeError: index is not a valid DatetimeIndex or PeriodIndex

# https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.tz_localize.html
df_datetime['datetime_utc'] = df_datetime['datetime'].dt.tz_localize(tz='UTC')

df_datetime

# --------------------

             datetime  val              datetime_utc
0 2022-01-02 03:00:00   10 2022-01-02 03:00:00+00:00
1 2022-02-03 04:00:00   30 2022-02-03 04:00:00+00:00
2 2022-03-04 05:00:00   20 2022-03-04 05:00:00+00:00

Q4. Series.dt.tz_localize()を使って時刻変換したけど、このdtって何?
A4. dtは時刻形式のSeriesに対するアクセサ（accessor）である。
Series.dt.xxx という形で、時刻情報の一部を抽出したり、今回のtz_localizeのように時刻関係のメソッドを使ったりできる。
Series.dt.xxx の一覧は https://pandas.pydata.org/docs/reference/series.html#datetimelike-properties
dtについては https://pandas.pydata.org/docs/user_guide/basics.html#dt-accessor を参照。

さて、UTCに設定したら希望の書式になってくれるかと思ったが、そうではなかった。 2022-01-02 03:00:00+00:00 という形式になってしまった。
2022-01-02T03:00:00Z という形式が欲しいんだけど。

Q5. 日付と時刻の間にあるTはどういう意味? 半角空白の場合と何が違うの?
A5. ISO 8601では日付と時刻の間にTという文字を書く必要がある。（半角空白にすることは認められていない）
Q6. 時刻の末尾にあるZはどういう意味? +00:00と何が違うの?
A6. Zと+00:00 はどちらもISO 8601で認められた表記法で、タイムゾーンがUTCであることを示す。

df_datetime.dtypes

# --------------------

datetime             datetime64[ns]
val                           int64
datetime_utc    datetime64[ns, UTC]
dtype: object

# で、このままcsvに出力しても希望通りの形式にはならない。
df_datetime.to_csv("temp1.csv")
# csvの中身を表示する
! cat temp1.csv

# --------------------

,datetime,val,datetime_utc
0,2022-01-02 03:00:00,10,2022-01-02 03:00:00+00:00
1,2022-02-03 04:00:00,30,2022-02-03 04:00:00+00:00
2,2022-03-04 05:00:00,20,2022-03-04 05:00:00+00:00

時刻が特定の書式になっているCSVを作る2つの方法

3つの方法が考えられる。

時刻のデータ（dtype　datetime64[ns, UTC]）のまま、表示方法を変更する。
時刻のデータをcsvに保存する際に、時刻形式を変更する。
時刻のデータから、希望する形式の文字列に変換する。

このうち2番目と3番目の方法は実現可能である。

Q7. 時刻のデータ（dtype　datetime64[ns, UTC]）のまま、表示方法を変更する方法はあるのか?
A7. 多分ないと思う。あったら教えて下さい。

時刻のデータをcsvに保存する際に、時刻形式を変更する方法

Q8. 時刻のデータをcsvに保存する際に、時刻形式を変更する方法はあるのか?
A8. ある。to_csvの引数にdate_formatを指定する。

# to_csvの引数にdate_formatを指定すると、csvに書き出すときに時刻を希望の書式にすることができる
df_datetime.to_csv("temp2.csv", date_format="%Y/%m/%dT%H:%M:%SZ")
# csvの中身を表示する
# date_format引数はdatetime,datetime_utc の両方の列に適用されている
! cat temp2.csv

# --------------------

,datetime,val,datetime_utc
0,2022/01/02T03:00:00Z,10,2022/01/02T03:00:00Z
1,2022/02/03T04:00:00Z,30,2022/02/03T04:00:00Z
2,2022/03/04T05:00:00Z,20,2022/03/04T05:00:00Z

時刻のデータから、希望する形式の文字列に変換する方法

Q9. 時刻のデータをcsvに保存する際に、時刻形式を変更する方法はあるのか?
A9. ある。Series.dt.strftime() を使ってフォーマットを指定する。

Q10. 出来上がったカラムのdtypeはどうなってるのか?
A10. 文字列、objectである。

df_datetime['datetime_utc'].dt.strftime("%Y/%m/%dT%H:%M:%SZ")

# --------------------

0    2022/01/02T03:00:00Z
1    2022/02/03T04:00:00Z
2    2022/03/04T05:00:00Z
Name: datetime_utc, dtype: object

最初は訳わからなくてこれで作ってた。

df_datetime['datetime_utc'].apply(lambda t: t.to_pydatetime().strftime("%Y/%m/%dT%H:%M:%SZ"))

# --------------------

0    2022/01/02T03:00:00Z
1    2022/02/03T04:00:00Z
2    2022/03/04T05:00:00Z
Name: datetime_utc, dtype: object

一応、上のやり方を解説しておこう。
Seriesに対してapplyを使うので、tに該当するのは、 datetime64[ns, UTC] 型の1つの時刻である。
to_pydatatime()はPandasのTimestampオブジェクトをPythonのdatetimeオブジェクトに変換するもの。
https://pandas.pydata.org/docs/reference/api/pandas.Timestamp.to_pydatetime.html
で、datetimeオブジェクトに対してstrftime()関数で文字列に変換している。

以上、2つの方法で、YYYY-MM-DDThh:mm:ssZ という形式で時刻を出力することができた。

……これ実は、手動で「Z」という文字を付け加えているから、「タイムゾーン情報」としてZという文字を付加しているわけではない。タイムゾーンを設定しなくても指定書式でcsvが作れるな。
まぁ、試行錯誤の結果ということで、このままにしておきます……。

しかし今回調べてみると、 Series.dt.xxx でできることが意外と多かった。strftimeを使うと文字列に変換もできるのか。

python標準のdatetimeと対応関係を見てみよう。例えば、df_datetime['datetime_utc'].dt.hourの場合。

python_dt = datetime.datetime(2022, 1, 2, 3, 0)

python_dt.hour

# --------------------

3

df_datetime['datetime_utc'].dt.hour

# --------------------

0    3
1    4
2    5
Name: datetime_utc, dtype: int64

こう見ると、「python_dt」と「df_datetime['datetime_utc'].dt」が対応している。

次に、df_datetime['datetime_utc'].dt.strftime()の場合。

python_dt.strftime("%Y/%m/%dT%H:%M:%SZ")

# --------------------

'2022/01/02T03:00:00Z'

df_datetime['datetime_utc'].dt.strftime("%Y/%m/%dT%H:%M:%SZ")

# --------------------

0    2022/01/02T03:00:00Z
1    2022/02/03T04:00:00Z
2    2022/03/04T05:00:00Z
Name: datetime_utc, dtype: object

これも、「python_dt」と「df_datetime['datetime_utc'].dt」が対応している。
Series.dtは単なるアクセサであるが、「Series.dt は、PythonのdatetimeオブジェクトからなるSeriesのようなもの」と考えておくと、対応が分かりやすいのかもしれない……?
それでは。

Kivyを触ってみた

2022-01-29T23:47:34+09:00

触ってみたきっかけ
Kivyって何
公式ドキュメント
環境
Kivyのインストール（Getting Started » Installing Kivy）
インストールの次に見るべきページは何か?
Create an application
Pong Game Tutorial
- ボールを追加（Add the Ball）

触ってみたきっかけ

GitHubの言語Pythonのトレンドの中にあったのでちょっと触ってみようと思った。

Kivyって何

Pythonの公式ドキュメント内のFAQの中のグラフィックユーザインターフェース FAQには、 Tkinter、Qtなどと並んでKivyの名前がある。これらは、パソコン上でGUIを作るためのライブラリらしい。

公式ドキュメント

https://kivy.org/doc/stable/ ：公式ドキュメント
https://pyky.github.io/kivy-doc-ja/ ：公式ドキュメントを有志が日本語訳したもの（Kivyは2022年1月時点で2.0.0が最新である。日本語版は「2017年5月現在Kivy1.10に対応しております。」と書いてあり、情報が古いことには注意が必要。）

環境

MacBook Pro (16-inch, 2019)
MacOS Catalina (10.15.7)

Kivyのインストール（Getting Started » Installing Kivy）

公式ドキュメントの指示通りにインストールした。

% python3 -m venv kivy_venv
% source kivy_venv/bin/activate

(kivy_venv) % python --version 
Python 3.8.5
(kivy_venv) % python3 --version
Python 3.8.5
(kivy_venv) % python -m pip install kivy[base] kivy_examples 
zsh: no matches found: kivy[base]
(kivy_venv) % python -m pip install 'kivy[base]' kivy_examples
Collecting kivy[base]
……（以下略、インストール完了）

一点詰まったのは、公式ドキュメントどおりにpython -m pip install kivy[base] kivy_examplesと実行してもエラーになってしまったことである。
"zsh no matches found kivy base"で検索して以下を発見。

python - zsh: no matches found: requests[security] - Stack Overflow

zshでは[ ]の記号が特別な意味（正規表現と同様の使い方）を持つため、このままだと実行に失敗する。
特別扱いを避けて期待通りの動作にさせる方法はいくつかあるようだ。今回は、kivy[base]という文字列全体を引用符で囲むという方法を用いた。

インストール結果は以下のようになる。

(kivy_venv) % pip freeze
certifi==2021.10.8
charset-normalizer==2.0.9
docutils==0.18.1
idna==3.3
Kivy==2.0.0
Kivy-examples==2.0.0
Kivy-Garden==0.1.4
Pillow==9.0.0
Pygments==2.11.1
requests==2.26.0
urllib3==1.26.7

python kivy_venv/share/kivy-examples/demo/showcase/main.py
と打つと、デモ用のアプリが立ち上がる。画面を切り替えると、ボタンやチェックボックスやプログレスバーなど、いろいろな機能のデモができる。

インストールの次に見るべきページは何か?

ここの動線がちょっと複雑。公式ドキュメント上で「Installing Kivy」の次は以下のページである。 https://kivy.org/doc/stable/gettingstarted/first_app.html
でこのページにはだいたいこう書いてある：「Pong Game Tutorialがあるからそれをやってね。基本的なことは書いてあるから。チュートリアルに従うと、単純なアプリケーションを作るよ。Pong Game Tutorialはロードマップの中で一番重要な記事だよ」

「ロードマップ」という単語が突然登場したから「何かそういうまとめ画像(例えばこれみたいなやつ) があるの?」と思った。別にそういう「ロードマップ」はないらしい。

というわけでPong Game Tutorialに飛ぶと、以下のように書いてある。

Pong Gameのチュートリアルを始める前に

Kivyがインストールされていることを確認してね
Kivyアプリケーションを実行する方法を確認してね。わからないなら、Create an application を見てね

というわけで次に見るべきはCreate an applicationのようだ。

Create an application

https://kivy.org/doc/stable/guide/basic.html#quickstart
の'Hello World'アプリケーションを書き写して実行した。

Pong Game Tutorial

拡張子kvのコードにシンタックスハイライトが適用されなかったので、VSCodeの以下をインストール。
https://github.com/sspaink/kivy-vscode

最初はコロンを使わずに間違ってイコールで書いてしまい、以下のエラーが出てきた。

 ...
      15:    Label:
      16:        font_size: 70
 >>   17:        center_x = root.width * 3 / 4
      18:        top: root.top - 50
      19:        text: "0"
 ...
 Invalid property name

        center_x = root.width * 3 / 4

次。
ページにはこう書いてある。

Note
COMMON ERROR: The name of the kv file, e.g. pong.kv, must match the name of the app, e.g. PongApp (the part before the App ending).

kvファイルの名前を間違えると動かないよ、という話だ。
間違えるとどうなるんだ……? と思って、pong.kv を invalid_name.kv に名前変更して main.pyを実行した。特にエラーは出なかった。
しかし、その代わりに真っ黒な画面が出現した。
……なるほど、ファイル名がpong.kvだから自動的に関連付けて読み込まれるけど、違う名前だと無関係なファイルだと思われて読み込まれないようだ。

ボールを追加（Add the Ball）

ボールの位置を指定しているのは<PingGame>内部のcenter: self.parent.centerのように見えたので、 pong.kvの7行目の pos: self.posの必要性が無いように感じられた。これをコメントアウトして実行してみた。
すると、ボールが画面の左下に表示された。……え、何でだろう。謎だわ。

Pong Game Tutorial
の指示通りにコードを書いてPong（卓球）ゲームが完成するところまでやった。
本当は各ファイルのそれぞれのコードがどう繋がって、実際のゲームができたのとかしっかり理解するのが良いんだろうけど、久々の技術ブログなのでこれくらいで切り上げておく。
それでは。

ダンジョンエンカウンターズプレイのメモ

2021-11-06T12:47:26+09:00

記述の基本方針
基本情報・前提条件?
18〜20時間
20〜22時間
22〜24時間
24〜26時間
26〜28時間
28〜30時間
30〜32時間
32〜34時間
34〜36時間
36〜38時間
38〜40時間
40〜42時間
42〜44時間
44〜46時間
46〜48時間
48〜50時間
50〜52時間
52〜54時間
54〜56時間
56〜58時間
58〜60時間
60〜62時間
62〜64時間
64〜66時間
66〜時間

www.jp.square-enix.com

記述の基本方針

2時間ごとに章を作る。
特にネタバレ配慮はしていないので注意してください。（プレイしたときのログというかメモという感覚で書いている）

基本情報・前提条件?

Switch版を買いました
一回「これは仮だから」といいつつ8時間プレイして、セーブデータを消して新しく1からやり直した

まぁ割と安全めに倒した動きをしていると思います。 * 全滅したら救出しなきゃいけない→全滅しても良いように、たくさんのキャラを育てておく

18〜20時間

えーー全滅しました。2回目。
33階。敵はトレントとヘルプランツで合計4体くらいだったと思う。また魔法攻撃ばっかりされて死んだパターン。

手持ちのレベルを上げて救出しに行くかと思ったけど、このゲームはレベルを上げると直接強くなるというものではない。（HPが上がるけどその効果は微々たるものだ）。強くなるためには、以下のどちらかをする必要がある。

レベルが上がる→装備ポイントが上がる→今までできなかった強い装備ができるようになる
新しい敵を倒す→店に新しい武器防具が並ぶ→それを買う→ステータスが上がる

1点目について。装備ポイントはとっくに十分上がっていて、「今までできなかった装備」はほとんど無いと思っている。
2点目について。全滅したメンバーも全員、ブロンズアーマー（1950）を装備していた。店にはそれより上の防具がない。いや、羽付き帽子（2100）はあるけど……この魔法防御の150の違いは誤差だろう。もっと強い防具を買わせろ……。というわけで、レベルを上げても強くなれそうにない。これでは確実に救出できる自信がない。どうしろというんだろう。アンクを32階で取ってたのが幸いで、これでアンクをアカデミーにおいておけば、救出して即0階に戻れる。

20時間：忘れた

20〜22時間

全滅部隊の救出は完了。淡々とレベル上げ。

22時間：35階まで、完全踏破25階

22〜24時間

36階で初めての石化。「石化中」から時間が経つと石化になると思ってたけど、敵によっては「石化中」を経由せずにいきなり石化になるパターンもあるっぽい。
石化解除を踏んでおいたおかげで、直近の場所がわかってよかった。31階の右下にある。
防具、ブロンズヘルムとラメラーアーマーが並び始めた
37階で地図問題5の答え似たような箇所がたくさんある引っかけ問題。
35階で仮想エレベーター上がりを獲得。
37階は武器防具の店だけあって回復系マスがない。新しいパターンだ……
37階で即死攻撃を喰らってHP回復アビリティ回数が尽きたので、武器防具を買い込んでから33階まで戻る。
- マリアル7、マランダオール4、ラメラーアーマー、アーバレスト
次に進むときは39階から0階に戻りたいな（どうせワープポイントあるでしょ?）

24時間：38階まで、完全踏破25階、最高レベル45

24〜26時間

39階まで行って帰還成功。
40階チラ見。30階に初めて行ったときは結構キツそうな印象だったけど、それと違って行けそうだ感がある。
39階にアクセサリー店も並んでいるので、今後必要になったら39階にワープしてここに行けば良し。
39階のデッドゲートに1人飛ばされる。行方不明になるのね。
上位8人のうち、1人は石化→回復させたけど回収せず放置、1人は飛ばされて行方不明。……少し危ないから回収するか。
犬のフラウを27階に行って犬のフラウを回収。
36階で石化してた1人を回収。
そのままうろついてたら、36階の右下部分に各種回復があるじゃん！遠かったから気づかなかった。まぁそれ狙いでわざと外れた位置に配置してるんだろうけど。
武器はアーバレストとオリハルコンがメインになった。

26時間：40階まで、完全踏破27階、最高レベル48

26〜28時間

全滅しました。3回目。
41階。サムライとかいう敵がHP直接攻撃を繰り返してきた。
1人がマンイーターに食われて、「行けるかな」と思ってそのまま進んでたらあえなく全滅。行けるかな、じゃねぇんだよ。

もう1人、38階でデッドゲートに飛ばされる。
レベルの高い順にトップ9人のうち、3人が41階で戦闘不能。1人が40階で食べられ。2人が38階と39階で飛ばされて行方不明。無事なのが3人。
あれ、これかなりヤバくない?
武器はケンタウロスの弓矢とオリハルコンがメインになった。

28時間：42階まで、完全踏破30階、最高レベル50

28〜30時間

飛ばしと石化を無効化して39階へ。
2人が38階と39階で飛ばされて行方不明だったのを回収した。（飛ばされたときと同じフロアのランダムなマスに行く仕様だと思う。）
38、21、22階を踏破。アビリティのポイントが必要なので。
17、16、15階を踏破。アビリティのポイントが必要なので。
ふと15階を見ると地図問題2の答えだったので、アイテムを取得。
4人パーティーで41階は行けた。けど、3人で行くとそこまでに全滅しそうで心配。
そのまま降りていったら44階で戦闘不能回復・HP回復は見つけた。
レベルの高い順にトップ9人のうち、3人が41階にいる（戦闘不能からは回復）。1人が40階にいる（食べられからは回復）。動かせるのが5人。

30時間：44階まで、完全踏破37階、最高レベル52

30〜32時間

ロリカセグメンタタとかいう舌を噛みそうな名前の防具を買って、39階から再出発。
42階でトレジャー6。パウダーブラスター。あんま使えなさそう……
44階、一方通行の転移装置を始めて見た。92階に飛ばすやつ。なんか92階がひどいってTwitterでちょっと見たんだよな……これか……もちろん踏まない。
46→47→48階、一方通行の階段。そのまま無理やり行ったら49階まで行けるんじゃね? と思ったが、安全第一で44階まで戻る。
でも44階にはアビリティ回数回復がない……
新武器が来た。
- ペルセウスの弓矢 ← インプ ← 71、73 ← 44〜46階
- ローリングエン ← スケルトン ← 6F、71 ← 44〜45階
44〜46階をウロウロ。
46階で初：モルモット。
- 説明には「攻撃が失敗しやすくなる状態」と書いてあって、「たまに失敗するのかな」と思ったら、基本的に失敗である。ひどい。
- 試しに記録を取ってみたら、15回連続で失敗して16回目に攻撃成功した。おそらく攻撃成功率は5%〜10%だと思われる。
- 解除方法は不明なので放置……
防具、アーメットとバルビュータが同時に入荷されてた。防具が一気に2段階上がるのは初めてだな…… あとはシルバーアーマーも入荷されてた。
モルモットと化したナンガパルをアカデミーに預ける。あと40〜41階の4人を回収。
レベルの高い順にトップ9人のうち、1人モルモット。

32時間：48階まで、完全踏破39階、最高レベル57

32〜34時間

余計な戦闘をせず、49階まで行って戻ってこよう。
39階に飛んですぐに仮想エレベーターで降りる。46階から49階まで行って帰還成功。
- この瞬間が一番ホッとするね。
48階トレジャー7。ただの4800G。しょぼい。
50階。噂に聞いた、金を取られる床か。きっと、1マス600Gか800Gくらいだろ? 試しに乗ってみるか。「11100G」え? は????
39階で83のマスを倒す→新しい武器デュランダルが店に並んでるじゃん→83くらいのマスは（連続じゃなくて）一発なら倒せる。ちょっと下に潜って倒して強い武器を手に入れよう。
54階、トレジャー9。攻撃速度アップね。
55階に降りて進みだしたらいきなり落とし穴に落ちた。68階に行った。慌ててアンクで戻った。
47階で「落とし穴発見」を見つけた。
39階、地図問題7の答え。
レベルの高い順にトップ9人のうち、1人モルモット。

34時間：54階まで、完全踏破39階、最高レベル59

34〜36時間

52階のバトルで全滅しそうになってギリギリ勝つ。危ない。
あちこち行ってるので武器防具の個数が揃わない。まとめるか。
武器
- グラディウス
- デュランダル ← 鎧の男 ← 83、86 ← 52階近辺（39階にも少なからず83がいる。こっちのほうが便利かも）
- バリスタ ← ガーゴイル ← 7E、81 ← 50階近辺
防具
- アーメット ← ウェアウルフ ← 6A、6C ← --階近辺
- バルビュータ ← ブラックベア ← 76、78 ← 46〜48階
- シルバーアーマー ← ベヒーモス ← 76、79 ← 46〜48階
アクセサリー
- コンドライト ← ジェネライザー ← 82〜86 ← 52階近辺
「不明者発見」の値を見ながら52階をウロウロしてたら不明者発見。52, 68, 39 ントレヤナ。
53階、地図問題8の答え。……専用装備だな。

全滅しました。4回目。
56階。8Bだとおもう、ウィザードと死のカードとラバー。魔法攻撃ばっかりされて死んだパターン。
結構深く潜っちゃって、大丈夫か微妙なところで「有料床回避」が見えて、1回バトルに勝てば到達できるから、これだけ取って帰ろう……と思ったけど帰れなかった。

36時間：56階まで、完全踏破41階、最高レベル59

レベルの高い順にトップ9人のうち、4人戦闘不能（56階）、1人モルモット。

36〜38時間

49階をウロウロしてたら不明者発見。謎の掃除ロボじゃん! 49, 34, 88 K2000。連れて帰る。
52, 68, 39 ントレヤナを連れて帰る。
K2000に「グラフェン加工」を装備させるとものすごい耐久力になるな。武器も片方を素手にしたけど、ゾンビ系を一撃で殺せるので悪くない。

38時間：57階まで、完全踏破41階、最高レベル64

38〜40時間

よし、そろそろ56階の戦闘不能4人を連れて帰ろう。ついでに「有料床回避」も取ってこよう。
仮想エレベーターでどこに移動するか調査。
- 0E転送→49階→仮想エレベーター下り→50階→仮想エレベーター下り→54階
- 0E転送→49階→03のマス→仮想エレベーター下り→66階
- 0E転送→49階→03の上のマス→仮想エレベーター下り→59階
- 0E転送→49階→01のマスから50階に移動→仮想エレベーター下り→59階
- 0E転送→49階→01のマスから50階に移動→1マス上に移動→仮想エレベーター下り→99階（!?）
- 0E転送→49階→01のマスから50階に移動→1マス下に移動→仮想エレベーター下り→66階
- 0E転送→49階→一番上まで移動→仮想エレベーター下り→61階
上の検証をしてて59階で「精神統一」が取れた。なんて都合の良いアビリティなんだ。ただしコストは非常に高い。35もするのかよ。
「さぁ帰ろう」と思ったらアンクを実行してなかった。しかも59階の転送装置までは辿り着けそうにない。死ぬかと思った。なんとか49階まで上がって戻ってこられた。
56階の「有料床回避」は、下側からは入れない。上から「ナイトムーブ」で飛んでくる必要がある。
56階で敵6人と戦って死にそうになる。敵の数は1〜6からランダムだと思うけど、最大数の6体出てくると結構きついな。
59階から帰還成功。
- 冷静によく見たらムーブで店にジャンプできる距離だった。隠し床で敵と戦う必要はなかった。
幻城とは何。何で俺は城と戦ってるの。
60階以降……クソだるい……床が見えない……

40時間：60階まで、完全踏破41階、最高レベル65 * レベルの高い順にトップ11人（K2000とントレヤナのぶんだけ増えた）のうち、1人モルモット。

40〜42時間

56・57・59・61階をチマチマやって完全踏破。

42時間：63階まで、完全踏破45階、最高レベル66

レベルの高い順にトップ11人のうち、1人モルモット。

42〜44時間

63階、HP全回復・全を入手。
数値問題1と4を解く。
ついでに35階を踏破。
行方不明者が35±4, 42, 75 だなと分かったので仮想エレベーターで下に。39, 42, 75 でモデナリを回収（ホクガクじゃないのか……）。
49階をウロウロしていたら、行方不明者が49±15, 35, 84 だなと分かったので仮想エレベーターで上に。34, 42, 75でホクガクを回収。
……ところでこの2人は行方不明時のレベルとフロアが一緒なんですが、もしかしてそういう法則があったりするか? だとするとレベル60のネコは60階にいるのか?
60±2, 41, 41 に1人、その近くにもう1人……なんじゃこりゃ。
61, 45, 50がオウユー。
- 61階でレベル61。
58, 41, 41 ネコ。59階でうろついてから1つ上に上がると楽。
- 60階じゃないじゃん。ネコは例外か?

というわけで一気に4人（モデナリ・ホクガク・オウユー・ネコ）回収完了。

44時間：65階まで、完全踏破46階、最高レベル67

44〜46時間

レベル43のジョラスはどうせ43階やろ。行こう。回収成功。
回収する前の戦闘で、ホクガクがモルモットになりやがった……なんか強いらしいのに……悲しみ……
43階踏破したけど、ここ専用装備や特殊装備を売るショップがあるのね。
64階、トレジャー10、ただのドレッドノートやんけ、つまらん。
65階で迷ったので、調べておいたこれで66階に行って探検。この辺の敵がギリギリ倒せるくらいだ。
- 0E転送→49階→03のマス→仮想エレベーター下り→66階
さて59階から降りるとどこに行くかは調べておこう。
- 0F転送→59階→仮想エレベーター下り→60階→仮想エレベーター下り→68階
- 0F転送→59階→14のマス→仮想エレベーター下り→60階→仮想エレベーター下り→62階
- 0F転送→59階→15のマス→仮想エレベーター下り→62階→仮想エレベーター下り→66階
- 0F転送→59階→16のマス→仮想エレベーター下り→63階→仮想エレベーター下り→78階
- 0F転送→59階→17のマス→仮想エレベーター下り→63階→仮想エレベーター下り→67階
ネコのナイフ&フォークが強いという話。

46時間：69階まで、完全踏破47階、最高レベル68

46〜48時間

69階から戻ってくる。
66階でネコがモルモットになったんだけどー。しかも同時にロボが食べられたんだけどー。
モルモットの解除方法、未だに不明。
- 解除マスがどこかにあるということは分かっているけど。イベントブックに書いてあるから。でも見たことはないね。
69階の普通には到達できないところに「透明床が見える」アビリティがあるね……どうやるんだ
- ランダムジャンプを繰り返して、行けることを願う
- 座標を覚えておいて、上か下から仮想エレベーターで移動する
- 正攻法でどう行けば良いのかよく分からん。それを探して66階まで行ったらこのザマだよ。
トレジャーリセット（FC）を初めて倒した。
- これくらいまでキャラが育ってれば、攻撃を受ける前に倒すこともできるな。
「透明床発見」を取りに行こう。
- 69階、南は50〜51、東は42〜45。特に51, 42が7Fマス、51、45が02マス。を調べる。
- 59階へ。え、51, 42のマスがあるじゃん。
- そこから仮想エレベーターで63階→69階に行って、「透明床発見」を入手。
透明床発見を装備して、そのまま69、68、67階を完全踏破。いやこれがあると100倍楽だな。

48時間：70階まで、完全踏破51階、最高レベル69

2人がダンジョン内、そして3人がモルモット。特にネコとホクガクは早くモルモットを治して使いたいんだが〜〜……

48〜50時間

強めの編成にして階数を進めに行こう。
HP満タンで攻撃力倍を初めて着けたら、めちゃ強い。どんどん倒せる。
72階の途中で落とし穴で進めず、面倒になったので、仮想エレベーター下りを実行。84階へ。
倒せそうな気がしたので1回だけ戦闘してみる。やっぱり倒せた。
適当に仮想エレベーター上りを実行したら、79階に着いて、そこから転送装置を見つけて帰ってきてしまった。マジかよ。
81階をウロウロしてたらやたらとトレジャーリセットに出会った。……もしかして、トレジャーリセットってトレジャーがある階層のみに出現する法則とかあるのか?
50, 51, 52階を踏破。（50〜59階は、落とし穴見える + 有料床回避 + 透明床見えるを付ける必要があるので、なかなか厄介だね）
52階に謎の液体を売る店があったのに初めて気づいた。
そのまま53, 54, 55階を踏破。
仮想エレベーターで遊んでいたら4階から一気に91階に着いた。なにこれ怖い。
91階にトレジャーがいくつかあり、拾ったらイベントブック上の位置が上書きされた。なにこれ怖い。

50時間：81階まで、完全踏破57階、最高レベル76

50〜52時間

80, 81階を完全踏破。

全滅しました（行方不明）。5回目。
74階の完全踏破を狙ってたけど、最後1マスが落とし穴だったんだよね。まぁ大丈夫でしょって言って落ちてみたらこのザマである（永遠に落ち続けて行方不明になった）。そして落とし穴のマスは踏破にカウントされない……マジかよ。

急いで69階のK2000を回収する。
81階トレジャーでモルモットソードなるものを見つけたので、モルモット状態のネコに装備する。大ダメージが出せた。それは良いけど、モルモットが治らない。
ダメージは固定値で287496。……何だこの半端な値は。数字6桁を見たらマス目だと思え、でいいのだろうか。
28, 74, 96というマスは存在しない。
69, 47, 82のマスはあるけど特に何も起きなかった。
70階71階を完全踏破。
行方不明4人とモルモット3人を除外すると、使えるキャラが少ないので、次に全滅するとヤバい。だいぶヤバい。
万が一に備えてジョラスをレベル43→51まで育成。

52時間：84階まで、完全踏破61階、最高レベル80

52〜54時間

68階のルエンゾを回収する。
行方不明4人、モルモット3人、今使えるレベル60以上は7人。7人のうちゲイシャブランとントレヤナはステータス低いから育成したくないんだよなぁ。
80階にどうせドラゴンがいるんでしょ、レベル80なんだから……見つけた。80, 42, 45で、あれ? 行方不明になってたシュローツェだった。
80±1, 62, 76 に誰かいることを突き止めて79階へ。行方不明になってたフラウだった。
今使えるレベル60以上は9人。これならまぁ安心。
K2000（ロボ）のEPを上げて、高エナジーミサイルを装備可能にした。こいつ、いわゆるぶっ壊れ性能してるな。
85階で落とし穴を見た。この（80〜89階）地帯にも落とし穴ってあるんだ……。
86階でテレポーテーションを手に入れた。「床が無い場合は失敗となりパーティーメンバー全員がバラバラに飛ばされます」割と怖いこと書いてあるな……
テレポーテーションがあった座標はイベントブックで見られるから、そこを指定して86階からスタートできるのね。
あとはレア系のショップにもすぐ行ける。というわけで謎の液体の店にワープして買い込んできた。
しかしテレポーテーションのコストが高いから、アビリティポイントを増やしておきたい。
63階・62階を踏破。

54時間：86階まで、完全踏破64階、最高レベル80

54〜56時間

しかしここから先をどう進めば良いんだろう。武器はずっとサジタリウスの弓矢で固定で、それより強いのは落ちてこないし。
万が一に備えてモデナリ（レベル47）を連れて、踏破階数を増やしに。64階を踏破。
65階で地図問題の答えに気づいた。ネコ音波。しかしいまネコはモルモット状態で使えないのや……
65階を踏破。モデナリも52まで育ちました。
この辺にドラゴンいるんでしょ……と言いつつ81階を探索していたら、行方不明だったオウユーを発見。
もう4人パーティーでも、アンクで0階に戻る→パーティー人数減らしてテレポーテーション→回収して戻るになるからかなり楽だね。
86階から進んでみるも、88階あたりで限界を感じる。戦闘をいくつも重ねるのが難しい。
91階で1回か2回戦闘するだけなら倒せるんじゃないの? と、やってみる。
- K2000の面目躍如。高エナジーミサイルが強すぎる。
- ここでガストラフェテスを敵が落としていった! 別格最強武器やん。

56時間：88階まで、完全踏破66階、最高レベル86

56〜58時間

88階から仮想階段で89階に降りる。
- 仮想エレベーターで下に床が無かったときの挙動ってどうなるんだろう落ち続けて行方不明になるのか?
- →「床はない」と出て移動しないだけになる。良かった
89階から帰還成功。
そしてFFマスを見つけた。（これ99階にあるのかと思ったら89階にあるのか……!）
ここより手前で十分強化してから挑んだほうが良いんだろうなぁ。
82階を踏破。
全滅しました（行方不明）。6回目。
- 87階あたりで、行方不明者までのマス数を見ながら歩いてたら落とし穴（見えてた）に落ちた。マジかよ。
行方不明者までのマス数で混乱しないように、最初の方の行方不明者を回収しとくか。
16, 29, 33 のイルベルトを回収。ついでに2階にずっといたロードピークを回収。
39階で銃を買うついでに行方不明者の位置を特定。 39+44, 73, 37 ラウラギ。（5回目で落とし穴に落ちた人）
行方不明者は（6回目で）落とし穴に落ちた4人と、バルトロとエバレスの6人。
モデナリ（レベル52）を連れつつ行方不明者を探して回ることにする。
57〜59階が割と広範囲にマス目が分布している・移動しやすい。このへんを歩きながら行方不明者までの距離を見て、95階にオウユーがいることを特定。
95階にアイテム「ゲーム」を売る店がある……なんじゃこりゃ。
99, 58, 36 エルバを発見、回収。91階にフラウを発見、回収。
再び59階へ。
91階でルエンゾを発見。
行方不明者の状況は以下の通り。
- （6回目で）落とし穴に落ちた4人のうち2人回収完了。95階オウユーと91階ルエンゾは発見済みで未回収。
- 78階でバルトロが石化してる、発見まで完了
- 最後のエバレスは「行方不明」だけどレーダーに探知されないみたいね。どうなってるんだ。
一方通行式転送装置の2と3を見つけた。これ何の意味があるの?

58時間：89階まで、完全踏破67階、最高レベル87

58〜60時間

90階、ちょっと様子を見てみるか……絶対ボスを倒さなきゃいけないってことは、一本道の途中にいるみたいな形かな?
90階は変な形状のマス目配置をしている。
敵と戦わないように歩いていたつもりが、気づかないうちにFEマスを踏んだらしい。
傀儡のエバレス→パノプティコアに勝利。スタッフロールが流れた。すごい呆気ないというか拍子抜けというか。ガストラフェテスもアドレスブレイドも装備してなかったし、他の装備も適当だったのに。
90階以降のマスが視認しにくいのが全部悪い。
73階を踏破。

60時間：

60〜62時間

（6回目で）落とし穴に落ちた4人のうち、残してた95階オウユーと91階ルエンゾを回収。
全滅しました。7回目。
- 97階も戦闘1回くらいだったら行けるかなーと（一方通行式転送装置のマスにテレポーテーションして）F4マスを踏んだらベテルギウス×5が出てきて一気に死んだ。あんなん勝てるの？
この場合は、再度テレポーテーションして、やられたマスに移動して、キャラを回収すればよい。簡単に4人とも回収できた。
87階を踏破。
88階、やたらとモンスターのマスが多くないか?
78階を踏破、バルトロを回収。
74, 75, 76階を踏破。

58時間：95階まで、完全踏破76階、最高レベル92

62〜64時間

久しぶり（今日は2022年1月30日）過ぎて状況を覚えてない……
メンバー転送を持ってないからいちいち厄介なのよね。70階台にあるってブログを見た気がする。残りは72階か。
72階でメンバー転送を取得。そして完全踏破。
24〜26階をまだ踏破してなかったので完全踏破。
91階をウロウロしてるけど、メリュジーヌが出現するマスが多くてうかつに戦闘できない。
287496 = 66 ^ 3 らしい。けど66, 66, 66というマスは無い。どうしろと?

64時間：95階まで、完全踏80階、最高レベル94

モルモットを治す方法が分からんので考える。
45階にテレポーテーションする。
モルモットソードの与えるダメージが300763に変わった。何で? と思ったら300763 = 67 ^ 3である。
「モルモットソードを装備した人のレベルの3乗」が与えるダメージになるんだろう。
あり得るとしたら魔法反射をつけて→メリュジーヌが呪文を唱えたら反射する? かなぁ。と思ったけど、違うようだ。
分からんのでネタバレを見た。
https://twitter.com/kiryuda/status/1451923841740013568
一度わかればあとは簡単、モルモットの4人の治癒が完了した。
91〜95階あたりならまぁ戦えるようになってきた。が、なかなかアイテムは落ちない。
91階、95階を完全踏破。
88階も踏破……しようとしたけど敵が多くて鬱陶しい……
レベル66のネコを連れて行って、これを育てよう。

64〜66時間

武器（物理ダメージ）
- 最強1つ手前
  - 単体固定ダメージ：カラドボルグ ← 鉄巨人 ← C6、C8 ← 〜階
  - 全体固定ダメージ：リグナムシャフト ← BF、C1 ←
  - 単体ランダムダメージ：
  - 単体固定ダメージ（遠隔）：サジタリウスの弓矢 ← インプ ← B0、B3 ← 〜階
  - 全体ランダムダメージ（遠隔）：ガラビ銃 ← 諜報員 ← BC、BE ← 〜階
防具
- 最強1つ手前
  - グランドヘルム ← ドラゴンゴースト ← C0、C3 ← 〜階

74階 B8〜BC 75階 BB〜BF 76階 BD〜C1 77階 C0〜C3

79階 C4〜C7

66〜時間

久しぶり（今日は2022年12月7日）過ぎて状況を覚えてない……
適当に死んだりしたけど、テレポーテーションとメンバー転送を組み合わせると一瞬で全員救出できるから楽になった。
90階を完全踏破。あれこれアビリティポイントが 3じゃなくて5増えるのな。
謎の液体をたくさん入手して、HPと装備ポイントをどんどん上げれば良いっぽい?
98階に足を踏み入れた。これ00階とほとんど同じという構造なのかー。

68時間：99階まで?、完全踏87階、最高レベル98

pandasのappendができない? もとのDataFrameは変更されないので、返り値を使う

2021-09-27T23:39:34+09:00

pandasのappendができない? もとのDataFrameは変更されないので、返り値を使う

pandasのappend関数を使うときに、たまに間違えて失敗するのでメモ。

pandasでDataFrameにappendするとき、連結後のDataFrameは返り値になっている。もとのDataFrameは変更されない。

以下、詳細。

準備
Python標準のappend
pandasのappend
おまけ：numpyのappend関数

準備

import pandas as pd
import numpy as np
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。

# 動作環境の確認
print(pd.__version__)
print(np.__version__)

# --------------------

1.1.2
1.19.1

Python標準のappend

pythonの普通のリストはappendがインプレースに行われる。

公式ドキュメント：5. データ構造 — Python 3.10.0b2 ドキュメント

my_list = [1, 3, 5]
my_list

# --------------------

[1, 3, 5]

my_list.append(7)

my_list

# --------------------

[1, 3, 5, 7]

このとき、append関数の返り値はNoneである。

ret = my_list.append(9)
print(ret)

# --------------------

None

pandasのappend

pandasではリストはappendがインプレースに行われない。返り値を取ってこなきゃいけない。
これはPython標準のappendとは違う動きなので、混同しないように注意する必要がある。

公式ドキュメント：pandas.DataFrame.append — pandas 1.4.1 documentation
仕様はあまりハッキリ書いていないが、 Returns（返り値）が新しいDataFrameであることに注意。

df = pd.DataFrame({'col_A': [1,2,3], 'col_B': ['p','q','r']})
df

# --------------------

   col_A col_B
0      1     p
1      2     q
2      3     r

df2 = pd.DataFrame({'col_A': [100, 200], 'col_B': ['x', 'y']})
df2

# --------------------

   col_A col_B
0    100     x
1    200     y

# 返り値は結合後のDataFrameとなる
df.append(df2)

# --------------------

   col_A col_B
0      1     p
1      2     q
2      3     r
0    100     x
1    200     y

# もとのDataFrameであるdfは変わっていない
df

# --------------------

   col_A col_B
0      1     p
1      2     q
2      3     r

appendにはinplace引数もない。
ので、dfを新しくしようと思ったら、結果を代入する必要がある。

df = df.append(df2)

df

# --------------------

   col_A col_B
0      1     p
1      2     q
2      3     r
0    100     x
1    200     y

特に、ループの中でうっかり間違えてappendを書くと、ループを抜けても何も追加されていないということが起きる。
（以下の書き方はDataFrameを1行ずつ追加していくものであり、動作が遅くなるのであまり良い方法ではない。説明用の例である）

# ループの中でappendする例
# 
df = pd.DataFrame()
for i in range(5):
    temp = {
        'num': i,
        'square': i**2,
        'cubic': i**3
    }
    df.append(temp, ignore_index=True)
    # appendの結果を代入していないので、dfはループの中で変わらない

# dfは空のDataFrameである
df

# --------------------

Empty DataFrame
Columns: []
Index: []

df = pd.DataFrame()
for i in range(5):
    temp = {
        'num': i,
        'square': i**2,
        'cubic': i**3
    }
    df = df.append(temp, ignore_index=True)

df

# --------------------

   cubic  num  square
0    0.0  0.0     0.0
1    1.0  1.0     1.0
2    8.0  2.0     4.0
3   27.0  3.0     9.0
4   64.0  4.0    16.0

おまけ：numpyのappend関数

NumPyは公式ドキュメントにこの動作が明示的に説明してあるから良いですね。

Note that append does not occur in-place: a new array is allocated and filled.
（拙訳： appendはインプレースではないことに注意してください。新しいNumPy配列が確保されて、そこに値が埋められます。）
https://numpy.org/doc/stable/reference/generated/numpy.append.html

NumPyのappend関数の動きはpandasと同様だ。すなわち、appendの動作はインプレースではなく、追加したあとのNumPy配列を使うには返り値を見る必要がある。

numpy_array = np.array([1, 3, 5])
numpy_array

# --------------------

array([1, 3, 5])

# 返り値は結合後のNumPy配列となる
other = np.array([2, 4])
np.append(numpy_array, other)

# --------------------

array([1, 3, 5, 2, 4])

# もとのNumPy配列であるnumpy_arrayは変わっていない
numpy_array

# --------------------

array([1, 3, 5])

それでは。

4回目の緊急事態宣言と東京都・大阪府の人出の変化を可視化してみた

2021-07-22T15:17:34+09:00

はてなではここ数週間、Knoa氏の匿名ダイアリーによる感染者数予測が耳目を集めている（何だこの矛盾に満ちた表現）。

あんな予測は俺にはできないなと思いつつ、5chのコロナ関連のスレッドをウロウロしていたら、【公式】モバイル空間統計 | 位置情報などのビッグデータを利用した人口統計情報というデータを見つけたので、ちょっと可視化してみた。予測や分析じゃなくてただの可視化です。
出典は「NTTドコモ　モバイル空間統計」である。

東京都新宿駅
渋谷センター街
東京駅
霞が関
羽田空港第1ターミナル
大阪府梅田
感想

データについての注意点

全国主要エリアの15時時点の人口増減率である。（夜間の人口については何もわからないことに注意）
「緊急事態宣言前」に対する比率である。明確な説明は無いが、おそらく2020/4/7の人口に対する比率だと思われる。（基準はコロナ前ではなく、すでにコロナの影響がある日であることに注意。）
「15時の時点でそのエリアにいた具体的な人数」はグラフになっているのでデータはあるはずだが、csvには記載されていない。つらい。
各地点の人口の推移グラフは、サイトトップからたどるのが少し難しいが、緊急事態宣言前後の人口変動分析などにある。

グラフ表示についての注意点

横軸に日付、縦軸には2020/4/7 （火曜日）を100としたときの各エリアの人口の値を表示している。
- エリアの正確な範囲については緊急事態宣言前後の人口変動分析などを参照
背景の赤色は「緊急事態宣言」の期間、黄色は「蔓延防止等重点措置」の期間を示す。
- 4回目の緊急事態宣言 7/12 〜 8/22 は、とりあえず7月いっぱいを赤色にしている
平日は濃紺（navy）、休日は赤色（red）で表示。
平日と休日の判定は「土曜日もしくは日曜日であるか」のみである。（すなわち、祝日や年末年始は全く考慮していない）

取り急ぎでやってみたので上記の通り少し粗がある。本当は感染者数の推移と重ね合わせるのもやりたいんだけど。
【公式】モバイル空間統計 | 位置情報などのビッグデータを利用した人口統計情報は全国のいろいろな箇所の統計を取ってるけど、ここで見るのは基本的に東京都の地点のデータである。最後にちょっとだけ大阪を見てみます。

東京都新宿駅

グラフ背景に色を付けてみると、東京都に緊急事態が出ている期間って長すぎるだろ! 殆ど出てるだろ! と改めて思ってしまった。それはさておき、グラフを見ると以下のことが分かる。

2回目、3回目の緊急事態宣言の期間中は、平日と休日とも「人口が一度減って、その後増えていく」という傾向を示している。
4回目の緊急事態宣言、7月12日〜で人口は殆ど減少していないように見える。少なくとも2回めや3回目と比べて、減少幅は少ないように見える。
7月17・18日の週末（4回目の緊急事態宣言が出てから最初の週末）は、6月の緊急事態宣言時と比べて人口が多い。

渋谷センター街

2回目、3回目の緊急事態宣言の期間中は、平日と休日とも「一度減って、その後増えていく」という傾向を示している。
4月1日前後を極大値として、4月に入ると急激に人出が減少する。何でだろう? 感染者が増えたことで外出を控えたか、単に春休みが終わったか、あたりだろうか。
4回目の緊急事態宣言、7月12日〜で人口は殆ど減少していないように見える。少なくとも2回めや3回目と比べて、減少幅は少ないように見える。
7月17・18日の週末（4回目の緊急事態宣言が出てから最初の週末）は、6月の緊急事態宣言時と比べて人口が多い。

東京駅

平日に多いパターンも見たほうが良いかと思い、東京駅を見てみた。
平日の中で一日だけ数値が減少しているのは祝日ですね……（例えば2月11日の建国記念の日、2月23日の天皇誕生日）可能なら本当は色を変えたほうが良いと思う。

新宿や渋谷センター街と同様の傾向ですね。

2回目、3回目の緊急事態宣言の期間中は、平日と休日とも「人口が一度減って、その後増えていく」という傾向を示している。
4回目の緊急事態宣言、7月12日〜で人口は殆ど減少していないように見える。少なくとも2回めや3回目と比べて、減少幅は少ないように見える。
7月17・18日の週末（4回目の緊急事態宣言が出てから最初の週末）は、6月の緊急事態宣言時と比べて人口が多い。

霞が関

東京駅とそれほど傾向は変わらない。ので箇条書きは省略。
5月19日（灰色縦線で示したところ）だけが前後の平日よりも顕著に低い。
「霞が関の各省庁でテレワークの実体を調査した5月19日だけ、人流がガクンと減り、翌日はまた増えている」という事実が確認できる。下記の記事を参照。

霞が関、テレワーク調査日だけ人出減事前通知「明日だけは」 | 毎日新聞

羽田空港第1ターミナル

2回目の緊急事態宣言の期間中は、はじめに減少していって2月前半が極小値になっている。
- 他の地点と比べて極小値の時期が遅いのは、飛行機に乗るのはチケットを取ってから乗るまでにタイムラグがあるから、そのせい?
3回目の緊急事態宣言の期間中は、5月のゴールデンウィークが終わったあたりが極小値になっている。
ここで一番注目したいのは、2021年7月21日が今年の（ほぼ）最大値になっていることである。
- 7月22日〜25日の4連休の前に休みを取って、空港を利用した ≒ 旅行に出かけた人が一定数いる? 東京から他の地方なのか、他の地方から東京なのかは不明だが、東京以外の感染拡大がこの後発生してもおかしくないと思う。

大阪府梅田

最後に大阪を1枚だけ。東京都とはかなり様子が異なる。

6月20日の前後で全く人口の様子が違う。
- 6月20日の前は、平日 > 土日
- 6月20日の後は、平日 < 土日
大阪は「3回目の緊急事態宣言が出ている間は、土日に自粛して外出を控えた」と推察される。
そして「3回目の緊急事態宣言が解除された6月20日以降、一気に土日に外出するようになった」と推察される。
- 大阪府では7月11日頃から感染者数が急激に上昇している。
東京ではこのような「緊急事態宣言の期間中は低いまま、緊急事態宣言の終了を境に一気に人口が増える」という例は見つからず、大阪に特徴的である（大阪府の難波の人口も、かなり近い傾向を示している）。
なお、6月に入ってから平日の人口が急に上がるのは、平日の商業施設などの休業要請を6月1日から解除したからだと思われる。下記参照。

一方、現在、百貨店などの大規模施設に出している休業要請は、土日に限っての要請に切り替え、平日については、夜8時までの時短要請を行います。 https://www3.nhk.or.jp/news/special/coronavirus/emergency_third/kansai.html#mokuji0

感想

考察というほどちゃんとした話ではないので、「感想」ってセクション名にしておきますが。少なくとも、「緊急事態宣言が出たので外出を控えます」とか「感染者が増えて危ないので外出を控えます」といった行動の変化は、東京都ではほとんど発生していないと考えられる。（自粛している人は、緊急事態宣言や感染者の数によらず前から自粛している）

一方で、東京の感染者数を5週間ぶん予測した (6月21日版) で参考として示されている都内主要繁華街における滞留人口モニタリング（7月18日までのデータ）｜公益財団法人東京都医学総合研究所を見ると、東京の繁華街の人口は7月12日の緊急事態宣言以降、明らかな減少傾向にあるように見える。（時間帯別主要繁華街滞留人口の日別推移というグラフを参照）
特に、上記グラフの基準時刻である15時を含む、昼間でも減少している。
東京都モニタリング会議でも都内主要繁華街における滞留人口モニタリング（7月18日までのデータ）｜公益財団法人東京都医学総合研究所の分析をもとに「宣言発令後の直近1週間で、レジャー目的の繁華街滞留人口は減少」と結論づけている。（（第55回）東京都新型コロナウイルス感染症モニタリング会議資料（令和3年7月21日）｜東京都防災ホームページ）
上で見てきた傾向と違うのは何故だろうか。
「人口のカウントの仕方の違い」か「エリアの違い」のいずれかだと思うが、よく分からない。

もし追実験したいという奇特な方がいましたら、適当に書いたnotebookを以下に置いてあります。参考にしてください。
fragments_for_blog/mobile_space_stat.ipynb at master · Linus-MK/fragments_for_blog · GitHub

新型コロナウイルスに関する記事だと、昔こんな記事も書きました。

linus-mk.hatenablog.com

それでは。

［pandas/matplotlib］時系列データをプロットするときはデータ型に注意

2021-07-18T12:43:44+09:00

[pandas/matplotlib] 時系列データをプロットするときはデータ型に注意

pandasで時系列データを作って、matplotlibでプロットするときにエラーが出たけど、調べてみたらデータ型（dtype）を間違えていたせいだった。
時系列データのデータ型には気をつけましょう。
という話のメモ。

準備
失敗例 axvspanを実行するとエラーになった
結果には2つの問題点がある。原因は共通で、データ型が不適切だった。
対処法：日付を扱うためのデータ型に変換する
時系列データをのグラフで、axvspan、axvlineを使う

準備

import datetime
import pandas as pd
import matplotlib.pyplot as plt
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。

# 動作環境の確認
print(pd.__version__)
import matplotlib
print(matplotlib.__version__)

# --------------------

1.1.2
3.3.1

失敗例 axvspanを実行するとエラーになった

まず適当な時系列データを作ります。

# 2021年の祝日を適当に抜き出して並べただけで、データに意味はありません
date_str_list = ['2021-01-11', '2021-02-11', '2021-03-20', '2021-04-29', '2021-05-05']

val_list = [10, 30, 20, 50, 40]

df_date_str = pd.DataFrame({
    'date'    : date_str_list,
    'val' : val_list
})

df_date_str

# --------------------

         date  val
0  2021-01-11   10
1  2021-02-11   30
2  2021-03-20   20
3  2021-04-29   50
4  2021-05-05   40

df_date_str.dtypes

# --------------------

date    object
val      int64
dtype: object

さて、matplotlibを使ってこのデータをグラフにする。そして、axvspan関数を使って、一部の背景に色を付ける……と、何やらエラーが出てきた。
axvspan関数は横軸の範囲を指定して（今回の例では、3月1日〜4月1日）、その範囲に色を付けるmatplotlibの関数である。下記のページを参考にした。
matplotlibで一定区間に背景色をつける方法 – 分析小箱

fig, ax = plt.subplots(figsize=(12,4))
ax.plot(df_date_str['date'], df_date_str['val'])
# 参考：https://bunsekikobako.com/axvspan-and-axhspan/
start_datetime = datetime.datetime(2021, 3,1)
end_datetime = datetime.datetime(2021, 4,1)
ax.axvspan(start_datetime, end_datetime, color="gray", alpha=0.3)

# --------------------

---------------------------------------------------------------------------
    TypeError                                 Traceback (most recent call last)
    /usr/local/lib/python3.8/site-packages/matplotlib/axis.py in convert_units(self, x)
       1519         try:
    -> 1520             ret = self.converter.convert(x, self.units, self)
       1521         except Exception as e:
    /usr/local/lib/python3.8/site-packages/matplotlib/category.py in convert(value, unit, axis)
         60         # force an update so it also does type checking
    ---> 61         unit.update(values)
         62         return np.vectorize(unit._mapping.__getitem__, otypes=[float])(values)
    /usr/local/lib/python3.8/site-packages/matplotlib/category.py in update(self, data)
        210             # OrderedDict just iterates over unique values in data.
    --> 211             cbook._check_isinstance((str, bytes), value=val)
        212             if convertible:
    /usr/local/lib/python3.8/site-packages/matplotlib/cbook/__init__.py in _check_isinstance(_types, **kwargs)
       2234         if not isinstance(v, types):
    -> 2235             raise TypeError(
       2236                 "{!r} must be an instance of {}, not a {}".format(
    TypeError: 'value' must be an instance of str or bytes, not a datetime.datetime
    
    The above exception was the direct cause of the following exception:
    ConversionError                           Traceback (most recent call last)
    <ipython-input-8-40d5c36b235b> in <module>
          7 end_datetime = datetime.datetime(2021, 4,1)
          8 
    ----> 9 ax.axvspan(start_datetime, end_datetime, color="gray", alpha=0.3)
    
    /usr/local/lib/python3.8/site-packages/matplotlib/axes/_axes.py in axvspan(self, xmin, xmax, ymin, ymax, **kwargs)
       1105 
       1106         # first we need to strip away the units
    -> 1107         xmin, xmax = self.convert_xunits([xmin, xmax])
       1108         ymin, ymax = self.convert_yunits([ymin, ymax])
       1109 
    /usr/local/lib/python3.8/site-packages/matplotlib/artist.py in convert_xunits(self, x)
        173         if ax is None or ax.xaxis is None:
        174             return x
    --> 175         return ax.xaxis.convert_units(x)
        176 
        177     def convert_yunits(self, y):
    /usr/local/lib/python3.8/site-packages/matplotlib/axis.py in convert_units(self, x)
       1520             ret = self.converter.convert(x, self.units, self)
       1521         except Exception as e:
    -> 1522             raise munits.ConversionError('Failed to convert value(s) to axis '
       1523                                          f'units: {x!r}') from e
       1524         return ret
    ConversionError: Failed to convert value(s) to axis units: [datetime.datetime(2021, 3, 1, 0, 0), datetime.datetime(2021, 4, 1, 0, 0)]

結果には2つの問題点がある。原因は共通で、データ型が不適切だった。

結果の問題点は2つある。

グラフの横軸が等間隔になっている（日付の間隔が違うことが考慮されていない）
axvspanのところでエラーが出た

この2つの原因は共通である。データを作るときのデータ型（dtype）がおかしかったのだ。

上でdf_date_str.dtypesを実行すると、date型はobjectと書いてある。これは（やや乱暴にいえば）文字列を入れるための型である。したがって、pandasやmatplotlibはdate列を日付（時刻）とは解釈せず、文字列として扱っている。
'2021-01-11'というただの文字で、'AAA', 'BBB' みたいな文字列と全く同じと考えれば良い。

type(df_date_str.loc[0, 'date'])

# --------------------

str

これによって、2つの問題点はいずれも説明がつく。

グラフの横軸が等間隔になっている（日付の間隔が違うことが考慮されていない）
→ただの文字列として扱っているので、matplotlibは「それぞれの日付の間隔が違う」ことを理解できない。したがって等間隔でグラフを書く。
→今回は元のデータが等間隔でないから気づいたが、元のデータが等間隔（毎日、毎週、毎月……）だと一見して気づかない。
axvspanのところでエラーが出た
→ただの文字列として扱っているので、matplotlibは「2021年3月1日がグラフ中のどこか?」を理解できない。したがってエラーを出す。

対処法：日付を扱うためのデータ型に変換する

原因は分かったので、対処法について述べる。
日付を文字列ではなく日付として扱うようにデータを作る必要がある。そのために、datetimeモジュールを使う。

datetime_list = [
    datetime.datetime(2021, 1, 11),
    datetime.datetime(2021, 2, 11),
    datetime.datetime(2021, 3, 20),
    datetime.datetime(2021, 4, 29),
    datetime.datetime(2021, 5, 5),
]

df_datetime = pd.DataFrame({
    'date'    : datetime_list,
    'val' : val_list
})

df_datetime

# --------------------

        date  val
0 2021-01-11   10
1 2021-02-11   30
2 2021-03-20   20
3 2021-04-29   50
4 2021-05-05   40

普通にdataframeを表示しただけでは、「文字列の2021-01-11」と「日付の2021-01-11」は見分けがつかない。
データ型dtypeを確認するのが重要である。

df_datetime.dtypes

# --------------------

date    datetime64[ns]
val              int64
dtype: object

type(df_datetime.loc[0, 'date'])

# --------------------

pandas._libs.tslibs.timestamps.Timestamp

date列がdatetime64[ns]となっている。
これは日付や時刻を扱うためのデータ型(dtype)である。

また、最初のDataFrame（df_date_str）から正しいデータを作り直す場合には、文字列のカラムをto_datetimeで日付型に変換する。

df_datetime2 = df_date_str.copy()
df_datetime2['date'] = pd.to_datetime(df_datetime2['date'])

df_datetime2.dtypes

# --------------------

date    datetime64[ns]
val              int64
dtype: object

df_datetimeとdf_datetime2は同じデータである。そしてdf_datetimeとdf_date_strはデータ型が違うので、見た目は一緒でも違うデータである。 df.equals を使ってDataFrameが同一のものか確認しよう。

df_datetime.equals(df_datetime2)

# --------------------

True

df_datetime.equals(df_date_str)

# --------------------

False

時系列データをのグラフで、axvspan、axvlineを使う

これで正しいグラフを描ける。

グラフの横軸が、日付の間隔を考慮したものになる
axvspanが正しく実行できる（ついでにaxvline関数も入れておいた。こちらは縦線を描く関数。）

下記のページを参考にした（再掲）。
matplotlibで一定区間に背景色をつける方法 – 分析小箱

fig, ax = plt.subplots(figsize=(12,4))
ax.plot(df_datetime['date'], df_datetime['val']) #★
# 横軸の範囲を指定して、一定区間に背景色をつける
start_datetime = datetime.datetime(2021, 3,1)
end_datetime = datetime.datetime(2021, 4,1)
ax.axvspan(start_datetime, end_datetime, color="gray", alpha=0.3)
# 横軸の位置を指定して、縦線を描く
ax.axvline(datetime.datetime(2021,2,1), color="red")

# --------------------

<matplotlib.lines.Line2D at 0x121f075e0>

pandasやmatplotlibでなんか変だなと思ったら、データ型(dtype)が期待通りになっているかを再確認したほうが良さそうだ。
dtypeについては、以前公式ドキュメントを翻訳したので、そちらも合わせて参照してください。

linus-mk.hatenablog.com

それでは。

ARC116 D問題「I Wanna Win The Game」解説

2021-04-04T00:34:39+09:00

AtCoder Regular Contest 116 D問題「I Wanna Win The Game」解説。

普段は個別問題の解説は書かない。けど、今回は本番中に解けたけど考えすぎてめっちゃ疲れたので、まとめておく。
細かい書き方はやや適当にしています。（個別の問題の解説を見に来る人はそれほど多くないだろうから、きっちり書き上げる重要性は低い）

atcoder.jp

各bitの登場回数が分かったら、何通りか分かるか?
合計Mから、各bitへの振り分けを全て考えてみよう
適切な振り分けのための条件
DP
なんで解くのに時間がかかったんだろうか

しばらくは例1を使って考える。

まず重要なのは、bit XORを考える問題は、それぞれのbitを独立に考えれば良い。あるbitの結果は他のbitの結果に全く影響しない。

例1にある

5 20  
---
(1, 2, 3, 7, 7)

を考えて、それをbitに分解する。bitごとに出現回数を見ると

4のbit→2回立っているからbit XOR = 0
2のbit→4回立っているからbit XOR = 0
1のbit→4回立っているからbit XOR = 0

となる。合計の20は、4*2 + 2*4 + 1*4 = 20と分解できる。

各bitの登場回数が分かったら、何通りか分かるか?

逆に考えると、

4のbitが、2回立っている
2のbitが、4回立っている
1のbitが、4回立っている

という数列ならば、合計は20であり、そのXORは0なので条件を満たす。

では、このような数列はいくつあるか?

4のbitの割り当て方は5C2 = 10通り
2のbitの割り当て方は5C4 = 5通り
1のbitの割り当て方は5C4 = 5通り

これをかければよく、10*5*5 = 250通りである。

合計Mから、各bitへの振り分けを全て考えてみよう

bit XORが0となる必要十分条件は、全てのbitに関して登場回数が偶数であることである。したがって、bit XORが0となるためには、合計Mは偶数でなければならない。したがってMが奇数なら答えは0だ。

いまMを偶数とする。登場回数は全て偶数なので、2で割ろう。合計もM=20を2で割った10になる。 10を各bitに振り分けるやり方をすべて書き出し、それぞれの場合の数を計算すると、以下の5通りになる。

10 = 8*0 + 4*2 + 2*1 + 1*0 → 5C0 * 5C4 * 5C2 * 5C0 = 50
10 = 8*0 + 4*2 + 2*0 + 1*2 → 5C0 * 5C4 * 5C0 * 5C4 = 25
10 = 8*0 + 4*1 + 2*2 + 1*2 → 5C0 * 5C2 * 5C4 * 5C2 = 250 （上の例）
10 = 8*1 + 4*0 + 2*1 + 1*0 → 5C2 * 5C0 * 5C2 * 5C0 = 100
10 = 8*1 + 4*0 + 2*0 + 1*2 → 5C2 * 5C0 * 5C0 * 5C4 = 50
↓
合計475

適切な振り分けのための条件

上の例では「M/2 = 10 を各bitに振り分けるやり方」を全部考えた。
一般の偶数Mの場合は、どうすれば振り分け方を全部考えられるだろうか?
いっぺんに決めるのは難しそうだ。上位ビットから決めるか、下位ビットから決めるか。上位ビットから決めることにしよう。

（N//2 は、N÷2の整数部分を表わす。）
今、振り分けるべき残りの数をrestとし、あるビット(digitと書く)にk個を振り分けたとしよう。（最終的には、N個のうち2k個の数の当該ビットを立てることになる。）

kが適切な値である条件は、以下3つである。

0以上 N//2以下である （0 <= k <= N//2）
今見ているビットよりも下位の桁に振り分けられる数は高々 (下位ビットの和) * (N//2)である。したがって、振り分けた残りがこれ以下でなければいけない。（rest - digit * k <= (digit-1) * N//2）
振り分けた残りが負になってはいけない（rest - digit * k <= (digit-1) * N//2）

DP

天下り的だが、DPを導入する。
（DPに行き着くまでの思考過程は後述する）
M/2を各bitに振り分ける。
DP[bit][rest]を、今からbitの桁に数を振り分けようとしていて、残りの数がrestであるときの、N個の数の決め方、とする。（例えばbitが3だったら2³ = 8の桁に振り分けようとしている。）

初期条件：DP[0][rest] = N C 2*rest
- 最後に1のビットに振り分けるという状態で、残った数がrestである。この場合のN個の数の決め方は N C 2*rest 通りである。
最終的な答え：DP[12][M/2]
- 振り分ける可能性のある最上位桁は、2¹² = 2048である。なぜならM/2は高々2500なので、4096以上のbitに与えたら残りが負になってしまい不適当となるからだ。
漸化式：DP[bit][rest] = SUM(DP[bit-1][rest - (2**bit) * k] * N C 2k) (kの動く範囲は、上記3つの条件を全て満たす範囲)
- 適切なkを選ぶと、それより下位のビットに振り分ける数はrest - (2**bit) * kである。今見ているbitに関しては、N個のうち2k個を選んでビットを立てる。その選び方はN C 2kである。

計算量について：
DPテーブルのマス目の個数は12 * M/2 <= 12 * 2500 = 30000
DPテーブルのマス目を1つ計算するための計算量は、正当なkの範囲なので高々 N//2 = 2500
単純にかけると75000000 = 7500万となる。厳しそうだが、kに関する他の条件により実際はこれより少ない。

なんで解くのに時間がかかったんだろうか

ここが本来書きたかったパートだわ。
Cが解けたのが40分、Dが解けたのが101分なので、61分もかかっている。これは時間がかかり過ぎたと思う。

コンテスト本番中の思考を再現すると、次のようになる。

「M/2 を各bitに振り分けるやり方」を全部列挙して、それぞれについて掛けて最後に足し合わせれば良さそう
上位ビットから順に決めれば良さそう
ということは……現在見ているビットに対して再帰関数になる?
しかも再帰を全部計算してると同じ状態を何度も計算し直すことになる。そのせいで間に合わない。
メモ化する必要がある。
メモ化再帰? メモ化再帰をちゃんと書くなんてめったに無いぞ? マジで?
あ、メモ化再帰ってことはDPと同等なのか。DPでいいのか?
DPテーブルの定義をこうやると……あ、DPでいけそう。

解法の指針がDPだということを確定するまでに時間がかかったんだと思う。

kyopro_friendsさんはメモ化再帰でやってるぽいけど。

サーバル「D問題は、奇数の個数を全探索すると、2進法の1の位は決まって、全体を2で割って小さいサイズの問題にできるよ。メモ化再帰で実装するのが簡単だね」 pic.twitter.com/bKuZF6Qcim
— 競技プログラミングをするフレンズ (@kyopro_friends) 2021年3月28日

あと、

「適切な振り分けのための条件」を考えているときは、上位ビット
しかし、DPテーブルを計算するときは下位ビットから順に計算している

というのが腑に落ちない。どこで逆転したんだ?

matplotlibが初心者に分かりにくい理由を考える

2021-03-27T12:49:47+09:00

久しぶりにmatplotlibを触ったら、やりたい処理がやりづらい……辛い……と改めて悩んでしまった。
matplotlibが分かりにくくて辛い、という理由を考察する記事である。

matplotlibが初心者にとって分かりにくいのはなぜか?
- 公式ドキュメント
英語で書かれたPythonブログでこの辺はどう論じられてきたか

matplotlibが初心者にとって分かりにくいのはなぜか?

データ分析関連でコーディングをしている中で、pandasやnumpyに関しては、自分の知識の範囲を少しずつであっても広げられている実感がある。例えば、このブログの過去の記事をいくつか見てみると、以下のような点については分かったぞ、と思える。

このあたりか。やっぱりブログにまとめると知識がしっかり定着するなぁ。
もちろん、pandas/numpyについて全てを知ることは到底無理だ。しかし、一部については「少なくともこの部分については確固たる知識を習得できた。自分の血肉となった」という自信がある。

でもmatplotlibについては、そうはならない。断片的な知識だけが俺の中にバラバラに存在している。なぜ知識が断片的になってしまうかというと、

2つのインターフェース
ArtistとかFigureとかAxesとかその辺

をまず理解しないと、何も始まらないような感覚がある。
土台が固まっていないところの上に何の知識を積んでも、砂上の楼閣になりそうというか。賽の河原みたいに、知識をいくら積み重ねたところですぐ吹き飛ばされそうというか。
matplotlibだけは、知識の習得の初手が厳しい……
譬えて言えば、「はい、ここがスタート地点です。先に進むにはまず、この3メートルの壁をよじ登って乗り越えてください。それ以外の方法では次に進めません」みたいな感じ。

そして、たまには「matplotlibの上記の土台を、ちゃんと勉強するか」と一念発起することもある。 3メートルの崖をよじ登って、ArtistとかFigureとかAxesとかその辺を理解しようとするが、それは簡単にいくものではない。と思う。で、壁からずり落ちてスタート地点から進めない、というのが俺である。

公式ドキュメント

まずは公式ドキュメントを読め。誰が書いたのか分からない、Qiitaや個人ブログの断片的な記事を読むよりも、まずは公式ドキュメントを読め。最も頼りになって信用できる資料は公式ドキュメントに決まってるからな。

……ということはよく言われる。俺もそのとおりだと思う。

上記に関するまとまった意見がないかなと思って「公式ドキュメント」でググったら、「自走プログラマー」の抜粋版のサイトがあったので載せておきます。
自走プログラマー【抜粋版】 33:公式ドキュメントを読もう

しかし、matplotlibは公式ドキュメントすら読む気がしないのは、いったい何故なんだろうか?
自分の行動を振り返ってみると、Python本体・pandas・numpy・scikit-learn・seabornは、公式ドキュメントのうち必要なところは読むわ。必要に応じてその都度読んでるわ。
しかしmatplotlib……！
読む……！
読みには行くが分かった気にならない感覚……！
分からない……！
分からないから公式ドキュメントを読みにいかなくなる……！
読みにいかなくなるからますます分からなくなる……！
無限ループ！はまっている、すでに術中……！

なんだか福本伸行っぽくなってしまった。
matplotlibだけは、公式ドキュメントすら読むのを忌避したくなる感覚がある。何故かは分からないけど。「どこに何が書いてあるか」を把握できてないのかな?

英語で書かれたPythonブログでこの辺はどう論じられてきたか

「why matplotlib is hard to understand」とか「matplotlib confusing」とかで検索してみたら、Python関係の英語の技術ブログが見つかった。

Practical Business Python: 「Effectively Using Matplotlib」

Pythonのデータ分析関連ではよく見かける「Practical Business Python」の記事だ。
https://pbpython.com/effective-matplotlib.html

「Why all the negativity towards matplotlib?」の章で、matplotlibが分かりにくい3つの理由が挙げられている。その筆頭が「2つのインターフェース」である。これはもっともだと思う。以下に引用する。

First, matplotlib has two interfaces. The first is based on MATLAB and uses a state-based interface. The second option is an an object-oriented interface. The why’s of this dual approach are outside the scope of this post but knowing that there are two approaches is vitally important when plotting with matplotlib.
The reason two interfaces cause confusion is that in the world of stack overflow and tons of information available via google searches, new users will stumble across multiple solutions to problems that look somewhat similar but are not the same. I can speak from experience. Looking back on some of my old code, I can tell that there is a mishmash of matplotlib code - which is confusing to me (even if I wrote it).

拙訳：第一に、matplotlibには2つのインターフェースがある。1つ目は、MATLABに基づいた、状態ベースのインターフェースである。2つ目は、オブジェクト指向のインターフェースである。この2つの方法がある理由についてはこの記事が扱う範囲の外であるが、しかしmatplotlibに2つの方法があると知っていることは、matplotlibを使って図を描く上で極めて重要である。
この2つのインターフェースは混乱の元となる。その理由は、StackOverflowがあってグーグル検索をすれば大量の情報が得られる世界で、初心者がある問題に対して複数の解決法を見つけてしまい、それらがある程度似ているのに同じではないからだ。これは私個人の経験からいってもそうだ。私が昔書いたコードを見返すと、（私自身が書いたのに）自分で読んで分かりにくい、ごちゃ混ぜになったmatplotlibコードが確実にあるのだ。

「matplotlibが分かりにくい3つの理由」のうち残りの2つについて。2番目が「デフォルトのスタイルの選択肢の中には、かなり見栄えが悪いものがある（訳注：見た目がきれいでなくて格好悪い、という話）」であった。そして3番めが「図を描くときに、純粋なmatplotlibを使うべきか、pandasやseabornのようなmatplotlibの上層にあるツールを使うべきかに関して分かりにくいこと。」であった。

「分かりにくい理由」を説明した後には具体的なコードを使って書き方の説明をしている。
書き方の説明の部分は、後に改稿してmatplotlibの公式ドキュメントに取り込まれている！
https://matplotlib.org/stable/tutorials/introductory/lifecycle.html

余談であるが、matplotlibに2つの方法がある話は極めて重要である。したがって、matplotlibについてのある程度の量がある記事・本などで、重要な「2つのインターフェース」の話に触れていないものは、matplotlibをロクに分かっていない人が書いたものである可能性が高いと考える。
少なくとも、私が見てきた秀逸な本やネットの記事は、例外なくこの「2つのインターフェース」の話に言及している。

以下の記事も参照。初めて「2つのインターフェース」を俺が知ってビックリしてメモに書いたものだけど。
メモ：Matplotlibのグラフの書き方が2通りある話 - 子供の落書き帳 Renaissance

Real Python 「Python Plotting With Matplotlib (Guide)」

Python関係の英語の技術ブログをもう1つ見てみよう。 Real Python による「Python Plotting With Matplotlib (Guide)」という記事である。
https://realpython.com/python-matplotlib-guide/

Why Can Matplotlib Be Confusing?

The library itself is huge, at something like 70,000 total lines of code.

Matplotlib is home to several different interfaces (ways of constructing a figure) and capable of interacting with a handful of different backends. (Backends deal with the process of how charts are actually rendered, not just structured internally.)

While it is comprehensive, some of matplotlib’s own public documentation is seriously out-of-date. The library is still evolving, and many older examples floating around online may take 70% fewer lines of code in their modern version.

拙訳： 1. ライブラリ自体が巨大であり、合計で約70000行もコードがある。 2. matplotlibにはいくつかの異なるインターフェース（図を描く方法）が存在する。少数の異なるバックエンドと相互作用することができる。（バックエンドは内部的な構成だけではなく、どのように図を実際に描画するかという過程も取り扱う。） 3. matplotlibの公式ドキュメントは広範囲にわたるが、その中には非常に古くなったものも存在する（例）。このライブラリは今も進化を続けていて、ネット上に出回っている古い例の中には、新しいバージョンのコードで書き直せば行数が70%少なくなるものもある。

matplotlibって実は変化が激しいのか? あんまりそんな印象は無いんだけど。

stackoverflow: 「Understanding matplotlib: plt, figure, ax(arr)?」

https://stackoverflow.com/questions/35677767/understanding-matplotlib-plt-figure-axarr

Understanding matplotlib: plt, figure, ax(arr)?

The matplotlib documentation is rather confusing to me. When one searches something really specific, like rescaling a legend, different plot markers and colors and so on the official documentation is really precise but rather general information is not that good in my opinion. Too much different examples, no real explanations of the purposes...looks more or less like a big listing of all possible API methods and arguments.

拙訳：matplotlibのドキュメントは、私にとってかなり分かりにくいです。本当に具体的なものを検索するとき、例えば凡例を拡大縮小するとか、プロットのマーカーや色を変えるとかですが、公式ドキュメントは非常に正確です。しかしもっと一般的な情報については私の意見ではそれほど良いものではありません。あまりにも多くの異なる例があって、その目的の説明も無いのです。まるで、全部のAPIのメソッドと引数を巨大な一覧表にしたように見えます。

っていう感じで「やっぱmatplotlibは知識習得しづらいわ」と悩む記事でした。いつかは「matplotlibの根幹をちゃんと理解したわ」っていう記事が書ければ良いんだけど、いつになることやら。

再度書いておくけど、知らなかった人は「matplotlibに2つのインターフェースがある」ことだけは覚えて帰ったほうが良いと思います!

linus-mk.hatenablog.com

クラスタリングの結果を、変数の値に従ってソートする

2021-02-14T15:09:35+09:00

今回の記事の主題は、
クラスタリングの結果（ラベル、番号）を、ある変数の値の順序に従って並び替えるにはどうすればよいか？
という話である。
……しかし、こう書いただけで何のことか分かる人は多分少ないだろう。だから順を追って説明していく。まずは、今回の問題が起きるクラスタリングの例を作ろう。

クラスタリングの例：2変数・5クラスターのデータをクラスタリングする
クラスタリングのラベルを、ある変数の値の順序に従ってソートする方法

クラスタリングの例：2変数・5クラスターのデータをクラスタリングする

クラスタリングの対象となるデータの例を適当に作ろう。 scikit-learnのmake_blobを使って中心を指定し、2変数・5クラスターのデータを作成する。

import pandas as pd
import seaborn as sns
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。
import sklearn
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 動作環境の確認
print(pd.__version__)
print(sns.__version__)
print(sklearn.__version__)

# --------------------

1.1.2
0.11.0
0.24.1

sns.set_style('whitegrid') # seaborn見た目の変更。グラフ内にグリッド線を表示する

random_state = 123

# 例示用にクラスタリングするデータを作成する
center_coordinates = [[0, 0], [1, 2], [3, 1], [2, 3], [4, 4]] 
n_clusters = len(center_coordinates)
X, y = make_blobs(n_samples=30*n_clusters, centers=center_coordinates, n_features=2, cluster_std=0.3, random_state=random_state)

データの様子を散布図にしよう。今回はseabornを使う。

df = pd.DataFrame(data=X, columns=['x1', 'x2'])

ax = sns.scatterplot(x='x1', y='x2', data=df)
ax.set_aspect('equal') # グラフの縦横比を同じにする 参考：https://xnn.sakura.ne.jp/blog/2019/07/match-the-scatterplot-grid-width-in-matplotlib/

期待通りに5つのクラスターができていることが見えた。

このデータをk-meansでクラスタリングし、結果を出力しよう。 *1

y_pred = KMeans(n_clusters=n_clusters, random_state=random_state).fit_predict(df)

df['y_pred'] =  y_pred

df.head()

# --------------------

         x1        x2  y_pred
0  4.190783  4.085381       0
1  1.917537  2.575175       2
2  1.771612  3.001094       2
3  0.992612  2.010243       1
4  1.925955  3.020636       2

ちょっと話が脇道に入るが、クラスタリングの結果、出力、番号、所属……これをなんと呼ぶか、呼び方に困るんだよね。scikit-learn公式のk-meansの説明によると、

labels_ ndarray of shape (n_samples,)
Labels of each point

と書いてあるので、「クラスタリングの結果、出力、番号」「各点がどのクラスタに分類されたか」を以降ではラベルと呼ぶことにする。

では本題に戻ろう。ラベルによって色を分けて、クラスタリングの結果を散布図にしよう *2 。

ax = sns.scatterplot(x='x1', y='x2', hue='y_pred', data=df, palette='colorblind')
ax.set_aspect('equal')

scatterplotで散布図ができた。しかし、この散布図には問題がある。
散布図の上で、ラベル0と1が近い、ラベル3と4が近いというわけではない。クラスタリングのラベルはクラスタ間の近さを考慮して付くわけではないからだ。どういう規則でラベルの番号がついているかは正直謎だが。
（予想：K-meansを使う場合、最初にランダムな点を取るので、それによって最終的なクラスターの番号が決まるんじゃないか? つまり初期の点の位置を決める乱数次第?）

しかし見づらい場合がある。クラスター番号に規則性が無いので、0番がどこで1番がどこで、と探すのが大変だ。今回は5クラスターだからいいけど、もっとクラスター数が多い場合は探すのが大変になる。

クラスタリングのラベルを、ある変数の値の順序に従ってソートする方法

前提条件を説明するのが遅くなったが、ここまで今回の記事のための問題設定は完了である。

クラスタリングのラベルを、ある変数の値の順序に従って並び替えるにはどうすればよいか？

より正確にいうと、今回は、

x1の平均が最も小さいクラスターがラベル0
x1の平均が2番目に小さいクラスターがラベル1
……

になるようにクラスターのラベルを振り直したい、としよう。（他の変数、昇順／降順の場合も同様である）

結論から言うと、このようにすれば良い。

df['y_pred_sorted'] =  df['y_pred'].replace(
    df.groupby('y_pred')['x1'].mean().sort_values().index,
    range(n_clusters)
)

正解を一気に書くと結構長いけど、pandasにある程度慣れていればそこまで難しい話ではない。

ラベルが入ったy_pred列の数値を、ある規則によって置換すれば良さそうだ。これにはreplace関数を使えば良い。

置換したい対称は、df['y_pred']の一列だけなので今回はSeriesに対するreplace関数となる。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.replace.html

置換の指定方法は色々あって、ドキュメントを見ると細かく書いてある。今回は、list（状のもの）で指定する方法を使う。

「各クラスターのx1の平均値はいくつか」は df.groupby('y_pred')['x1'].mean() で求まる。
したがって、これをsort_valuesで昇順に並び替え、最後にindexを取れば「クラスターのラベルを、クラスター内のx1の平均値が小さい順に並び替えたもの」が得られる。

あとは置換後のリストとしてrangeを指定すれば、「置換前のリストと置換後のリスト」が求まる。これをreplaceの引数に入れれば完成である。

最後に、もう一度seabornで散布図を描いてみよう。

ax = sns.scatterplot(x='x1', y='x2', hue='y_pred_sorted', data=df, palette='colorblind')
ax.set_aspect('equal')

クラスターが、散布図で左から順に0, 1, 2, ……と並んでいる。 x1の平均値が小さい順にクラスター番号を振り直せたことが確認できた。

*1:クラスタリング自体は今回の記事においてそれほど重要ではない。したがって「手法としてk-meansを使う理由」は例を簡潔に説明するために一番シンプルな手法を選んでいるからです。「正解のクラスター数を知っている理由」もクラスタリングを簡単に済ませたいからです。

*2:余談：xとyを「機械学習における説明変数がX、目的変数がy」として使っている箇所と、「散布図（scatterplot）を描くときの横軸方向がx、縦軸方向がy」として使っている箇所があるけど、大丈夫だよね?
最初は'cluster_index_pred' という列名にしたけど、scatterplotの凡例が場所を取りすぎて汚くなったのでy_predに変えた。

新型コロナウイルスの「ステージ」とは何か? 分かりにくかったので調べてまとめた

2021-01-04T15:24:34+09:00

新型コロナウイルスの話で使われている、ステージ3とか4とかいう概念が意味不明すぎる、という話。

私は暇さえあればインターネットばかり見ているような人間だ。私の知る限り、インターネットの世界では、2020年6月に出ていた「東京アラート」については否定的な意見が多かったように思う。「都庁を光らせたいだけだろ」「都民に何をしてほしいのか不明」みたいな意見が見られた。

ただ、この「ステージ」については否定的な意見がそれほど多くない。いや、肯定的な意見も否定的な意見も無い気がするので、誰も注目していないのかもしれない。でもニュースとかだと結構出てくるんだよね。調べてまとめてみたら、意味がよく分からないところが多かった。

注意事項、免責事項
「ステージ」という概念は、いつ誰が言い出したのか?
どのステージなのかの判断は、指標から自動的に決まるのか?
「この県はステージいくつです」を誰が決めるのか?
分科会がステージを判断してはダメなの?
ステージという概念はどの程度活用されているのか?
各都道府県はステージいくつなのか?
- ステージ3
- ステージ2
分科会の「お願い」は一体誰に向けたお願いなのだろうか?
ここまでの感想
参考リンク

注意事項、免責事項

私は報道関係者でも医療関係者でも行政関係者でもなく、一介のエンジニアです。

本記事の内容については細心の注意を払っておりますが、コンテンツの内容が正確であるかどうか、最新のものであるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。また、執筆者は通知することなく本記事に掲載した情報の訂正、修正、追加、中断、削除等をいつでも行うことができるものとします。
また、本記事のご利用により、万一、ご利用者様に何らかの不都合や損害が発生したとしても、執筆者は何らの責任を負うものではありません。

厚生労働省などの資料では「ステージIII」のようにローマ数字を使っていますが、本記事では「ステージ3」などの算用数字表記で統一します。ニュースとかで見るときは、ほぼ全部算用数字だし。

「ステージ」という概念は、いつ誰が言い出したのか?

Q. 「ステージ」という概念は、いつ誰が言い出したのか?
A. 2020年8月7日、政府の新型コロナウイルス分科会が提唱した。

https://www.cas.go.jp/jp/seisaku/ful/yusikisyakaigi.html
「新型コロナウイルス感染症対策分科会」の「令和2年 8月7日第５回資料今後想定される感染状況と対策について」で、このステージという用語が書いてある。ここで「ステージ」という概念が初めて登場したのだと思う。

ステージ3
感染者の急増及び医療提供体制における大きな支障の発生を避けるための対応が必要な段階
ステージ2と比べてクラスターが広範に多発する等、感染者が急増し、新型コロナウイルス感染症に対する医療提供体制への負荷がさらに高まり、一般医療にも大きな支障が発生することを避けるための対応が必要な状況。

ステージ4
爆発的な感染拡大及び深刻な医療提供体制の機能不全を避けるための対応が必要な段階
病院間クラスター連鎖などの大規模かつ深刻なクラスター連鎖が発生し、爆発的な感染拡大により、高齢者や高リスク者が大量に感染し、多くの重症者及び死亡者が発生し始め、公衆衛生体制及び医療提供体制が機能不全に陥いることを避けるための対応が必要な状況。
（今後想定される感染状況と対策について p.3よりなおローマ数字は算用数字に直した）

7月31日段階で、分科会は「（1）感染ゼロ散発段階（2）感染漸増段階（3）感染急増段階（4）感染爆発段階」という4段階に分けることを提案している（https://news.yahoo.co.jp/articles/7144a4abf31c94a588b8bc20cabc7e4ec9f1ec74）。具体的な指標と基準値を定めたのが8月7日だな。

どのステージなのかの判断は、指標から自動的に決まるのか?

Q. どのステージなのかの判断は、指標から自動的に決まるのか?
A. いいえ。各指標の数値はあくまで「目安」であり、どのステージなのかは総合的に判断する。

ただ尾身会長は、こうした数値はあくまで「目安」であり、1つでも数値が基準値を超えたら機械的に次のステージに移行するわけではないと強調。「指標は国、地方公共団体が総合的に判断するための目安であり、地域の実情に合わせた対策を講じる」必要があると説明した。 https://news.yahoo.co.jp/articles/6aca60a0f5e781f2a732e86c5173632dbfaa52a7

「この県はステージいくつです」を誰が決めるのか?

Q. では、「この県はステージいくつです」を決めるのは誰か?
A. おそらく、都道府県と国

分科会の「令和2年 8月7日第５回資料今後想定される感染状況と対策について」資料より。

提案する指標は「あくまで目安」であり、また、一つひとつの指標をもって機械的に判断するのではなく、国や都道府県はこれらの指標を「総合的に判断」して、感染の状況に応じ積極的かつ機動的に対策を講じていただきたい。
（今後想定される感染状況と対策について p.4より）
以下の指標は目安であり、また、これらの指標をもって機械的に判断するのではなく、国や都道府県はこれらの指標を総合的に判断していただきたい。
（今後想定される感染状況と対策について p.5より）

この資料を読むと「国や都道府県は」と、国と都道府県を並列に並べて判断主体にしている気がする。

しかし、都道府県知事、と単に書いてある記事もある。うーん、よく分からない。

Q：誰がどうステージを決めるの？
都道府県のステージを判断するのは、各々の知事という立て付けになっています。
https://news.yahoo.co.jp/articles/6aca60a0f5e781f2a732e86c5173632dbfaa52a7?page=2

分科会は「指標はあくまで目安」とする。尾身氏は「現場を知っているのは知事さん。知事が主体的にやるべきだ」と判断を都道府県に委ねた。
https://www.tokyo-np.co.jp/article/47720

これまで、どの都道府県もステージ2以下とみなされてきた。11月に入って北海道や東京都などでは、分科会が示したステージ3の六つの指標のうち多くで上回るが、判断は知事に委ねられ、分科会のステージに即した対策の議論は進んでいなかった。 https://www.asahi.com/articles/ASNCN6QCWNCNULBJ01P.html

分科会がステージを判断してはダメなの?

Q. 分科会がステージという概念を作ったんでしょ? 分科会がステージを判断しちゃダメなの?
A. 分科会が「個人的な意見」としていくつかの都道府県を挙げたことはある。しかし、分科会は判断するのは都道府県と国だという姿勢であり、分科会が判断することに対して否定的だ。

各都道府県を名指しで挙げたことはある。11月20日の新型コロナウイルス対策分科会の会見だ。分科会が判断するわけではないから、専門家の個人的な意見だけど、という留保がついている。

「（中略）現在の感染状況を考えれば、いくつかの都道府県でステージ3相当と判断せざるを得ない状況に、早晩至る可能性が高いとわれわれは判断している」と述べ、厳しい状況の地域が複数あるとの認識を示した。質疑で具体的な都道府県名を問われると「専門家としての個人的な意見」と前置きしたうえで「北海道の札幌はステージ3に入っているんじゃないか。東京や大阪などはステージ3に近づきつつある」と言及した。
https://news.yahoo.co.jp/articles/57194ece0c8ecb6f4b7746d7fac2ded63e1d2513

その後、11月25日の新型コロナウイルス対策分科会の会見でも、同様に留保をつけつつ地域名を挙げている。

その地域がどのステージに相当するかを判断するのは「都道府県が政府と連携してやる」ことで、「判断するのは我々の仕事ではない」と述べた。
しかし、記者からさらに具体的な地域名を求められると「（分科会としての）判断ではない」と断ったうえで、「おそらく札幌は（入る）。それから島しょは別だが、23区も。東京の場合は、以前は一部地域だったけど23区を中心に感染が、ほとんどの地域に拡散している。あとは、これも名古屋市もそう（ステージ3相当）じゃないか。大阪市なんかもそれだとわれわれは考えている」と語り、札幌市、東京23区、名古屋市、大阪市が該当するとの見解を示した。
https://news.yahoo.co.jp/articles/8f973cdbbf30ff3b5aefedceb8b1cdad781cd9dd

ただ、分科会はステージの判断に対して「あくまで参考」という立場を崩していないようだ。
12月11日の会見では、記者が「分科会がステージ判断をした方がよいのでは」と質問したのに対して、分科会の尾身会長が否定している。「ステージを判断するのは、分科会の役割ではないから」という理由のようだ。

（12月11日の会見では、ステージ3を「減少」「高止まり」「拡大継続」という3つの「シナリオ」に分割する話があった。が、この「シナリオ」という話は、ステージ分類に輪をかけてよくわからないので、この記事では大きく扱わない）

その地域の感染状況がどのステージに該当するかのステージ判断は、都道府県知事と国が連携して決めることになっている。前述の通り、分科会はステージ3相当の地域ではGo Toトラベルを一時停止することを求めているが、Go Toトラベルからの除外を検討する局面で国と自治体の間でボールを投げ合うようなケースもあった。
　会見では、むしろステージ判断自体を専門家が主導する方が早いのではないかとの質問も出たが、尾身会長は役割分担の明確化を挙げて反論した。
「分科会（の役割）は対策を提案することで、実行するのは我々の仕事ではない。ここが専門家と政府の役割（分担）で、そのことが曖昧になったのが当初の専門家会議」
さらに言葉を強めて続けた。「ステージ3というのは、こういう状況を言うと（分科会は）ここまで示している。普通にやればステージ2なのかステージ3なのか分かるような書き方を（している）。自治体と国は、都道府県民・国民のために今まで以上の英断を、決断、判断をしてほしい」 https://news.yahoo.co.jp/articles/f793ea3f22baa81eb02e2f82f11574522a1c2000?page=2

分科会のこの日の記者会見では、政府や都道府県ではなく、分科会がステージ判断をした方がよいのでは、という質問が出たが尾身茂会長は否定した。
今春の「第１波」の際、医学的見地から対策を助言した「専門家会議」は「政府との役割分担が曖昧」と批判を浴び、現在の分科会に衣替えした。政策決定には踏み込まないようにしており、尾身会長は「知事が早く判断していただきたい。早めに手を打ってください」と訴えた。
https://www.tokyo-np.co.jp/article/73854

ステージという概念はどの程度活用されているのか?

Q. このステージという概念はどの程度活用されているのか?

A. 都道府県が独自に警戒レベルを作っているところが多く、分科会の定めるステージを活用している都道府県はそれほど多くない。 ただ分科会は基本的に「ステージ」を使って話をしていると思う

各都道府県が「どのような指標や警戒レベルを使っているか」については日経の記事がよくまとまっていた。
https://www.nikkei.com/article/DGXZQODG115Z7011122020000000

国はこの「ステージ1〜4」、北海道は独自の「ステージ1〜5」、東京は「管理状況と医療提供体制について、それぞれ4段階」などなど。都道府県によって使うレベルはバラバラなのだ。

ただ、分科会がコメントするときは基本的に「ステージ2」「ステージ3」という概念を使って話をする。例えば、Go To トラベルとの関係だと、「ステージ3」ならGo Toは中止（尾身氏「ステージ3地域、GoTo停止を」　衆院厚労委／感染急拡大ならＧｏＴｏ停止も　コロナ「大流行に最大警戒」―政府）、「ステージ2」ならばGo Toを再開してもよい（ステージ２なら事業再開　ＧｏＴｏ一時停止で―尾身氏）と発言している。

政府の新型コロナウイルス感染症対策分科会の尾身茂会長は１７日の参院内閣委員会の閉会中審査で、年末年始に全国で一時停止する国の観光支援事業「Ｇｏ　Ｔｏ　トラベル」に関し、東京都や大阪市の状況が感染の漸増を示す「ステージ２」まで改善すれば、全国で事業を再開しても問題ないとの考えを示した。
https://www.jiji.com/jc/article?k=2020121700972&g=pol

では、それぞれの都道府県はどこのステージなのか、を知りたくなるだろう。それが次の問題だ。

各都道府県はステージいくつなのか?

Q. 各都道府県はステージいくつなのか?
A. 一覧は無い。

「この都道府県は現在ステージいくつ」という一覧表はあるかなと探したが、見つからなかった。

ステージ3

「ステージ3と判断した」という地域は探した限り以下の通りである。（判断した日付の順に並んでいる）

北海道札幌市ステージ3 2020年11月24日 (http://www.pref.hokkaido.lg.jp/ss/ssa/koronataisakukaigi.htm →「第２７回】　令和２年１１月２４日（火）開催資料１国のステージ３相当の判断について」)
埼玉県ステージ3 2020年12月28日 (https://www.tokyo-np.co.jp/article/77173)
神奈川県ステージ3 2020年12月30日 (https://www.yomiuri.co.jp/national/20201230-OYT1T50197/)

最も感染者数が多い東京はいくつなのか? 「コロナステージ東京」で検索したけど、「東京都はステージいくつです」と判断したという記述は無かった。（尾身会長は東京都をステージ3相当だと述べているけど、それはあくまで参考意見である。）
ところで、2021年1月2日には東京都などが政府に対して緊急事態宣言を発出するよう要請した。ステージ分類の資料では、ステージ4では「緊急事態宣言など、強制性のある対応を検討せざるを得ない（今後想定される感染状況と対策について p.8より）」と書いてある。ということは、東京都はステージ4に入っているか、入りそうになっているか、そのどちらかの状態だろう。しかし東京都自身は、現在に至るまで、ステージ3だとも4だとも明言していない。ここまで考えると、東京はこのステージという概念をほぼ無視している、と考えるのが妥当な気がする。

なお2020年12月9日の時点では、ステージ3に該当すると判断された都道府県は無いらしいです。

加藤勝信官房長官は9日の記者会見で「現時点でステージ3に該当すると判断された都道府県はないと承知している」と話した。
https://www.nikkei.com/article/DGXZQOFS098U30Z01C20A2000000

ステージ2

また、ステージ2に該当すると判断した都道府県は探した限り以下の通りである。

広島県ステージ1→2 2020年11月30日(https://www.pref.hiroshima.lg.jp/soshiki/19/covid19-stage.html)
静岡県ステージ2で据え置き（ステージ2にギリギリでとどまっている状態） (https://mainichi.jp/articles/20201202/ddl/k22/040/119000c)

なお調べている中で興味深い記事があった。神奈川県の状況について記した東京新聞の記事だ。記事の日付は2020年12月22日なので、上記の「神奈川県ステージ3」よりも前だ。「複数の県幹部が「ステージ引き上げに強く反対したのは、政府と横浜市だ」と断言した」らしい。
12月14日に、政府はGo To トラベルを全国一斉に一時停止することを決定している。12月14日より前に神奈川県を「ステージ3」に引き上げようとすると、そこだけGo To トラベルを停止する必要があるはずだ。

十一月以降、感染状況を表す七指標のほとんどが「ステージ３」（感染急増）に達しても、ステージ引き上げは判断しなかった。（中略）
「強いメッセージを出して感染増を抑える」ことを重視する知事が、最も端的に危機感を伝えられる「ステージ引き上げ」をしないのは、どう考えても異様だった。（中略）
ステージを引き上げなかった事情を問われた知事は「じくじたる思い」「県と国、政令市が一枚岩にならないといけない」と話した。思い切った判断ができない背景に、政府や政令市の意向があることを強くうかがわせた。横浜市は認めていないが、複数の県幹部が「ステージ引き上げに強く反対したのは、政府と横浜市だ」と断言した。
https://www.tokyo-np.co.jp/article/75853

分科会の「お願い」は一体誰に向けたお願いなのだろうか?

分科会の最新の資料は、「第19回資料現在直面する３つの課題」という2020年12月23日の資料である。
この中の19〜24ページには「皆さんへのお願い」が書かれている。その中でp.23を見てみよう。

シナリオ3の地域の皆さんへ
（中略）そのため、シナリオ３の地域では、年末年始に向けて、次のことをお願いします。 1. 忘年会・新年会は基本的に見送ってください。 2. 帰省（とりわけ感染地域とそれ以外の地域での往来）も、ご家族と相談の上、控えることや延期・分散も含め慎重に検討してください。
3. イルミネーションについては早めの消灯。カウントダウンイベントなどについてもオンラインを活用した形で開催。いずれにしても混雑する時間は避けることなどをお願いします。

ああ、「シナリオ3の地域の皆さん」は忘年会新年会をやるなという要請を分科会もしてたんだ。知らなかったわ。
3はイルミネーションやイベントの主催者に向けたお願いだろう。1、2は一般市民へのお願いだろう。お願いする相手が違うものを一緒くたに載せるのはどうなのかと思うのだけど。それよりも問題なのは、お願いする相手が誰なのか不明だという点である。

これは、ステージ3（感染急増）の中のシナリオ3（拡大継続）の地域の住民に対して分科会がお願いした事項である
ステージやシナリオの判断は「国と都道府県が連携して」やってくれ、と分科会はいう
少なくともこの時点（12/23）でステージ3と宣言したのは北海道札幌市だけ
さらにステージ3の中でどのシナリオだと宣言した地域はない（私の知る限り）
じゃあこれは一体誰に向けたお願いなのだろうか?????

ここまでの感想

乱暴にまとめると、下みたいな感じの理解で良いのかな? 分科会と国と都道府県が全てバラバラに動いているのが分かった。分科会は「ステージ」という概念に立脚して話をしようとしている、しかし「ステージ」は多くの都道府県が採用していないので、根無し草のような議論になってしまう。話が噛み合ってないというわけだ。

分科会「どのステージなのかは、都道府県が国と連携して判断してね」
都道府県「いや、うちはこの独自基準で運用するんで。国のステージは分かりにくいから、使わなくていいや」
国「都道府県が何も言ってこないから、ステージ3の地域はありません」
分科会「ステージ3の地域ではGoToは中止すべき」
俺「それはどこだよ」
分科会「いや、ステージ3を判断するのは都道府県と国だけど」
分科会「ステージ3の中のシナリオ3の地域の皆さん！忘年会と新年会はやめてください！」
俺「だからそれはどこだよ」
分科会「いや、ステージとシナリオを判断するのは都道府県と国だけど」

結局、「ステージ」がどういうふうに使われているか、を考えると、あれだわ。ニュース番組や情報番組が「各都道府県でステージ3と4の指標をこんなに上回っています! 東京も! 大阪も!」って表にまとめている。テレビを見た人が「ふーん、感染が拡大してるね、医療が逼迫してるね」って理解する、そのときだけ使われている気がする。個人的には、ステージという概念は何かの意思決定の判断根拠にはなってはいない、という理解である。

参考リンク

素人がまとめたものよりも、新型コロナウイルス「ステージ」に関するちゃんとした記事を見たいという人は、以下の記事をご覧ください。

【Q&A】新型コロナ報道で耳にする「ステージ」って何？ 2020年10月13日の記事。

【Q＆A】コロナ分科会が提言。“ステージ3地域”の「3つのシナリオ」とは？ 2020年12月12日の記事。分科会が新たに言い出した「シナリオ」の話。

新型コロナ対応の目安、「ステージ」とは 2020年12月7日の記事。リンクで飛ぶと「会員限定です」と書いてあって記事が見られないが、Google検索からだと記事内容を閲覧できる。

政府の新型コロナ分科会新型コロナ各地で異なる“ステージ”分け 2020年11月17日の記事。

新型コロナ　感染状況のステージと６指標毎週金曜日に厚生労働省が「各都道府県の指標の値」をまとめている。それを見やすくしたのがこのYahoo内の表である。ステージ3や4の指標を超えた地域には色を付けている。

AtCoder青になりました

2020-12-17T01:02:50+09:00

AtCoderで青になりました、というAtCoder色変記事である。

手短に自己紹介
レート推移、各種進捗のグラフ
時系列的なもの。
ライブラリ一覧
pythonで競技プログラミングをやることについて
- python のいいところ悪いところ
いわゆる精進について
ABCとARCのどちらが得意か把握しよう
水色〜青が最近難しすぎる話
今後の目標
競技プログラミング関係の他の記事

手短に自己紹介

AtCoder ID Linus で活動している（ハンドル名の由来はリーナス・トーバルズではなく、スヌーピーのキャラクターであるライナス・ヴァン・ペルトである。）
30代社会人エンジニア（データ分析系）
Pythonで競技プログラミングに参加
AtCoderとGoogle Code Jamのみ登録し参加している
得意はその場で色々考察する系。あとDP。
苦手はグラフ全般。

ちょっと前は水色で「競技プログラミングをそこそこしっかりやり込んでいる」と言えた気がするけど、競技人口が増えたせいか青色が目立つようになって、青色がそのポジションになった感がある（個人の感想です）。
あとは「数学が得意なタイプだと、この一つの上の青色に行きますが。（AtCoder（競技プログラミング）の色・ランクと実力評価、問題例）」って書かれてたから数学が得意な人間としては青に行っておきたかったのよね。
なので青に上がれて一安心している。

この記事は
Competitive Programming (1) Advent Calendar 2020 - Adventar
の16日目の記事です。

レート推移、各種進捗のグラフ

色辺記事の定番である。レート推移と、各種進捗のグラフを見てみよう。

レート推移

見ての通り、初めて青になったのは2020年3月である。ではなぜこのタイミングで書いているのか? というと、以下のような理由である。
青になる前後で、「青になったら一つの節目として振り返り記事を書こうかな。でも青になって『青色になりました』を書いて、すぐ水色に落ちるのは嫌だな。3回くらい連続で青なら、胸を張って青と言っていいかな」と考えていた。
そうしたら1回目も2回めも直後で水色に落ちたんだよね!
晴れて今回、2020年11月28日のAtCoder Regular Contest 109で3連続青になったので、自分の考えていた「書くための条件」を満たしたので、このタイミングで書いているというわけだ。

AtCoder Problemsの各種進捗状況

問題を解いている状況を示すために、AtCoder Problemsの画像を色々貼る。

上記だと「何点の問題をどれだけ解いたか」はわからないのね。
というわけで、AtCoder Scoresからもう2枚貼る。

解いた問題数×レートのグラフ

atcoderでどのくらい精進すれば色が良くなるか気になったので、JPユーザー全員を精進ポイント対レートで2dプロットしました pic.twitter.com/Mh02IHVLAK
— なぎた (@nagitausu) 2019年7月4日

横軸(rated score sum)140000, 縦軸1600を見ると……あれ、成長遅い方（同レーティング内では解いたrated score sumが多い）なのか?

（鍵RT from @e869120 ）
何問解いたら何色になれるか、精密に検証してみたところ、60% の人が達成するラインは、

青：1120 問
黄：1510 問
橙：1910 問

ということが分かりました。また、「1 問解けばレート 1 上がる」という衝撃の事実も判明しました。

※自由に拡散・使用して良いとのこと pic.twitter.com/iaOwzFoMeR
— ひゅ〜Men (@men_cotton) 2020年1月17日

これだと「解いた問題が550問で青以上に上がれるのは30%くらい」なので、解いた問題の割には早めに青を達成できたと自認していたんだけど。

アルゴリズムのスクールに通ってたので

東京大学の工学部計数工学科→情報理工学系数理情報学専攻という経歴であった。授業の中で計算量とか各種アルゴリズムとか叩き込まれるので。（例えばダイクストラやワーシャル・フロイドは授業で扱う。）あと数学得意系の人生をしていたので。

普通に企業とかで超優秀って言ってるプログラマが居た時に、半分くらいはこのランクになると思います。数学が得意なタイプだと、この一つの上の青色に行きますが。
http://chokudai.hatenablog.com/entry/2019/02/11/155904

数学が得意なタイプなので青に行きたいんじゃ！と思っていた。

時系列的なもの。

大学（学部）に在学中、ICPCについて書かれた「目指せ!プログラミング世界一―大学対抗プログラミングコンテストICPCへの挑戦」を買って「へーこんなのがあるんだ」と思ったけど、何していいかわからなかったから何もしなかった。
「何をしていいかわからない」から脱出できたのはAtCoderのおかげである。
水色に乗せる。
2018年は何かめんどくさくなって離れた（特に明確な理由はない）
2019年はじめに転職活動して、コーディング面接を受けたときに「やっば、コード書く力が全然無くなってる。Pythonの実装力を鍛えよう」と思い、競プロに復活した。
2019年7月に前職退職時の有給消化でやり込む
2019年7月にパソコンが壊れて萎える
実家のPCでやってたけど、Kiが解けなくて萎えて離れる
2020年1月にMacBook Proを買い、自由にパソコンが使えるようになり、やり込めるようになった。競技プログラミングのレートを上げるためには自分用のパソコンを買うのがオススメです（冗談）。
3月に初めて青になるが、次のコンテストで水色に落ちる
5月に再び青になるが、次のコンテストで爆死して水色に落ちる
8〜9月に水色diffや青diffの問題に注力して解く
10月に三たび青になる

ライブラリ一覧

色変記事を書くときにはとりあえず履修したアルゴリズム一覧を書けという慣習がありますね。俺も慣習に倣って書いてみよう。ライブラリのフォルダの中にあるアルゴリズムは以下の通りである。

二項係数（を10⁹+7で割った余り）の計算
Union-Find
整数の素因数分解関連
二部グラフマッチング
Binary Indexed Tree（BIT）
Longest Increase Subsequence（LIS、最長増加部分列）
ワーシャル・フロイド

あと、幅優先探索・深さ優先探索が出た場合は過去の問題のコードを適当に検索して書き換えて出している（ライブラリにまとめてはいない）。

これらの中で、重要なのは何かと聞かれたらこう答える。

二項係数は最重要。特にPythonだと、数学的な考察を済ませて「あとは二項係数ライブラリを使ってちょっと書くだけですね」と思っていたら、TLEを起こして泣きを見ることがある。速度が出るライブラリを予め持っておくことを推奨。私が書いた以下の記事を参照→python競技プログラミングで、二項係数の計算でTLEしたので高速化した話 - 子供の落書き帳 Renaissance
Union-Findは次に重要。
ぶっちゃけその他はほとんど使わない。（セグメント木を使えないから、使う問題に出会っても「解けない」で終わるため、この感想になるのかもしれない。）
BITとセグメント木は未だによく分かってない。水色のうちに履修しておきなさいという感があるけど、ちゃんと履修しないまま青になってしまった。
- ABC185のF
あとローリングハッシュやらZ-algorithmやらは何もわからない。

習得したアルゴリズムが、俺の場合は同じ青に上がった人に比べて少ないんだろうなー。
もうちょっとアルゴリズムを学習して覚えたらもっと強くなれるのかしら。

pythonで競技プログラミングをやることについて

私がPythonでやっている理由は、上に書いた方に「まずpythonの実装力を付けなきゃ」……って言いながら競技プログラミングに復活したからである。なお、それまでは主にRubyで書いていた。（競技プログラミングでふつう使われる「速い言語」を全然使っていない。どんだけ天邪鬼なんだ……）

python のいいところ悪いところ

いいところ

変数の型を考慮しなくて良い
オーバーフローを考慮しなくて良い
- したがって剰余を求めるタイプの問題では、途中での剰余計算が適当でも最後に割って剰余を求めれば良い
- 100桁の数などを扱うことも可能（計算が重い場合はTLEになるが）
itertoolsのライブラリが便利

わるいところ

計算量が厳しい
競技プログラミングの本が基本的にC++で書いてあるからPythonで書き直さなきゃいけない

提出して結果がTLEだったときに、次の行動を考えると以下のいずれかになる。

（計算量が想定解よりも遅くてTLEなので）計算量のオーダーを改善する
（計算量には問題がないが、コードが遅くてTLEなので）定数倍高速化する
Pythonを捨ててC++（などの速い言語）で書き直す

上記のうちどれを選ぶかをミスると痛い目に遭うなぁ、という感覚である。この間は「解法を思いつく→計算量を見積もる→これPythonだと厳しくね?どうする?どうする?仕方ない、C++で書くか?と書き始める→C++でうまく書けずに終わる→実はPythonでも間に合う」という事があったし（ARC104）。
C++の場合は、上記3つのうち一番下の選択肢は最初から無い。定数倍高速化が必要になることは絶対にないとは言えないが、かなり稀だろう。
したがって「（計算量が想定解よりも遅くてTLEなので）計算量のオーダーを改善する」と断定してほぼ差し支えないはずだ。迷いがなく次の動きに移れるのが良いなぁと思う。

いわゆる精進について

精進の定義って何なんだ? 「コンテスト本番中以外に問題を解くこと」で合ってる? みんな当たり前の用に使っているくせに、「競技プログラミングの用語集」みたいな記事を見ても全然意味の説明が出てこないんだが。
それはさておき。

精進のやり方は人によって異なる、合う方法合わない方法があるので、あくまで参考程度にしてください。

コンテスト外で集中して解くのすごい苦手……

全部埋めるのが苦手

難易度順に下からビッシリ埋めてる人が多いよね。無理です、俺にはできません。

音ゲーもこの傾向がかなり強く「とりあえず当該レベルを1周して全曲触れ」という意見には反発したくなる。
全曲ってそれ何曲あると思ってるの。何クレかかると思ってるの。好きな曲も嫌いな曲もあるのに構わず触れと?
……閑話休題。

初期の問題の質は悪い、とchokudaiさん自ら言ってるし…… https://twitter.com/chokudai/status/1231612496600944641

AGC-A、diff 1200〜1299あたりは埋めようと頑張ったが、それでも完全に埋めてはいない。

AtCoder Problemで自分のレートと同じdiffの問題をやるな

自分がレート1500だからといってdiff1500をやろうとするな。もっと下の問題からやれ。

ちゃんと理解する

コンテストでは既存の問題と全く同じ問題は（基本的には）出題されない。したがって、過去の問題を解いたとしても、それをそのまま転用することはできない。過去の問題から何を得るかが重要になってくる。

ある程度雑でも良いから、方針や感想などを日本語の文章にして書いておくのが大事だ、と最近は考えている。解法を考えるのに苦労した問題は、日本語で解法を書き留めるようにしている。最近でちゃんと書いた例だとこの辺りか。

https://github.com/Linus-MK/AtCoder/commit/90388090eb293f762dc681f2687b7dce7d54aaec
https://github.com/Linus-MK/AtCoder/commit/8965e87d309b808826ac3d64917b38b6e88f9504

「どこに気づけばACできたか」というポイントが大事。具体例を挙げよう。

「連結グラフ一般を対象とした問題は、木に対する問題に帰着できる場合がある」という

紙のノートを作って書いている人もいるけど、私はテキストエディタで書く派である。（具体的な問題から離れて「今日は××のアルゴリズムを勉強するわ」という勉強のやり方をすることがほとんど無い。したがって、学習内容のほとんどは具体的な問題と直接紐付いているので、基本的に問題を解いたコードにコメントを添えておくのが良いのかなと思っている。あとは「競プロの教訓の一覧」も作ってますね。全然綺麗にまとめずにメモ程度だけど。

https://github.com/Linus-MK/AtCoder/blob/master/lesson.md ）

やったこと
- 問題の解法を抽象化して言語化しておく
- いわゆるメタ解法みたいなやつ
やってないこと
- バチャ参加
- CodeForces, yukicoder

ABCとARCのどちらが得意か把握しよう

「あなたのレートはどこから?」というサイトがある。
今見たら https://rating-history.herokuapp.com/rating.html?handle=Linus&number=12 で以下の結果だった。

All: 111
AGC: -47
ARC: 160
ABC: -134
Other: 132

このレート帯の人はAGCを解くと「A問題が解けない」という事態があり得るので、AGCを解いてレートを上げるという選択肢は難しい。 ABCかARCかの二択になると思う。

俺は「問題文はごちゃごちゃ書いてあるけど、要はこういうことでしょ?」をやるのが割と上手いという自覚があるので、ABCよりもARCのほうが得意なのだと思う。本質的な部分を抽出できるとか、問題文の言い換えができるとか、アドホックな力があるとか、その辺かしら? ABCは1つ躓いただけでレートが大きく下がってしまう感があってヤバい。あと、ABCに出てる人って、みんな過去問をビッシリ埋めてる人ばかりという印象である。 ABCでは典型力が問われるので、俺のようにアルゴリズムの学習に抜け漏れがある人がやると、「この問題はセグメント木の典型です」みたいな、俺の履修していない解法のド典型問題が出題されたときに容易に死ぬんだよね。 ARCが復活してからはABCには出ないことにした。そう言っておきながら、気まぐれで出るかもしれないけど。最近のABCでは、あれもこれも緑diffになりすぎてマジ怖い。

水色〜青が最近難しすぎる話

新規参入者の基準レートが下がっているせい
- これは参考googleドキュメントを探す
上に書いてあった、1問を解いたらレートが1上がるって何なのよ
- 全然上がらないじゃんか
- これは予想可能な理由がある
- 多分なんだけど、このレート帯の他の人はyukicoder, CodeForcesに手を出しているので、見かけ上が「AtCoderを1問解く」であったとしても、実際に解いた問題数、実際の努力量は俺よりも他の人が多いと思われる
どっかで「青になれませんでした」という挫折記事でも出そうかと思っていたら、運良く青に上がれたのでこうして色変記事を書いている
競プロはすべての問題を解決する万能薬ではない
- 数学が強くて、しかもアルゴリズムを大学で一通りやったわという人（俺）でも、青になるまでにはこの程度の時間と労力をつぎ込む必要がある
- 時間がある学生ならば良いけど、時間がない人（社会人とか）がやるときには費用対効果を考えたほうが良いと思う
- モチベーションが下がったら離れるくらいで良いんじゃないの
- 少なくとも俺は付かず離れずでやっています
今回のアドベントカレンダーにも「なんか水色が厳しくない? 上がれないんだけど?」って記事があるね
- これアラフォーが1年以上，緑でうごうごしている話 - 手段としてのソフトウェア

今後の目標

青の次は黄色……いや、黄色とか無理だろ。遠すぎるわ。黄色までの真ん中の1800が当座の目標かなぁ。

青は上位7%である。せっかくの休日に競技プログラミングの大会に出続ける酔狂の中で7%なので、全人類の中では上位1%以内に入っていると思う。

組み合わせるのが一番ラクだからです。ある軸で上位3～5%にいるのはそんなに難しくないけど、100万分の１になるのは並大抵のことではないから。かけっこでウサイン・ボルトに勝つようなものですよね。だから、20分の1とか、30分の1のレベルで勝てる領域を3つ探すわけです。上位20分1を3つ組み合わせれば、8000分の1の稀少な存在になれる。
https://diamond.jp/articles/-/208123

このまま努力を続けていって、例えば赤コーダーになれるかって言ったらなれないじゃん。きっと。

この辺で青キープを目指しつつ、機械学習・データ分析の勉強に少し重心を移すのが正解かなぁと思っている。

GCJの予選1回戦突破は自分の中で1つの目標だったけど、2020年に初めて達成できたしなぁ。ちょっと次の目標が見つからなくて迷子っぽいな。

それでは。

競技プログラミング関係の他の記事

こちらもどうぞ。

linus-mk.hatenablog.com

effective python 第2版の翻訳改善点 8〜10章

2020-11-28T00:20:04+09:00

オライリー・ジャパンから発売された「Effective Python 第2版 Pythonプログラムを改良する90項目」の日本語訳の改善提案である。気になった箇所について、原文と照らし合わせて問題点を述べ、日本語訳を自分で書き直している。

注意事項
8章
9章
- p.357 項目78
単純な誤字脱字
関連記事
終わりに

注意事項

「Effective Python 第2版」の日本語版をAmazonで、原著（電子書籍版）をInformIT（ピアソン社の電子書籍販売サイト）で購入した。
以下でそれぞれの本の文章の一部を書いているが、著作権法で定められた引用に該当する。これは訳文の批評のために必要不可欠な引用である。

選んだ箇所は私が問題だと思った部分である。文章の意味が間違っているところ（誤訳）と、文意が分かりづらいところとが混じっている。（両者をハッキリ判別するのは難しいので、どの部分がどちらかを示すことはしていない。）
ページ数は日本語版のページ数を示す。原著のページ数は省略した。
「日本語版：」のあとに続く部分は「Effective Python 第2版」の日本語版からの引用である。
「原文：」のあとに続く部分は「Effective Python: 90 Specific Ways to Write Better Python (2nd Edition)」原著からの引用である。
また、「直訳」および「意訳」は原文から私がオリジナルで訳した文である。
「直訳」は英語の単語を極力そのまま日本語に置き換えたもの。
- 常に常体である。
- 「I / you」も訳出している。
- 高校の授業でやる英文和訳のような結果になるので、日本語として不自然な場合もある。
「意訳」はそこから構文の変更などを加えて日本語として整えたものである。
- 常体か敬体かは元の日本語訳と同じとした。
- 「I / you」は日本語訳と同様、訳出しないことにした。
- 仮に私が翻訳するとしたら「意訳」の文章を最終結果にするであろう。

その他、翻訳改善点を書く際に考えたことは以前に書いた1〜3章の記事を参照してほしい。

linus-mk.hatenablog.com

なお、前記事で1〜3章、本記事で8〜10章についてあつかっているので、残りは4〜7章である。しかし、残りについてまとめる予定は今のところありません。翻訳改善点を書くのは、だいぶ労力がかかるので……。

8章

p.289 項目65

日本語版：else節は、try/exceptの後で起こることは、見た目にも、exceptブロックとは異なるということを保証します。
原文：The else clause ensures that what follows the try/except is visually distinguished from the except block.

「見た目にも……異なる」ってどういうこと?
逐語訳としては間違ってない気がするけど、何が言いたいのかどうにも伝わりにくいような……
主語の「else節」は思い切り無生物主語なので、うまく書き直したいところ。こんなもんでどうだろうか。意訳は2通り書いてみた。

直訳：else節は、try/exceptの後で起こることがexceptブロックと視覚的に区別されていることを保証する。
意訳：else節を使って書けば、try/exceptの後続の処理を、exceptブロックと見た目にも切り離しておくことができます。
意訳：else節を使って書けば、try/exceptの後続の処理を、exceptブロックとは別々のものだと見て分かるようになります。

p.300 項目68

日本語版：pickleの本来の目的は、Pythonオブジェクトを自分がコントロールしているバイナリチャネルでプログラム間をまたいで渡すことです。
原文：The purpose of pickle is to let you pass Python objects between programs that you control over binary channels.
直訳：pickleの目的は、あなたに、あなたが管理するプログラムの間で、バイナリの経路の上でPythonオブジェクトを渡させることである。
意訳：pickleの目的は、自分が管理するプログラムどうしの間で、バイナリの経路を通じてPythonオブジェクトを渡すようにできることです。

このすぐ下の文も悪訳。（次項で扱う。）続けざまに悪訳が出てきたんだけど、どうした一体?

日本語版の翻訳だけど、多分これはcontrolとoverをセットで訳してるよね。「自分がコントロールしているバイナリチャネル」のあたり。（冷静に考えるとこの訳なら原文はbinary channels (that) you controlじゃないとおかしくないか?）
controlが名詞ならそれにoverが結びつくのはよくある。が、今回のcontrolは動詞だ。動詞controlとoverを使う例は辞書でも見つからなかった。
正解は、passとoverがセットになって結びついているのだ。したがってcontrolとoverは意味の上では分かれている。下記に、pass X over Yの形になっている文の例を示す。
channel=経路をオブジェクトが通っているので、through channelsかin channelsあたりのような気がするが、overが正解なのか……この辺の前置詞の感覚はよく分からないわ。
動詞letについては、ややenableっぽく訳してみた。

参考：
He passed his over his face. 手で顔をなでた
pass one's eye over a letter 手紙に目を通す
（英語活用大辞典より）

p.300 項目68

日本語版：シリアライズしたデータは、本質的には、元のPythonオブジェクトをどのように再構築すればよいかを記述したプログラムを含む。これは、悪者のpickle情報がデシリアライズしようとするPythonプログラムのどの部分にも忍び込むのに使われうるということを意味する。
原文：The serialized data contains what is essentially a program that describes how to reconstruct the original Python object. This means a malicious pickle payload could be used to compromise any part of a Python program that attempts to deserialize it.

日本語版では「pickle情報が」に対応する述語がどこなのか分かりにくいと思う。

日本語に翻訳するとき、普通は能動態か受動態かで迷ったら能動態で書いたほうが収まりが良いけど、今回はcompromiseを受動態として訳したほうがスッキリしたのでそうした。
「誰かが不正にアクセスする」という文よりも「システムが不正にアクセスされる」という文を見かけることが多いからかな?

直訳：シリアライズされたデータは、本質的には元々のPythonオブジェクトを再構築する方法を記述したプログラムであるものを含む。これは、悪意のあるpickleペイロードが、それをデシリアライズしようとするPythonプログラムの任意の部分に不正アクセスするのに使われる可能性があるということを意味する。
意訳：シリアライズされたデータには、元々のPythonオブジェクトを再構築する方法を記述したプログラムと同等のものが含まれている。したがって、悪意のあるpickleペイロードがあると、それをデシリアライズしようとするPythonプログラムの任意の部分が不正にアクセスされてしまう可能性がある。

p.309 項目69

日本語版：Decimalクラスでは、丸めのための組み込み関数があり、望ましい丸め操作を正確に必要な桁数で丸めてくれます。これで、抱えていた切り上げ問題が解決されます。
原文：Luckily, the Decimal class has a built-in function for rounding to exactly the decimal place needed with the desired rounding behavior. This works for the higher cost case from earlier:

「丸め操作を……丸めてくれます」ってどういうことよ。「馬から落馬する」とか「頭痛が痛い」と同様にダメだと思うんだけど。

直訳：幸運なことに、Decimalクラスは、所望の丸め挙動によって10進法地点へ正確に丸める操作のための組み込み関数を持つ。これは、始めにあったより高い料金の例でもうまくいく。
意訳：幸いにもDecimalクラスには組み込み関数があり、希望どおりの丸め方で数値を10進法の数値に正確に丸めることができます。これは、始めに挙げたより高い料金の例でもうまくいきます。

rounding to exactly the decimal place（原文）と
rounding to the exact decimal placeの違いって何なんだ……exactlyがroundingを修飾するならtoの前になるんじゃないか……分からないや。

なおおまけの指摘だが、この項目69でずっと小数点2桁で四捨五入／切り上げをしているのはセント単位にしたいからである。
原文では「round to the nearest whole cent」つまり「最も近い、セント単位の数に丸める」という意味である。「round ~ to the nearest whole number 小数点第1位で四捨五入して整数にする」が英辞郎にあったので、numberの代わりにcentが入った形だろう。何でwholeなのかcentが単数なのかよく分からんけど。
英文にあった「セント」が日本語版では完全に消えている。「最も近い整数への丸め方式(p.308 上部)」じゃ意味が通らないだろう。だって四捨五入の結果である5.36は整数じゃないんだから。

9章

p.357 項目78

日本語版：厳密には、どのdatabaseオブジェクトでも取れるように、一部の引数が使えるのであれば、定数unittest.mock.ANYを、どんな引数でも取れることを示す値として使います。
原文：If I actually don’t care about some of the individual parameters, such as exactly which database object was used, then I can indicate that any value is okay for an argument by using the unittest.mock.ANY constant.

「individual parameters」つまり個々のパラメータの一部の例として、「exactly which database object was used」=「正確にどのdatabaseオブジェクトが使われたのか」がある。日本語版では、exactlyに相当する「厳密には」が変なところにあるし、文意がよく分からない。
挿入句がちょっと訳しづらい。カッコに入れるくらいしか上手いやり方が思いつかない。以下のようになる。

直訳：もし実際には私が個々のパラメータの一部（例えば「正確にどのdatabaseオブジェクトが使われたのか」など）には関心がないのであれば、私はunittest.mock.ANYという定数を使うことで、その変数にはどんな値でも大丈夫であることを示すことができる。
意訳：もし実際には個々のパラメータの一部（例えば「正確にどのdatabaseオブジェクトが使われたのか」など）が重要でないのならば、unittest.mock.ANYという定数を使って、その変数にはどんな値を入れても構わないことを示すことができます。

単純な誤字脱字

気づいた範囲で書いておきます。

p.343
実際の型とか構成部分がはっきりしていなことです。
→
実際の型とか構成部分がはっきりしていないことです。

p.348
try/excep 文とよく似ていて、
→
try/except 文とよく似ていて、

p.356 (ページ中央のAtributeErrorのすぐ下)
daabase引数にはobjectを使います。
→
database引数にはobjectを使います。

linus-mk.hatenablog.com

終わりに

目についたところを挙げた。しかし、すべて完全に読んだわけではないので、まだ見逃しているところがあると思う。「Effective Pythonのこの部分の文章の意味がよくわからないんだけど!」というのがあれば、コメント欄とかTwitterで言ってくれれば見てみます。この記事に加筆するかもしれません。

実例から学ぶ Python競技プログラミングの定数倍高速化シリーズ1：徒競走

2020-10-28T22:58:28+09:00

競技プログラミングのAtCoderの問題をPythonを使って解き、定数倍高速化した結果をまとめる。

定数倍高速化とは何か
注意事項
解法
処理時間まとめ
最初
高速化(1) 早期break
高速化(2) 計算量の削減／(1)を上書き
高速化(3) 入力 input = sys.stdin.readline
高速化(4) 真偽値判定を簡略化
高速化(5) 2**nを1<<nに変更
高速化(6) indexをsetで管理する／(4)(5)を上書き
まとめ

定数倍高速化とは何か

定数倍高速化 - MonoBook より

定数倍高速化とは、アルゴリズムの改善による高速化とは違い、計算処理の方法を改善することにより計算量のオーダーを変えずに処理を高速化することである。

そしてこの記事では、一般論ではなく、具体的な問題に対する最適化を取り上げる。つまり、競技プログラミングの特定の問題を色々なコードで解いてみて、その結果を整理してそこから教訓を得ようというものだ。

（初回なのにタイトルに「シリーズ」とか入れてるけど、大丈夫なんだろうか。私が記事を書くやる気が続くだろうか……?）

今回取り上げるのは、AtCoder Beginner Contest 041 D問題徒競走である。

注意事項

本検証はPython 3.8.2に言語がバージョンアップされた後に実施している。
そのため、処理時間はPython 3.8.2, PyPy3 (7.3.0)である。

処理時間は1回提出した結果であり、複数回の平均ではない。

解法

解法の細かい説明はしない。そこはこの記事の主眼ではないので。
というか、解説を読んで解法を理解してからACしたので、解法は公式解説PDFと全く同じである。

処理時間まとめ

以下の表は、Python3 / PyPy3の処理時間をまとめたものである。最初のコードから始めて、高速化を順次実行したときの、実行時間である。*1

コード	Python (3.8.2)	PyPy3 (7.3.0)
最初	TLE	750ms
高速化(1) 早期break	TLE	324ms
高速化(2) 計算量の削減	TLE	243ms
高速化(3) sys.stdin.readline	TLE	230ms
高速化(4) 真偽値判定を簡略化	TLE(3262ms)	230ms
高速化(5) 2**nを1<<nに変更	1626ms	169ms
高速化(6) indexをsetで管理	1032ms	270ms

最初

最初の提出コード：GitHub
最初の提出結果：AtCoder

正直、提出したときはPyPyでも通らないだろうと思っていた。「これは計算量を落とせる（後述の高速化(2)のこと）のに、わざわざ計算量が大きい解法で解いているので、おそらくTLEになるだろう。でも一応提出してみるか」と思っていたら通ってしまった。
計算量は外側のループから順に、2ⁿ * n * mである。最大値を代入すると、 2^16 * 16 * (16*15)/ 2 = 125829120
あれ1億2500万だぞ……!? しかもこのコードは途中でbreakしないから、ループが全部回るぞ……何で通ったの???

一応ACは取れたので良いのだが、Pythonでも通るようにできないかと思って、色々と定数倍高速化を試みた。
なおこの問題の制限時間は3秒である。

高速化(1) 早期break

コード差分：GitHub

とりあえずパッと思いつくものを入れた。フラグを最初にTrueにしておいて、どれか一つでも条件を満たすならFalseになるというパターンのコードである。だから、Falseとわかった時点でその後の計算は不要であり、ループをbreakできる。

計算量は……えーっとどうなるんだ。最悪のケースになる入力は、多分以下の場合だろう。

そうすると、

頂点2が1位になりえないのは、1個目の辺を見た段階でわかる（のでここでbreak）
頂点3が1位になりえないのは、2個目の辺を見た段階でわかる（のでここでbreak）
頂点4が1位になりえないのは、4個目の辺を見た段階でわかる（のでここでbreak）

……というふうに、各頂点に対する辺のループの数は三角数+1になる。毎回120個すべてを見ていた場合と比べて、計算量は大雑把に3分の1かな。多分。
（三角数はxの2次関数なので、x²を区間[0,1]で積分するイメージである）

PyPyの実行時間では半分以下と著しく速くなっているが、Pythonでは依然としてTLEである。

高速化(2) 計算量の削減／(1)を上書き

コード差分：GitHub

定数倍高速化と散々言ってるが、ここだけは計算量の式が変わる高速化です（=定数倍高速化ではない）。
may_be_first（1位になる可能性があるか否か）を最初にまとめて計算しておけば、繰り返し計算する必要はない。
計算量が2ⁿ * n * m → 2ⁿ * (n + m) に削減された。
数字の上では 1億2500万→891万で10分の1以下になってるけど、PyPyの時間はそこまで短くなってはいない。なんでやろ。

高速化(3) 入力 input = sys.stdin.readline

コード差分：GitHub

Pythonで競技プログラミングをするならまずやろうと言われるinput = sys.stdin.readline。
簡単にできるから入れてみたものの、あまり変化なし。
（これのおかげでTLEが消えて無事に通ったという経験がない。個人的にはあまり効果を感じていないので、普段はinput = sys.stdin.readlineを書いていない。まぁ、今回は入力が最大でも121行だから、入力を高速化しても効果が殆ど無いのだろう。）

高速化(4) 真偽値判定を簡略化

コード差分：GitHub

bit AND を取った結果が0か非0かを判定するためにx & y > 0と書いていたが、0より大きいか小さいか判定する必要はないので単にx & yでよい。

TLEのとき、表示されている時間は本当にかかった時間とは限らない。制限時間を少し過ぎたところでコードを強制終了している。
1つ前までは、3.3秒あたりで強制終了しているようにみえる（本当のところは不明です）。しかし今回は3262msである。
つまり今までは3.3秒を過ぎて強制終了されたが、今回は3.262秒で計算が終わったが、それが3秒より大きいのでTLEであると推測される（本当のところは不明です）。
あと一息だ。

高速化(5) 2**nを1<<nに変更

コード差分：GitHub

ついにPythonでも

俺の中では「2**nと書こうが1<<nと書こうが同じじゃん」と思ってたけど、 3262ms→1626msだ! 時間がなんと半分以下になった!!
（コンパイラの最適化で勝手に書き換えられるかなと思っていたけど、最適化は走らないんだね……一般のa**nの場合はこの書き換えは使えない。だから、冷静に考えたら、一部の数のときだけ適用できる書き換えをするのは難しいんだろうな……）

マジかよ。累乗計算をビット演算に変えるだけでこんなに変わるの!?

特定桁のbit ANDを取るとき、つい癖でif x & 2**digit > 0と書いていたけど、これがそれほどまでに動作の遅い書き方だとは知らなかった。

高速化(6) indexをsetで管理する／(4)(5)を上書き

コード差分：GitHub

idxと特定桁のbit ANDを取る処理を何度かやっている。
「これ……どの桁にビットが立っているかを最初に集合(set)に入れて、あとはdigitが集合に含まれるか判定するほうが速いかもしれない?」と考えた。
ここの集合の作り方はリスト内包表記で簡潔に書くと動作が速い。

Pythonだと1626→1032msと速くなった。
一方で、PyPyだと169ms→270msと逆に遅くなった。PyPyだと時間がかかる処理なんだろうか。

まとめ

2**n は非常に遅い書き方なので 1<<n にしましょう。

ただし演算子の優先順位には注意!!
今回も2**n を 1<<n に置換した後、確認せずにsubmitして、Runtime Errorを1回出した。
idx - (1<<digit)とすべきところでidx - 1<<digitと書いて、減算を最初に計算してしまったからである。
以前も同じミスにハマって、そのときに書いた記事が以下である。

linus-mk.hatenablog.com

それでは。

*1:余談になるが、markdownで表を作るの面倒だなぁと探したら以下のWebツールが見つかった。「MarkdownテーブルをExcelライクな操作で簡単に作成できるツールです」と書いてある。便利。 https://notepm.jp/markdown-table-tool

pandasでDataFrameのセルにlistを代入する

2020-10-26T12:55:54+09:00

pandasのDataFrameのセル（1つのマス）にpythonのリスト（配列）を代入しようとして、苦労したのでやり方をまとめておく。
（pandasの公式ドキュメントではセルをcellとは呼ばず、valueもしくはscalar valueと呼んでいるようだ。）

注意
準備
失敗例 loc, ilocだとエラーになる
DataFrameのセルにlistを代入するためには、at, iatを使う
数値の列にリストを入れたい
参考文献

注意

おそらく、DataFrameのセルにlistを入れようとするのはあまり良い方法ではない。この使い方を、pandas側があまり想定していないような気がする。
私がDataFrameのセルにlistを持たせたときは、色々な処理がいちいちうまく行かないので、少しやってみたけどやめてしまった。
結局データの持ち方を変えて、やりたい分析を実施した。
データの持ち方を変えて別の方法でできないか検討したほうが良いだろう。

準備

import pandas as pd
import numpy as np
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。

# 動作環境の確認
print(pd.__version__)
print(np.__version__)

# --------------------

1.1.2
1.19.1

df = pd.DataFrame({
    'col_A': [1.2 ,3.4, 5.6],
    'col_B': [9.8, 7.6, 5.4],
    'col_string': ['hello', 'good_morning', 'good_night']
})
df

# --------------------

   col_A  col_B    col_string
0    1.2    9.8         hello
1    3.4    7.6  good_morning
2    5.6    5.4    good_night

失敗例 loc, ilocだとエラーになる

上記のdfの一番右下、「good_night」と書いてあるところにリストを代入したいとしよう。
locやilocを使ってやろうとするとエラーになる。
（pandasのバージョンによっては別のエラーメッセージになるかもしれない）

my_list = ['this' , 'is', 'a', 'list']

print(df.loc[2, 'col_string'])
df.loc[2, 'col_string'] = my_list

# --------------------

good_night
    ---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-5-4bd9c63f53aa> in <module>
          1 print(df.loc[2, 'col_string'])
    ----> 2 df.loc[2, 'col_string'] = my_list
    
    /usr/local/lib/python3.8/site-packages/pandas/core/indexing.py in __setitem__(self, key, value)
        668 
        669         iloc = self if self.name == "iloc" else self.obj.iloc
    --> 670         iloc._setitem_with_indexer(indexer, value)
        671 
        672     def _validate_key(self, key, axis: int):
    /usr/local/lib/python3.8/site-packages/pandas/core/indexing.py in _setitem_with_indexer(self, indexer, value)
       1664                 if is_list_like_indexer(value) and 0 != lplane_indexer != len(value):
       1665                     # Exclude zero-len for e.g. boolean masking that is all-false
    -> 1666                     raise ValueError(
       1667                         "cannot set using a multi-index "
       1668                         "selection indexer with a different "
    ValueError: cannot set using a multi-index selection indexer with a different length than the value

print(df.iloc[2, 2])
df.iloc[2, 2] = my_list

# --------------------

good_night
    ---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-6-dd2da9191db9> in <module>
          1 print(df.iloc[2, 2])
    ----> 2 df.iloc[2, 2] = my_list
    
    /usr/local/lib/python3.8/site-packages/pandas/core/indexing.py in __setitem__(self, key, value)
        668 
        669         iloc = self if self.name == "iloc" else self.obj.iloc
    --> 670         iloc._setitem_with_indexer(indexer, value)
        671 
        672     def _validate_key(self, key, axis: int):
    /usr/local/lib/python3.8/site-packages/pandas/core/indexing.py in _setitem_with_indexer(self, indexer, value)
       1664                 if is_list_like_indexer(value) and 0 != lplane_indexer != len(value):
       1665                     # Exclude zero-len for e.g. boolean masking that is all-false
    -> 1666                     raise ValueError(
       1667                         "cannot set using a multi-index "
       1668                         "selection indexer with a different "
    ValueError: cannot set using a multi-index selection indexer with a different length than the value

DataFrameのセルにlistを代入するためには、at, iatを使う

locやilocは複数のセルを選択することもできるので、右辺が配列だと「え?これ複数のセルに代入したいんじゃないの? 左辺が単一のセルなのに右辺がセル4つ分の値なんだから、これじゃダメだよ」とpandasが勘違いするんだろう。たぶん。
pandasには必ず一つのセルを選択する（複数のセルを選択できない）関数がある。atとiatだ。これを使うとセルにlistを代入できる。

atを使った例。locと同様に、行と列の名前で位置を指定する。

print(df.at[2, 'col_string'])
df.at[2, 'col_string'] = my_list

# --------------------

good_night

print(df)
print('...')
print(df.loc[2, 'col_string'])
print(type(df.loc[2, 'col_string']))

# --------------------

   col_A  col_B           col_string
0    1.2    9.8                hello
1    3.4    7.6         good_morning
2    5.6    5.4  [this, is, a, list]
...
['this', 'is', 'a', 'list']
<class 'list'>

iatを使った例。ilocと同様に、行と列の番号（何行目・何列目）で位置を指定する。

my_list = ['another', 'list']
print(df.iat[0, 2])
df.iat[0, 2] = my_list

# --------------------

hello

print(df)
print('...')
print(df.iloc[0, 2])
print(type(df.iloc[0, 2]))

# --------------------

   col_A  col_B           col_string
0    1.2    9.8      [another, list]
1    3.4    7.6         good_morning
2    5.6    5.4  [this, is, a, list]
...
['another', 'list']
<class 'list'>

数値の列にリストを入れたい

ここまではうまく行った。しかし、数値の入っている列のセルにリストを代入しようとするとエラーが生じる。

my_list = [3, 4, 5]
print(df.at[0, 'col_A'])
df.at[0, 'col_A'] = my_list

# --------------------

1.2
    ---------------------------------------------------------------------------
    TypeError                                 Traceback (most recent call last)
    TypeError: float() argument must be a string or a number, not 'list'
    
    The above exception was the direct cause of the following exception:
    ValueError                                Traceback (most recent call last)
    <ipython-input-12-02f17b50862e> in <module>
          1 my_list = [3, 4, 5]
          2 print(df.at[0, 'col_A'])
    ----> 3 df.at[0, 'col_A'] = my_list
    
    /usr/local/lib/python3.8/site-packages/pandas/core/indexing.py in __setitem__(self, key, value)
       2089             return
       2090 
    -> 2091         return super().__setitem__(key, value)
       2092 
       2093 
    /usr/local/lib/python3.8/site-packages/pandas/core/indexing.py in __setitem__(self, key, value)
       2040             raise ValueError("Not enough indexers for scalar access (setting)!")
       2041 
    -> 2042         self.obj._set_value(*key, value=value, takeable=self._takeable)
       2043 
       2044 
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in _set_value(self, index, col, value, takeable)
       3145             validate_numeric_casting(series.dtype, value)
       3146 
    -> 3147             series._values[loc] = value
       3148             # Note: trying to use series._set_value breaks tests in
       3149             #  tests.frame.indexing.test_indexing and tests.indexing.test_partial
    ValueError: setting an array element with a sequence.

これはデータ型（dtype）の問題である。
col_Aの列は浮動小数点数を1つ入れるデータ型になっているので、配列を代入しようとするとデータ型が合わずにエラーになるのだ。

pandasのdtypeについては、こちらも参照。公式ドキュメントを個人的に翻訳した記事だ。

linus-mk.hatenablog.com

df.dtypes

# --------------------

col_A         float64
col_B         float64
col_string     object
dtype: object

listを入れるならば、該当する列のデータ型をobjectにすれば良い。それにはastype()関数を用いる。

df['col_A'] = df['col_A'].astype('object')
df.dtypes

# --------------------

col_A          object
col_B         float64
col_string     object
dtype: object

print(df.at[0, 'col_A'])
df.at[0, 'col_A'] = my_list

# --------------------

1.2

df

# --------------------

       col_A  col_B           col_string
0  [3, 4, 5]    9.8      [another, list]
1        3.4    7.6         good_morning
2        5.6    5.4  [this, is, a, list]

参考文献

Python pandas insert list into a cell - Stack Overflow
python - pandas: how to store a list in a dataframe? - Stack Overflow

それでは。

pandasでValueError: len(left_on) must equal the number of levels in the index of "right"

2020-09-15T21:15:50+09:00

pandasを使ってDataFrameを結合しようとしたら、ValueError: len(left_on) must equal the number of levels in the index of "right"
という見慣れないエラーが出てきた。

mergeを使うべきところでjoinを使ったのが原因だった。
以下のStackOverflowを見たら疑問は解決したけど、自分の頭を整理するためにまとめておく。
python - Why does Pandas inner join give ValueError: len(left_on) must equal the number of levels in the index of "right"? - Stack Overflow

また、joinのonキーワードがどのように使われているのかについても調べたので、併せてまとめる。

mergeを使うべきところでjoinを使ったのが原因だった
DataFrameを結合する関数、mergeとjoinの違い。
joinにはleft_on, right_onがない
joinでonを1列だけ指定した場合のエラー
joinのonキーワードは一体何をしているのか?
エラーの意味を解明する
参考文献

mergeを使うべきところでjoinを使ったのが原因だった

DataFrameを結合するためにmergeを使うべきところで、joinを使う
onに複数列を指定する

以上の条件で発生するエラーであった。

pandasのコミッターであるsinhrksさんの記事がとても秀逸なので、DataFrameを連結・結合する処理で困ったらここを見よう。
Python pandas 図でみるデータ連結 / 結合処理 - StatsFragments
その後、公式ドキュメントにもこの記事が追加された。上記は2015年の記事なので、最新の仕様については公式ドキュメントを見たほうが良い。
本記事の例は公式ドキュメントのものを一部変更している。
Merge, join, concatenate and compare — pandas 1.2.3 documentation

import pandas as pd
import numpy as np
pd.options.display.notebook_repr_html = False  # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。

# 動作環境の確認
print(pd.__version__)
print(np.__version__)

# --------------------

1.1.2
1.19.1

df_left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
df_right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})
print(df_left)
print("~~~~~~")
print(df_right)

# --------------------

  key1 key2   A   B
0   K0   K0  A0  B0
1   K0   K1  A1  B1
2   K1   K0  A2  B2
3   K2   K1  A3  B3
~~~~~~
  key1 key2   C   D
0   K0   K0  C0  D0
1   K1   K0  C1  D1
2   K1   K0  C2  D2
3   K2   K0  C3  D3

この2つのDataFrameを['key1', 'key2']という2つの列を基準に結合する。これはmergeを使うのが正しいやり方だ。

result = pd.merge(df_left,df_right, on=['key1', 'key2'])
result

# --------------------

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

さらに、DataFrameに対してmerge関数を適用することもできる。結果は全く同じになる。

result = df_left.merge(df_right, on=['key1', 'key2'])
result

# --------------------

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

上記において、間違えてmergeではなくjoinを使ってしまった。

result = df_left.join(df_right, on=['key1', 'key2'])

# --------------------

---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-23-302ff90d7a3b> in <module>
    ----> 1 result = df_left.join(df_right, on=['key1', 'key2'])
    
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in join(self, other, on, how, lsuffix, rsuffix, sort)
       7867         5  K5  A5  NaN
       7868         """
    -> 7869         return self._join_compat(
       7870             other, on=on, how=how, lsuffix=lsuffix, rsuffix=rsuffix, sort=sort
       7871         )
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in _join_compat(self, other, on, how, lsuffix, rsuffix, sort)
       7883 
       7884         if isinstance(other, DataFrame):
    -> 7885             return merge(
       7886                 self,
       7887                 other,
    /usr/local/lib/python3.8/site-packages/pandas/core/reshape/merge.py in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
         72     validate=None,
         73 ) -> "DataFrame":
    ---> 74     op = _MergeOperation(
         75         left,
         76         right,
    /usr/local/lib/python3.8/site-packages/pandas/core/reshape/merge.py in __init__(self, left, right, how, on, left_on, right_on, axis, left_index, right_index, sort, suffixes, copy, indicator, validate)
        643             warnings.warn(msg, UserWarning)
        644 
    --> 645         self._validate_specification()
        646 
        647         # note this function has side effects
    /usr/local/lib/python3.8/site-packages/pandas/core/reshape/merge.py in _validate_specification(self)
       1233             if self.right_index:
       1234                 if len(self.left_on) != self.right.index.nlevels:
    -> 1235                     raise ValueError(
       1236                         "len(left_on) must equal the number "
       1237                         'of levels in the index of "right"'
    ValueError: len(left_on) must equal the number of levels in the index of "right"

はい。ValueError: len(left_on) must equal the number of levels in the index of "right" というエラーが発生した。

一応注記しておくと、エラー文の中の"right"はDataFrameの変数名とは無関係である。
join中で右側に指定したDataFrame、という意味であろう。

上記のコードを正しく動かすためには、「joinではなくmergeを使えば良い」で終わりである。
が、どうしてこんなエラーになったのか、いまいちよく分からん。
では、他の場合でもmergeではなくjoinにしてしまったら、どういうエラーが出るのだろうか?試してみよう。

DataFrameを結合する関数、mergeとjoinの違い。

その前に一旦、mergeとjoinの違いを見ておこう。

Merge, join, concatenate and compare — pandas 1.2.3 documentation

DataFrame.join() is a convenient method for combining the columns of two potentially differently-indexed DataFrames into a single result DataFrame.
拙訳：DataFrame.join()は、異なるindexの可能性のある2つの列を結合し、1つのDataFrameを結果として出力する、便利なメソッドである。

joinはあくまで便利メソッドなんだよね。
mergeは列やindexを使ってDataFrameを結合できる。joinはindexを使ってDataFrameを結合できる。
mergeはjoinを含んでjoinより広い範囲のことができるので、joinを使うところはmergeで置き換えることもできる。

なお、pandasのドキュメントからソースコードに飛んで、
pandas/frame.py at v1.1.2 · pandas-dev/pandas · GitHub
を見ると、joinはその内部でmerge関数を実行しているのが分かる。

joinにはleft_on, right_onがない

mergeにはleft_on, right_onというパラメータが指定できるが、joinにはこれらのパラメータがない。したがって、joinでleft_on, right_onを指定すると「そんなパラメータは指定できません」というエラーを返す。これは分かりやすいね。

# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

df1

# --------------------

  lkey  value
0  foo      1
1  bar      2
2  baz      3
3  foo      5

df2

# --------------------

  rkey  value
0  foo      5
1  bar      6
2  baz      7
3  foo      8

df1.merge(df2, left_on='lkey', right_on='rkey')

# --------------------

  lkey  value_x rkey  value_y
0  foo        1  foo        5
1  foo        1  foo        8
2  foo        5  foo        5
3  foo        5  foo        8
4  bar        2  bar        6
5  baz        3  baz        7

df1.join(df2, left_on='lkey', right_on='rkey')

# --------------------

---------------------------------------------------------------------------
    TypeError                                 Traceback (most recent call last)
    <ipython-input-7-b2a9def786b8> in <module>
    ----> 1 df1.join(df2, left_on='lkey', right_on='rkey')
    
    TypeError: join() got an unexpected keyword argument 'left_on'

joinでonを1列だけ指定した場合のエラー

onを複数列指定したときは最初に書いたエラーになる。1列だけの場合はどうなるだろうか?

df1 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'],
                    'value_df1': [1, 2, 3, 5]})
df2 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'],
                    'value_df2': [5, 6, 7, 8]})

df1.merge(df2, on='key')

# --------------------

   key  value_df1  value_df2
0  foo          1          5
1  foo          1          8
2  foo          5          5
3  foo          5          8
4  bar          2          6
5  baz          3          7

df1.join(df2, on='key')

# --------------------

---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-10-3d5d0d53e524> in <module>
    ----> 1 df1.join(df2, on='key')
    
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in join(self, other, on, how, lsuffix, rsuffix, sort)
       7867         5  K5  A5  NaN
       7868         """
    -> 7869         return self._join_compat(
       7870             other, on=on, how=how, lsuffix=lsuffix, rsuffix=rsuffix, sort=sort
       7871         )
    /usr/local/lib/python3.8/site-packages/pandas/core/frame.py in _join_compat(self, other, on, how, lsuffix, rsuffix, sort)
       7883 
       7884         if isinstance(other, DataFrame):
    -> 7885             return merge(
       7886                 self,
       7887                 other,
    /usr/local/lib/python3.8/site-packages/pandas/core/reshape/merge.py in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
         72     validate=None,
         73 ) -> "DataFrame":
    ---> 74     op = _MergeOperation(
         75         left,
         76         right,
    /usr/local/lib/python3.8/site-packages/pandas/core/reshape/merge.py in __init__(self, left, right, how, on, left_on, right_on, axis, left_index, right_index, sort, suffixes, copy, indicator, validate)
        654         # validate the merge keys dtypes. We may need to coerce
        655         # to avoid incompatible dtypes
    --> 656         self._maybe_coerce_merge_keys()
        657 
        658         # If argument passed to validate,
    /usr/local/lib/python3.8/site-packages/pandas/core/reshape/merge.py in _maybe_coerce_merge_keys(self)
       1163                     inferred_right in string_types and inferred_left not in string_types
       1164                 ):
    -> 1165                     raise ValueError(msg)
       1166 
       1167             # datetimelikes must match exactly
    ValueError: You are trying to merge on object and int64 columns. If you wish to proceed you should use pd.concat

んーー? ちょっと言ってることがよく分からない。
mergeを使うべきところでうっかりjoinを使ってしまったので「you should use pd.merge」って言ってくれるのが一番ありがたい。しかし、「you should use pd.concat」と言われてしまった。一体何で……?

joinのonキーワードは一体何をしているのか?

join関数は何に基づいてDataFrameを結合するのか?
それはindexである。joinを使った時点で、indexに基づいて結合すると決まっている。
じゃあわざわざonで指定する必要も無いのではないか?

joinのonキーワードについてドキュメントを見てみよう。

以下2つの操作は完全に等価である、とドキュメントには書いてある（Merge, join, concatenate and compare — pandas 1.2.3 documentation）。

left.join(right, on=key_or_keys)
pd.merge(left, right, left_on=key_or_keys, right_index=True, how='left', sort=False)

公式ドキュメントを色々読むと、どうやら以下の仕様であると分かった。

joinはDataFrame.join()の形式で使う。pd.joinの形式では使えない。
joinの中でonを指定した場合、joinの左側のDataFrameで使う列名（またはindexレベル名）となる。
joinの中でonを指定した場合でも、joinの右側のDataFrameでindexを基準に結合するということは変わらない。（常にright_index=Trueになることに注意!）
joinの中でonに複数の値を指定した場合、右側のDataFrameはMultiIndexでなければならない。
Merge, join, concatenate and compare — pandas 1.2.3 documentationには、joinの中でonに単一の値、複数の値を指定した例がある。

エラーの意味を解明する

joinのonの意味を把握すると、ようやく最初に書いた謎めいたエラーの意味がわかってくる。最初の例からコードとエラー文を再掲する。

result = df_left.join(df_right, on=['key1', 'key2'])

# --------------------

    ValueError: len(left_on) must equal the number of levels in the index of "right"

pandasの気持ちになると、こういう思考過程でエラーを上げている。
「joinに2つの要素からなるonが指定されているから、右側のDataFrameは2段階のindexからなるMultiIndexのDataFrameのはずだよね。あれ、それなのに実際には右側のDataFrameはMultiIndexではないぞ。これはおかしいぞ、エラーだ。onの中の要素数(len(left_on)) ≠ 右側のindexの段階数'(the number of levels in the index of "right")なので、エラーを出そう。」
内部のコードを見てはいないが、エラー文章とも整合するので、多分こうだろう。

次のエラー。コードとエラー文を再掲する。

df1.join(df2, on='key')

# --------------------

    ValueError: You are trying to merge on object and int64 columns. If you wish to proceed you should use pd.concat

pandasの気持ちになると、こういう思考過程でエラーを上げている。
「joinに1つの要素からなるonが指定されている。左側のDataFrameのkey列と、右側のDataFrameのindexに基づいてデータを結合しよう。あれ、左側のDataFrameのkey列はobject型（文字列が入っている）、右側のDataFrameのindexはint64型じゃないか。これじゃデータを結合できるわけが無いや。エラーを出そう。」
内部のコードをあまり見ていないが、エラー文章とも整合するので、多分こうだろう。

（付け加えると、pandas内部の_maybe_coerce_merge_keys()関数で、違うdtypeでもうまく変換してdtypeを揃えられないか試しているようだ。そのおかげで、例えばint64の列とint8の列はうまくmergeできる。だが、文字列とint64ではdtypeを揃えるのはどうやっても無理なので、結局エラーになる。）

参考文献

今回参考にしたページ。どれもここまでに既に挙げたものだ。

エラーメッセージでググると真っ先に出てくるStackOverflow。
python - Why does Pandas inner join give ValueError: len(left_on) must equal the number of levels in the index of "right"? - Stack Overflow

DataFrameの結合について。 Python pandas 図でみるデータ連結 / 結合処理 - StatsFragments その後、この記事を元に公式ドキュメントにも英語の記事が追加された。 Merge, join, concatenate and compare — pandas 1.2.3 documentation

今回公式ドキュメントを少し詳しく読んでみたが、説明の充実度は公式ドキュメントのほうが圧倒的に高い。もとはこのブログ記事であるとはいえ、英語に翻訳したあとに大幅な加筆修正が入っている。
その分、どこに何が書いてあるかがすぐには分かりづらい面もある。

初心者は日本語のPython pandas 図でみるデータ連結 / 結合処理 - StatsFragments
少し慣れてきて詳しいことを知りたかったら、内容たっぷりの公式ドキュメントのMerge, join, concatenate and compare — pandas 1.2.3 documentation
が良いと思った。

今回調べてみて、RやSQLでいくらjoinが使われていても、pandasではmergeを使うんだと覚えておこう、と思った。

それでは。

子供の落書き帳 Renaissance

AIで音声メモを文章整形するための最適なプロンプトを探して、5段階の強度を比較した

概要

はじめに 文字起こしをAIで上手く整形したい

実験の設定

サンプル用の入力文

モデル

要約するためのプロンプトを考える（作ってもらう）

結果 プロンプトと出力結果

レベル1

レベル2

レベル3

レベル4

レベル5

考察

余談：この作業にObsidianは本当に必要か?

CNBC「AIのVibe Coding時代」を見たメモ

英検1級（2024年度第3回）2次試験面接の質疑メモ、振り返り

試験開始まで

入室〜フリートーク

スピーチ準備

スピーチ

質疑

反省（帰宅しながら色々思ったこと）

トピックをどう解釈すべきか?

スピーチについて

結果発表！

感想

関連記事

生成AIと音声認識によるブログ執筆、お試し_1

［論文メモ］M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

どんな論文?

先行研究と比べてどこがすごい?

技術や手法の肝はどこ？

2) Page Retrieval （ページ検索）

3) Question Answering （質問応答）

議論はある?

Figure 6 をよく調べる

おまけ：

「最後の英単語」リストを避けるべき理由：英単語の選定・日本語訳の問題点を徹底分析

「最後の英単語」を使って単語を覚えた状況について

英単語の選び方がおかしい

全体的なレベル感

固有名詞が少なからずある

異常に簡単な単語がある

異常に難しい単語がある

和訳がおかしい

誤字が非常に多い

訳語が妙に多い

訳語が妙にマニアック

訳語が妙に少ない

発音が間違っている

総評：ただより高いものはない。単語帳の本を買いましょう。

この妙な誤字はどこから来たのか（どの辞書を使っているのか）

英検準1級に合格した

結果

1次試験

2次試験

これからどうする?

2023年に買ってよかったもの

Shokz OpenRun Pro 骨伝導イヤホン

VOLTRX 電動プロテインシェイカー

VALX プロテイン

ランニングポーチ

SUZURI ドライTシャツ

ワークマン ボアフリースカーディガン

総評：やっぱり少ないな

2023年の振り返り

2023年振り返り

仕事

一人暮らし

自己学習

connpassのイベントの話

英語だけはやり始めた話

ゲーム

音ゲー

音ゲー以外

ポエム

総評?

今までの英語学習と試験結果を振り返る

はじめに文字起こしをAIで上手く整形したい

結果プロンプトと出力結果

ワークマンボアフリースカーディガン

Kivyのインストール（Getting Started » Installing Kivy）

ダンジョンエンカウンターズプレイのメモ