2019年5月30日に開催されたこのイベントに参加してきました。
Machine Learning Production Pitch #2 - connpass
Machine Learning Production Pitchは、機械学習について業務で培った知見や経験や苦労話を共有できる場を提供することを目的としたMeetupです。機械学習に取り組み、実社会への適用に日々もがき苦しみ楽しんでいる方々を対象としております。
機械学習ワークフロー(Airflow、Luigi)周りの話がやや多くて、個人的には馴染みが無かったので、うまくまとまっているとは言えないと思います(スライドを書き写すだけになってしまったところが多かった気がする)。参考程度にどうぞ。
Detecting opinionated articles in SmartNews/Tianxiang Zhang (張天翔) (スマートニュース株式会社)
タスク
システム
- パイプライン
- sagemakerは3種類のインスタンスがある。jupyter notebook、training、serving
- モデル
- まとめと今後の課題
つらくないAirflowにむけて/Kenji Yamauchi (LINE株式会社)
2019年6月5日 スライドを追記
- 現行
- 学習
- 評価についてはpoolを使い、実行マシンを指定する
- 課題
- 20台以上のvmを管理するコストが大きい
- DAGの実行マシンの指定をもっと細かく実施したい
- メモリ16GB以上のマシンだけで実行するぞ、とか
- アーキテクチャ改善
- Kubernetes、minikube、Drone
- Drone OSSのCICDツール
- 目標の構成
- DAGに対するテストの導入
機械学習関連の開発を効率化した話/西場正浩 @m_nishiba (エムスリー株式会社)
当初の題は「luigiを使って開発を効率化した話」
- 開発体制
- 歴史上の経緯で、アンチパターンみたいなテーブルがあってしまったりする
- 使い回しが効くように設計したい
- Luigi
- パイプラインのためのパッケージ
- 最近はライバルのAirflowのほうが人気かも
- 検索したら見つけた:https://www.m3tech.blog/entry/2018/10/17/105115
- Luigi導入の利点
- 各モジュールの設計を一々考えなくてよい(Luigiによって規定される)
- 設計フォーマットが統一される。
- 新人が入ってきても読んで理解しやすい。
- コードレビューも楽になる
- そしてgokartを開発した
- https://github.com/m3dev/gokart
- Luigiをラップした
- エムスリーで作ったOSS。
- 出力ファイルをユニークにしたけど「さっきの出力ファイルをうっかり上書きして消してしまった……」を防ぐ
- 出力ファイルを作ったときのパラメータを保持するので「いい結果が出たけどパラメータが分からん……」を防ぐ
エッジ向け Deep Learning プロジェクトで必要なこと/Shuichi Yasumura (LeapMind株式会社)
- エッジ向けDeepLearningプロジェクトの注意点
- 「自社で作ったモデルがあるのでエッジ向けのハードウェア用に変換してください」→そんな単純なものではない。
- 「最初にネットワーク作って、次に圧縮」ではダメ。最初の設計から計算量の削減を意識する必要がある
- 「精度何%が絶対必要」なんです→そもそも精度って何?本当にその数値が必要なの?
- モデルの圧縮、量子化で必要なこと