Machine Learning Casual Talks #7 イベントレポート #MLCT

2018年11月20日に開催されたこのイベントに参加してきました。 Machine Learning Casual Talks #7 - connpass 以下、敬称略です。

発表

@_stakaya(高柳慎一) 「The load to Machine Learning Engineer from Data Scientist」

  • LINE DEVELOPER DAY_2018に参加しましょう(この発表の翌日だった)
  • LINEのDataLab所属

    • DataLabとは……LINEの多くのサービスに対して一気通貫でデータ管理をする、横串の位置付けにある組織。その中のエンジニアの人は、LINE全社で使える機械学習基盤を作ったりしている
  • クオンツからここまで来るのにどういう経緯を歩んできたのか?

  • 社会人歴は13年程度

  • 景気のウェーブを感じろ! と常日頃から言っている。

    • 2006年に新卒で就職した (2000年のバブル崩壊から復調の兆しが見えた頃。新卒就活もまぁまぁ何とかなった)
    • 2008年10月に転職……と同時にリーマンショックを喰らう
      • 年功序列のおかげで居続けると賃金が上がる
      • けどキャリア採用の募集は皆無
  • 不景気だったときに新卒で入った人たちは、厳しい競争を勝ち抜いて入社した人。優秀な人という補正をかけてよい

  • 景気を意識して行動しろ。

    • なぜなら俺は6年ほど(不景気で転職できなかった時期に)エクセルのアドインとかコンサルタントをやってたからだ
  • 2011年の東日本大震災

    • システム障害を起こした銀行が、手作業で業務をしていた報道を見ていた上司曰く「最後は人だぜ!?」……いやそうじゃねぇだろ
  • 意思決定に必要なのはデータに基づいた事実ではなく、相手の弱みだったりする(「獅子のごとく」って本を読むとそのへんが分かるよ)

  • リクルート系に転職して思ったこと:

    • エンジニアやってるよりも、媒体のUXを改善したほうが金になるんじゃね?
      • KDDに行ってきて(宣伝:LINEでは会議に社費で行かせてくれるよ!)、Airbnbの人たちがABテストのメトリクスをどう測ればいいかを論じていたのを聞いてそう思った
      • 機械学習の精度を何%上げましょう、よりも収益に直接結びつく
  • 本橋智光(前処理大全の著者)が同僚だったが転職した。ので、俺も移るか、と思ってLINEに来た

  • 景気が良いから、私には「機械学習エンジニア」というラベルが貼られて、お金をたくさんもらえているという状態です。

@xecus(大田黒) 株式会社 ABEJA 「(仮)ABEJA InsightにおけるML活用サービスのデリバリー」

  • 2015年新卒入社。趣味はいろいろ工作すること。

    • 脈拍計で異常検知したり、FPGAやったり
  • 会社紹介

    • 2012年に創業
    • NVIDIAから、アジアで唯一出資してもらった
  • 2つのサービスを運営している

    1. ABEJA Platform AIプラットフォーム
    2. ABEJA Insight 特定業種向けのアプリケーション群
  • ABEJA Insightの中の1つであるABEJA Insight for retail

    • 店舗経営をする人向けのプラットフォーム
    • 映像を解析し、性別年齢を推定する
    • 最近はリピーター推定機能に取り組んでいる
    • 顔の特徴量の抽出は法的にグレーゾーン……
    • 経済産業省のワーキンググループに参加して、規則を整備しつつ開発した
  • データのデリバリーは考えればできるのだが、運用観点でのバックエンド設計ができずに辛かった

  • データ転送関連

    • 映像をクラウドに垂れ流しているので、「P2Pやファイル共有とかやってるんじゃないか」と、ISPや情シスからブロックされたりした
    • PASMO決済ができなくなったことがあった
  • 設置環境が多様になって、エンジニアの対応工数が増えてきた

    • 天井がない店舗で、「数十メートル離れたところからカメラ設置して年齢性別を取れるか?」と言われたり
  • バイス品質の見える化が大事 システムを導入して安心していたけど、実は導入してからが本番

  • 環境が変わることでデータ採取に失敗する例

    • 特定時間帯だけデータが取れないんだけど→逆光だった
    • オクルージョン(遮蔽物により認識したい物体の一部が隠れてしまう事象)
      • 店舗内の配置が変わるとカメラに映る人の顔が隠れたりする
      • 七夕イベントは要注意!笹の葉によるオクルージョンが発生する

LT

@techeten : Jupyter だけで機械学習を実サービス展開できる基盤 ~ サイエンティストとエンジニアの共生へ ~

リクルートグループのサービス横断の利益創出チームに所属
プランナー・サイエンティスト・エンジニアという組織
いろいろなサービスの運用から企画が上がってくるので、当たりを見つけて、見つけたら他に応用していきたい

本番環境から呼べるABテストのサーバーが必要
サイエンティストがエンジニアをしている余力がない

構築した基盤の詳細については、リクルートライフスタイルの技術ブログを参照 engineer.recruit-lifestyle.co.jp

自由に使えるjupyter環境
papermill を使って、notebookをそのままバッチ実行できる

kubeFlow, MLflowなどがあるが使わないのか?
工数はあまりとらず、今のところ2人月くらいで開発した。要件を満たす物があれば置き換えも可能 →構築した基盤環境は疎結合なので、いいツールがあったらパーツを置き換えられるようにしている

@yukiyan_w「機械学習基盤を一人で構築するということ」

TimeTree ユーザ数はグローバルで1000万 予定に関するターゲティング広告を出したい。そのためにユーザの予定を分類する

機械学習が未経験の状態から、だいたい3ヶ月でリリースした 学習時に単語の前処理に時間がかかる→spark(databricks)

やったことないのない技術は、PoCの延長ぽくなってしまう
→タスクの洗い出し、見積もりに重点を置いた。プロダクトオーナーとの握りの部分

技術的負債が貯まるのを避けるために、ドキュメントかいて口頭で共有した。

KiichiUeta 「JapanTaxiにおける機械学習活用事例」

ドライバ向け 流し需要予測システム

BIチーム データ基盤整理、レポート作成化・可視化
AIチーム 機械学習の高度なロジックを考える

エリア別の需要予測 未来の需要を予測して可視化する。500メートル四方のメッシュ。
過去実績に加えて、天気、電車運行、イベント情報、人口動態を入力とする
電車が止まるとタクシー需要が増大するため。
人口動態は携帯のGPSデータの集積

ピンポイントで需要スポットの予測 タクシーの乗車実績を入力とし、クラスタリング DBscanを使う

ディスカッション

(回答者は発表者の高柳さん・大田黒さん。どちらの回答であるかは下記に書いていません。このパートはスライドが無いので、うまくメモできなかったところは私の判断でカットしています。)

今後年収を上げるために機械学習エンジニアが身につけるべきスキルは何だと思いますか?

業界が物を言うので、高収入な業界に行くと良さそう。
素直にエンジニアやってれば良いんじゃないかと思う。
金になりそうなプロジェクトに自分から首を突っ込め

AWSGCPのインフラ周り
業界独自のドメイン知識を十分に持っていると強い

GoogleのAutoMLのような、機械学習エンジニアは今後いらなくなるんじゃないかという風潮についてはどう考えてますか?

最終的にはエンジニアによって終わるんじゃないかなー
継続的な運用が肝心だと思うので、autoMLでやってるのを継続的に精度改善とかしていく形になるのではないか 大企業の大規模データだと、AutoMLを使うと一瞬で大量の課金が発生してしまうので、使用は現実的ではない

効果的なエンジニア採用方法
勉強会とかリファラルとか、色々ですね。wantedlyで採用をやってはいるけど、なかなか難しい。
面白いデータを扱っている感を出すとよい
伝手はめっちゃ重要。
応募者のコードを見よう

技術ブログを書かないと「あの会社、何やってるか分からん」と言われて応募されない傾向にある

機械学習システムはかなり利用企業の事情に反映されやすいと思いますが、kubeflowなどで汎化は可能だと思いますか?

繰り返しになるが、運用フェーズが肝だなと思っている
顧客企業が少ないうちはいいけど、増えてくると運用に耐えられないことが起きる

パブリッククラウドほとんど使ってない、自社で管理している
LINEの技術ブログのどこかに書いてあるけど、OpenStackを使ったプライベートクラウドがほとんど

(このあたりの記事が近いか?)
LINE Engineer Insights vol.4「OpenStackベースのPrivate cloud "Verda" の野望」 - LINE ENGINEERING
OpenStackベースの自社クラウド "Verda" - LINE DEVELOPER DAY 2017|開発ソフトウェア|IT製品の事例・解説記事

関連リンク

Togetterまとめ
Machine Learning Casual Talks #7 まとめ #MLCT - Togetter

私はこの勉強会にブログ枠で参加していましたが、同じブログ枠にいた他のお二人が先に記事を書いていたので紹介します。

@__john_smith__さん
Machine Learning Casual Talks #7に参加してきました #MLCT | DevelopersIO

@tai_hatakeさん
Machine Learning Casual Talks #7@メルカリを聞いてきました! | 稼げるエンジニアになる

それでは。