Machine Learning Casual Talks #9 イベントレポート #MLCT

2019年3月8日に開催されたこのイベントに参加してきました。
Machine Learning Casual Talks #9 - connpass
ブログ枠で申し込んだのに記事を書かないまま1ヶ月以上経ってしまった……申し訳ないです……
以下、敬称略です。

発表

@satoshihirose 株式会社スマートニュース「Data Engineering at SmartNews

会場に遅く着いたため発表を聞けませんでした。スライドをご覧ください。

@ruka_funaki(舟木類佳) 株式会社LegalForce 「LegalForceにおける契約書言語処理システムの開発について」

ある言語から別の言語を検索する、言語横断の文書検索

  • LegalForceは、リーガルテック(法律×テクノロジー)の会社

    • 契約がまずいと、揉め事が起きたり訴訟が起きたり…
    • 弁護士でも35%ミスをする というアメリカの統計もある
    • 現在はベータ版を各社に使ってもらっていて、4月に正式版をリリースする予定
  • できること

    • 契約書のレビュー:抜け漏れがあったら指摘する
    • 条文検索:過去に結んだ契約から条文を検索する
  • 構成

  • LegalForce Zoo:公開しているAPIの集まり。各APIを動物と関連させているので動物園という名前

    • Article Search
    • Document Parse
      など10以上ある。実際の製品ではこの各APIを組み合わせて作っている。
  • 事例紹介:契約書の構造解析(パース)
    契約書を意味のまとまり(第何条とか)に分割したい

    • 結構いろんなパターンがあって、複雑……
    • 正規表現の多用でなんとかしてたけど、つらい
    • いろいろ考えて、下記のやり方にした
      • 行ごとに分割する
      • 行ごとにラベルをつける(正規表現を使って)
      • まとめる
      • この「まとめる」に、オートマトンによる状態遷移を使った
      • 例えば「条文のタイトルは既に出てきた」のような状態を作り、1行を読み込むごとに状態遷移する

LT

@mogamin (Mogami Takashi)ウルシステムズ: 「Pytorch強化学習プラットフォーム?Horizonのドキュメントを読む」

  • pytorchの強化学習フレームワーク、Horizonが1月末あたりに出てきた
  • GitHubを見てみると、Scalaが7%ほどある!? (Sparkパイプライン部分だと思われる)
  • 他の強化学習プラットフォーム(chainer RL、keras RL)と違ってプロダクションユースケース向けに設計したよ
  • 大規模データに対応しているよ
  • 大きな値の特徴量が出てくると処理が不安定になるので、適切に正規化する

@nishiba(西場正浩) エムスリー: 「Graphの推薦システムへの応用」

  • 医療向けのサービスなので、データ数が少ない
  • 日本の医者は約30万人です。
  • 正解ラベルが少ない…
  • しかし、そのおかげでグラフがメモリに乗るんじゃないの?
  • 医者に向けたメールで、ニュース記事を推薦することが対象
  • cold-start問題(評価用のデータが集まる前の初期段階は推薦ができないという問題。参考)に対処できる
  • LDA(Latent Dirichlet Allocation)トピック分類をして、記事のcold-startに対処した
  • ランキングに基づいた推薦は全ユーザーに同一のものを推薦するが、推薦モデルは(もちろん)ユーザーごとに異なる記事を推薦する。
  • 両者をアンサンブルすると、ベースはランキング推薦になるが、ユーザーごとの情報も使っていい塩梅になるようだ

@tkngue(竹野峻輔) Retty: 「Webサービスにおけるデータサイクルのデザイン」

paper.dropbox.com

  • データのエコシステムのデザインって、どうやってる?
  • 飲食店を紹介するキャッチコピーを自動生成する問題
  • テンプレート型、生成型の手法は難しい…
  • ユーザーの口コミからキャッチコピーを切り出した
  • 機械学習は「どれがよりキャッチコピーらしいか」の判定に専念した。ロジスティック回帰を用いた
  • データの隠れた構造を導き出すのは面白い
    • 今回の場合:口コミ文は、飲食店に対する適切な推薦文になるよね!

ディスカッション

  • 契約書はセンシティブなのでクラウドにアップロードするのは難しいのでは?

    • 弊社に問い合わせする会社の大半は「クラウドだろうな」って予想してからお問い合わせしてくるので、あまり問題は起きていない。
      AWSだからダメだね、と言われたのは聞いたことがないね……
      データのセキュリティには留意している
  • 初期段階で契約書をどうやって集めたのか(cold-start問題)

    • 最初は無いので、貰うしかない
    • 製品パートナーの会社と、「そちらの過去の契約書を使わせてください。代わりに製品を使っていいですよ」という契約を結んだ
  • 精度評価の指標は何を使っているか

    • precisionとrecallが多い
    • 学生にも分かりやすい指標。大学の法学部のインターン生が弊社には大勢いる。
  • B2Bだと 「この文言を特に重要視する」みたいな重み付けがあるのでは?

    • ポリシー設定があり、顧客の側で優先度付けを変更する
  • ネガティブな口コミがキャッチコピーに出て来たりしないの?

    • キャッチコピーに出現しやすい単語、出現しにくい単語を最初に入れているので、結果的にネガティブな口コミは除外できている

関連リンク

私はこの勉強会にブログ枠で参加していましたが、同じブログ枠にいた方が先に記事を書いていたので紹介します。

@kumapoさん
Machine Learning Casual Talks #9 に参加してきた - Qiita

それでは。