2019年3月8日に開催されたこのイベントに参加してきました。
Machine Learning Casual Talks #9 - connpass
ブログ枠で申し込んだのに記事を書かないまま1ヶ月以上経ってしまった……申し訳ないです……
以下、敬称略です。
発表
@satoshihirose 株式会社スマートニュース「Data Engineering at SmartNews」
会場に遅く着いたため発表を聞けませんでした。スライドをご覧ください。
@ruka_funaki(舟木類佳) 株式会社LegalForce 「LegalForceにおける契約書言語処理システムの開発について」
ある言語から別の言語を検索する、言語横断の文書検索
LegalForceは、リーガルテック(法律×テクノロジー)の会社
- 契約がまずいと、揉め事が起きたり訴訟が起きたり…
- 弁護士でも35%ミスをする というアメリカの統計もある
- 現在はベータ版を各社に使ってもらっていて、4月に正式版をリリースする予定
できること
- 契約書のレビュー:抜け漏れがあったら指摘する
- 条文検索:過去に結んだ契約から条文を検索する
構成
- サービス開発部門が 動いてるウェブアプリケーションをつくる。研究開発部門が APIを作って、そこを叩く
LegalForce Zoo:公開しているAPIの集まり。各APIを動物と関連させているので動物園という名前
- Article Search
- Document Parse
など10以上ある。実際の製品ではこの各APIを組み合わせて作っている。
事例紹介:契約書の構造解析(パース)
契約書を意味のまとまり(第何条とか)に分割したい
LT
@mogamin (Mogami Takashi)ウルシステムズ: 「Pytorch強化学習プラットフォーム?Horizonのドキュメントを読む」
- pytorchの強化学習フレームワーク、Horizonが1月末あたりに出てきた
- GitHubを見てみると、Scalaが7%ほどある!? (Sparkパイプライン部分だと思われる)
- 他の強化学習プラットフォーム(chainer RL、keras RL)と違ってプロダクションユースケース向けに設計したよ
- 大規模データに対応しているよ
- 大きな値の特徴量が出てくると処理が不安定になるので、適切に正規化する
@nishiba(西場正浩) エムスリー: 「Graphの推薦システムへの応用」
- 医療向けのサービスなので、データ数が少ない
- 日本の医者は約30万人です。
- 正解ラベルが少ない…
- しかし、そのおかげでグラフがメモリに乗るんじゃないの?
- 医者に向けたメールで、ニュース記事を推薦することが対象
- cold-start問題(評価用のデータが集まる前の初期段階は推薦ができないという問題。参考)に対処できる
- LDA(Latent Dirichlet Allocation)トピック分類をして、記事のcold-startに対処した
- ランキングに基づいた推薦は全ユーザーに同一のものを推薦するが、推薦モデルは(もちろん)ユーザーごとに異なる記事を推薦する。
- 両者をアンサンブルすると、ベースはランキング推薦になるが、ユーザーごとの情報も使っていい塩梅になるようだ
@tkngue(竹野峻輔) Retty: 「Webサービスにおけるデータサイクルのデザイン」
- データのエコシステムのデザインって、どうやってる?
- 飲食店を紹介するキャッチコピーを自動生成する問題
- テンプレート型、生成型の手法は難しい…
- ユーザーの口コミからキャッチコピーを切り出した
- 機械学習は「どれがよりキャッチコピーらしいか」の判定に専念した。ロジスティック回帰を用いた
- データの隠れた構造を導き出すのは面白い
- 今回の場合:口コミ文は、飲食店に対する適切な推薦文になるよね!
ディスカッション
契約書はセンシティブなのでクラウドにアップロードするのは難しいのでは?
初期段階で契約書をどうやって集めたのか(cold-start問題)
- 最初は無いので、貰うしかない
- 製品パートナーの会社と、「そちらの過去の契約書を使わせてください。代わりに製品を使っていいですよ」という契約を結んだ
精度評価の指標は何を使っているか
- precisionとrecallが多い
- 学生にも分かりやすい指標。大学の法学部のインターン生が弊社には大勢いる。
B2Bだと 「この文言を特に重要視する」みたいな重み付けがあるのでは?
- ポリシー設定があり、顧客の側で優先度付けを変更する
ネガティブな口コミがキャッチコピーに出て来たりしないの?
- キャッチコピーに出現しやすい単語、出現しにくい単語を最初に入れているので、結果的にネガティブな口コミは除外できている
関連リンク
私はこの勉強会にブログ枠で参加していましたが、同じブログ枠にいた方が先に記事を書いていたので紹介します。
@kumapoさん
Machine Learning Casual Talks #9 に参加してきた - Qiita
それでは。