検索のランキング処理を改善するポイント（『機械学習による検索ランキング改善ガイド』を執筆しました）

こんにちは。LINEヤフー株式会社で検索エンジン上の機能開発のマネジメントを行っている真鍋です。

検索エンジンというとYahoo!検索などのウェブサービスを思い浮かべるかもしれません。今回は、ウェブサービスの裏側で動いているソフトウェアについてお話しします。検索エンジンには、オープンソースの有名な実装がいくつかあります。私たちのチームは、その実装の上にLINEヤフー独自の機能開発を行う立場にあります。ソフトウェアとしての検索エンジンは汎用（はんよう）にできているので、機能開発を行うことで、複数のウェブサービスに適用できるという面白さがあります。

検索エンジンの処理は大きく2段階に分けられます。

処理１：マッチング

クエリに対して、どのドキュメントを検索結果に出すか判定する処理です。

たとえば商品検索サービスに「テレビ」と入力して検索ボタンを押したとします。この「テレビ」がクエリです。それに対して、商品検索サービスに登録されている商品がドキュメントです。商品検索サービスの裏側にある検索エンジンでは、「65型有機ELテレビ」という商品には「テレビ」が含まれているので「テレビ」の検索結果に表示する、「500リットル6ドア冷蔵庫」という商品には「テレビ」が含まれていないので「テレビ」の検索結果に表示しない、などと判定します。これがマッチングです。

検索結果に表示すると判定されたドキュメントの数が、ヒット件数です。ヒット件数は非常に多く、人間がすべてのドキュメントを確認はできないので、ランキングの処理が必要になります。

処理２：ランキング

検索結果へ表示すると判定されたドキュメントを、より検索意図に近そうな順に並べ替える処理です。引き続き商品検索サービスの例でいえば、「テレビ」と入力するユーザーは、テレビ本体を探していると考えられます。これが検索意図です。このとき、「テレビリモコン」という商品には「テレビ」が含まれてはいますが、テレビ本体ではないので、表示の順番を後回しにしたほうが良さそうです。これがランキングです。

検索結果はランキング順に表示します。たとえ数百件でも人間の目で確認するのは大変ですが、ヒット件数が数百万件になるウェブサービスもあります。そのため1万分の1のデータを選び出す処理のランキングが重要となります。それゆえに、ランキング作成は難しく、かつ興味深い処理となります。より検索意図に沿うように順序を変更することを、ランキング改善と呼びます。これは検索サービスの改善に欠かせない作業です。しかし一般的に、ランキングを改善するには果てしない試行錯誤が必要となります。そのため、その部分を機械学習に任せることで、作業負荷の軽減を目指します。

書籍の紹介

さて本題です。業務を行う中で得た知見を、書籍として出版していただく機会に恵まれました。もっと詳しく知りたくなった人は、ぜひこちらもご覧いただけるとうれしいです。

真鍋知博、社本秀之、井関洋平、鈴木翔吾著

『機械学習による検索ランキング改善ガイド ―技術解説とハンズオンで学ぶ機械学習ランキングモデルの導入と改善』

（オライリー・ジャパン発行、ISBN978-4-8144-0030-0）

O’Reilly Japan Blog - 8月新刊情報『機械学習による検索ランキング改善ガイド』（外部サイト）

「ランキングを改善する」というのは簡単です。しかしそのために一般のウェブサービスでは複数のチームが連携して動く必要があります。また改善の本質は試行錯誤になるため、改善に要する期間も長くなります。プロジェクトともいうべき一連の流れのうち、カバーする範囲が広いのが本書の特長の1つです。具体的には、改善そのものの前にやるべきKPI設定や、機械学習したモデルの更新についてもカバーしています。あえて機械学習を使わないランキング改善についても扱うことで、スモールスタートしてからコストのかかる機械学習の導入へとステップアップできるようにもしています。

本書は2部構成になっており、後半で実際にコードを動かしてハンズオンを行うのも本書の特長です。環境はDocker Composeで立ち上げます。中心となる検索エンジンとしては、オープンソースのElasticsearchを立ち上げます。（ただし本書の前半では、他の有名な実装であるSolrについても説明しています。）そこにWikipediaデータの一部を入力し、Wikipediaデータを扱う検索システムのランキング改善を行います。本書の前半を読んで知識をつけた後、後半のハンズオンで定着させることを意図しました。

おわりに

もともと本書の元になった企画は社内での情報共有を意図していましたが、結果的には皆様に読んでいただける形となりました。本書が多くのサービス開発者の皆様、そして間接的に多くのユーザーの皆様のお役に立てることを願っています。

処理１：マッチング

処理２：ランキング

ランキングを改善する

書籍の紹介

おわりに

Related Post