目次
「BERT」って何?
このブログをご覧になっている皆さんは、おそらくその疑問を胸に抱いているのではないか、と思います。
BERTとは、Googleが開発し、2018年末に発表したオープンソースモデル、「Bidirectional Encoder Representations from Transformers」の頭文字をとったもので、日本語に訳すと「Transformerによる双方向のエンコード表現」となります。
BERTは、私たちが普段何気なく使っている言い回しや表現、つまり自然言語を機械的に処理するためのモデルで、ではどのように処理するかというと、それが「Transformerによる双方向のエンコード表現」という自然言語処理技術です。
この「BERT」。ひょっとしたら、自然言語処理の世界を一変させるのではないか、といわれています。
では、「BERT」のどのような点が革新的で、インパクトがあるのでしょうか?
その特筆すべき特徴を見ていきます。
BERTの生み出す価値を知るためには、BERTの果たす役割と、その機能を知ると良いでしょう。
BERTは、AIによる自然言語処理(NLP)のための機械学習を大きく進めるモデルだといわれています。
その最も大きな特徴は、特有のテキストマイニング技術です。BERTはごくごく当たり前にある「そのままの」テキストデータで学習できます。
これまでのAIでは、AIに学習させるためには、テキストデータを決められた形に直す必要がありました。
この、決められた形に直すには膨大な時間と費用がかかるため、特に非英語圏では多くのデータを入手するのが難しい状況がありました。
それに対し、「普通の」テキストデータをエンコードしてくれます。
さらに、BERTでエンコードしたデータは、他の様々な自然言語処理モデルに応用することができるのです。
料理に例えるなら、これまで下ごしらえができていない素材でしかとれなかった出汁が取れるようになり、その出汁はどんな料理にも合って、すっごくおいしくしてくれる。BERTはそんな役割を果たしているのです。
そのうえ、BERTはこれまでにない革新的な処理モデルを持っており、その処理モデルによって生み出された結果は、広い範囲のテストで極めて優秀な結果を示しています。
ここでキーワードになるのが、「双方向」ということ。
今までの自然減処理では多くの場合、「今日は→雨→だった」のように、前から順番に処理をするか、または後ろから順番に一方通行で処理していました。それに対しBERTは、「今日は?だった」のように穴埋めクイズを作り、前後の言葉を総合して「?」に何が入るのかを推測します。そして、推測する中で、文脈に沿った適切な表現を学習していきます。
このことは、普段私たちが「言葉を選ぶ」「言葉を知る」モデルによく似ています。
皆さん自身も、言葉を選ぶときにはそれまでの会話や文章の流れに沿って選びますよね。
そして、友人が話した内容がいまいちわからなくても、ずっと聞いていると流れでわかることもあると思います。
このように、私たちは一方通行ではなく、前後の文脈を行ったり来たりしながら意味を理解します。
BERTは、そのような意味の理解の仕方に近い形で意味を推測します。
さらに、ランダムに並んだ二つの文の並びが正しいかどうかも隣接する文から判断します。
このように、BERTは「流れ」や「文脈」を理解することを大きな目的として作られています。
では、このように前後の文脈から意味を把握する力が、どのように検索に影響を与えるのでしょう。
皆さんは、グーグルで何かを検索する場合、どのように検索しますか?
「Google BERT 意味不明」のように単語と単語をスペースで区切って検索しませんか?
これは、機械は単語と、単語の組み合わせを特徴あるパターンとして判断しているため、その機械に分かりやすいよう人間が併せて工夫をしているやり方です。
ビジネスの本には、検索窓にどんな単語を入れるかもビジネススキルのひとつだ、と書かれていることもありますね。
ただ、このような形式での検索の場合、問題は「ニュアンス」が伝わりにくく、時にはほしい情報が手に入らないことです。
「ブラジルからアメリカ旅行」と検索すると、アメリカ人がブラジルに行く方法が表示される、ということがあるそうです。機械が「ブラジル アメリカ 旅行」というキーワードに反応したパターンですね。
この場合、機械はキーワードが重要だと学習しているため、そこに注目しています。
でも、ここで大切なのは「から」という点ですよね。この、「から」のような言葉も大事なんだよ、と教えてあげると、機械はそこにもちゃんと注目してくれるようになります。
日常の会話を、検索窓に打ち込むキーワードのようにする人はあまりいないと思います。
日常の会話は、多様な表現で不規則に行われます。その分、機械的に判断するのは難しいのです。
この、多様さや不規則さを前後の文脈から読み取ろうとするのがBERTであり、今後はスマートスピーカーやスマホのデジタルアシスタントのような、口語に接する機器に生かされていくだろうといわれています。
GoogleのBERT採用を発表したPandu Nayak(パンドゥ・ナヤク)氏は、「概して言えば、より複雑なクエリに対する結果を BERT は改善する」と言っています。
これまでは認識されにくかった言葉や表現、私たちが日常に使っている言葉や表現(より複雑なクエリ)への対応力を高めることが目的なのです。
これは、私たち人間がユーザーとして検索するときのみならず、サイトの内容や価値を判断するためにWEB上を巡回しているクローラーがサイトを評価する場合にも使われます。
このことによって、これまで以上に文脈を大切にした文が上位表示されやすくなるのではないか、といわれています。
では、SEO的にどのようにBERTに対応すればいいのでしょう?
重要なことは、これまでもまれにあったように、文章の内容はどうでも、検索上位のキーワードは全部入っている、というようないわゆるSEO向けの文は評価されにくくなることです。
BERTは、文脈に沿った表現の妥当性だけでなく、文と文のつながりも評価します。このようなモデルが検索エンジンに導入される、ということは、クローラーにおける高品質なサイトの評価ロジックがこれまでと変わる可能性があります。具体的には、キーワードだけでなく文脈についても評価され、その結果、Googleが提唱する「EAT、「Expertise(専門性があること)」「Authoritativeness (権威があること)」「TrustWorthiness (信頼できること)」はこれまで以上に相互関連性の中で評価されるようになるでしょう。
つまり、構成においても、出展においても、ライティングにおいても質の高いコンテンツを作成することが、BERTから始まるこれからのSEO対策の中で重要になります。
BERTは、SEO対策においてはひょっとすると大規模な変更を余儀なくされる種類のアップデートかもしれません。
ですが、これまでにあったような自然言語処理が未成熟だった隙をつくようなテクニカルなサイトが評価されることを避け、相互に関連性が高く、それがわかりやすいコンテンツが評価されやすくなるという点においては、よりユーザーにとって価値のあるサイトが評価される可能性を高める、という点で進歩といえるでしょう。
そしてそれ以上に、BERTによって生まれた「文脈を理解させる」というストリームは、今後の自然言語処理の発展に対する基礎となるでしょう。