【簡単解説】行列を使った大量データ整理 〜Google検索とページランク〜

ページごとの相関図

検索の「順番」ってどう決まっているの?

私たちは毎日、Googleで検索して情報を探しています。ところで、検索結果のページは、なぜあの順番で並んでいるのでしょうか?

実は、その裏では「どのページがより信頼できるか」を計算で判断しています。その計算に使われているのがページランク(PageRank)という考え方です。

 


リンクが多いページは「人気があるページ」

インターネットのページは、他のページへリンクを貼ったり貼られたりしています。

例えば、たくさんのサイトから紹介されているページは、多くの人に「参考にされている」ページです。これは、人間の世界で「よく名前が挙がる人は信頼されている」ことと似ています。

 


かわいい図で見るページランク

行列を使って算出するページランク

リンクがたくさん集まるページ、そして価値の高いページからリンクされているページは、もっと価値が高くなります。

これがGoogleのページランクの基本アイデアです。

 


ここで「行列」の出番!

では、インターネット中のページ(何十億ページ)について、その「価値」を数値化するにはどうしたらいいのでしょうか?

そこで活躍するのが、数学の道具である行列(Matrix)です。

行列は、たくさんの情報を表の形に整理して、一気に計算できる仕組みです。

行列図

このように「ページのつながり」を表として並べることで、コンピュータは「ページの価値」を反復計算で求めることができます。

 


📝 深掘り:ページランク計算のイメージ

ページの価値(ランク)は、「どこからリンクされているか」をたどりながら、何度も値を更新していくことで安定します。数式では下のような形になります:

R = M × R

ここで、

⚫︎Rはページの価値ベクトル
⚫︎Mはリンクを表す行列

 

です。これは「自分の価値は、自分へ流れ込む価値の合計で決まる」という意味になります。

 

つまり、ページランクとは「価値がぐるぐる回って落ち着いた量」を計算したもの。

これが本質 です。

 

ページランクを使って「ページの重要さ」を決めるしくみ

被リンクの相関図

今回の例では、4つのページ A・B・C・D が次のようにつながっています。

例えば、ページAはページBとCへリンクしています。そのため、ページAにいる人がリンクをクリックすると、どちらかに移動します。このような「リンクによる移動の確率」を考えて、ページの重要度(ページランク)を求めます。


📊 ページランクを表す変数

 

・ページAのランク → rA
・ページBのランク → rB
・ページCのランク → rC
・ページDのランク → rD

🔢 ページランクの連立方程式

各ページのランクは、他のページからどれだけリンクされているかで決まります。

 

rA= 1 ×rC
rB = (1/2)rA+ (1/2)rD
rC = (1/2)rA+ (1/2)rB+ (1/2)rD
rD
 = (1/2)rB

 

この式は「価値がリンクを通じて流れ込む」と考えるとイメージしやすいです。

 


🧮 行列を使うと一気に計算できる

上の連立方程式は、次のように 行列 でまとめられます。

後はこれを計算すればページランクが算出できますね。

行列を使ったページランクの算出

行列を使うと、ページ数が何万・何億になっても、コンピュータがとても効率よく計算できます。これが、Googleが「行列」を利用している理由です。

 


まとめ

⚫︎Webページはリンクでつながっている
⚫︎リンクされているページは「価値が高い」
⚫︎価値の高いページからリンクされると、さらに価値が高い
⚫︎その価値の計算には行列が使われている

 

数学は、インターネットや検索にも深く使われているんですね!