PR (A) = (1-d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))Jadi, pertama-tama, kita melihat PageRank yang tidak peringkat situs web secara keseluruhan, namun ditentukan untuk setiap halaman secara individual. Selanjutnya, PageRank halaman A rekursif didefinisikan oleh PageRanks dari halaman-halaman yang link ke halaman A.
dimana
PR (A) adalah PageRank dari halaman A,
PR (Ti) adalah PageRank dari Ti halaman yang link ke halaman A,
C (Ti) adalah jumlah link keluar pada halaman Ti dan
d adalah damping factor yang dapat diatur antara 0 dan 1.
PageRank dari halaman Ti yang link ke halaman A tidak mempengaruhi PageRank halaman A seragam. Dalam algoritma PageRank, PageRank dari halaman T selalu ditimbang dengan jumlah C outbound link (T) pada halaman T. Ini berarti bahwa semakin banyak link keluar T menampilkan, yang kurang akan Sebuah halaman manfaat dari link ke pada halaman T.
PageRank tertimbang halaman Ti kemudian ditambahkan. Hasil dari ini adalah bahwa inbound link tambahan untuk Sebuah halaman akan selalu meningkatkan PageRank halaman A.
Akhirnya, jumlah dari PageRanks tertimbang dari semua Ti halaman dikalikan dengan d faktor redaman yang dapat diatur antara 0 dan 1. Dengan demikian, memperpanjang manfaat PageRank untuk halaman dengan halaman lain menghubungkan ke berkurang.
Model Acak Surfer
Dalam publikasi mereka, Lawrence Page dan Sergey Brin memberikan pembenaran intuitif sangat sederhana untuk algoritma PageRank. Mereka menganggap PageRank sebagai model perilaku pengguna, di mana klik surfer pada link secara acak tanpa memperhatikan terhadap konten.
Para surfer acak mengunjungi sebuah halaman web dengan probabilitas tertentu yang berasal dari PageRank halaman. Probabilitas bahwa klik surfer acak pada satu link semata-mata diberikan dengan jumlah link pada halaman tersebut. Inilah sebabnya mengapa PageRank satu halaman tidak sepenuhnya diteruskan ke halaman itu link ke, tetapi dibagi dengan jumlah link pada halaman.
Jadi, kemungkinan untuk surfer acak mencapai satu halaman adalah jumlah probabilitas untuk surfer acak mengikuti link ke halaman ini. Sekarang, probabilitas ini dikurangi dengan faktor redaman d. Pembenaran dalam Model Surfer Acak, oleh karena itu, adalah bahwa surfer tidak mengklik pada link jumlah tak terbatas, tapi kadang-kadang bosan dan melompat ke halaman lain secara acak.
Probabilitas untuk surfer acak tidak berhenti untuk mengklik link yang diberikan oleh faktor d redaman, yang, tergantung pada tingkat probabilitas Oleh karena itu, diatur antara 0 dan 1. D lebih tinggi, semakin besar kemungkinan akan surfer acak terus mengklik link. Karena surfer melompat ke halaman lain secara acak setelah ia berhenti mengklik link, probabilitas karena itu diimplementasikan sebagai konstanta (1-d) ke dalam algoritma. Terlepas dari inbound link, kemungkinan untuk surfer acak melompat ke halaman selalu (1-d), sehingga halaman selalu PageRank minimal.
Sebuah Notasi yang berbeda dari Algoritma PageRank
Lawrence Page dan Sergey Brin telah menerbitkan dua versi yang berbeda dari algoritma PageRank mereka di kertas yang berbeda. Dalam versi kedua algoritma, PageRank dari halaman A diberikan sebagai
PR (A) = (1-d) / N + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))
di mana N adalah jumlah total dari semua halaman di web. Versi kedua dari algoritma, memang, tidak berbeda secara fundamental dari yang pertama. Mengenai Model Surfer Acak, PageRank versi kedua tentang halaman adalah probabilitas aktual untuk surfer mencapai halaman tersebut setelah mengklik banyak link. PageRanks kemudian membentuk distribusi probabilitas atas halaman web, sehingga jumlah PageRanks semua halaman 'akan menjadi salah satu.
Sebaliknya, dalam versi pertama dari algoritma probabilitas untuk surfer acak mencapai halaman tertimbang dengan jumlah total halaman web. Jadi, dalam versi ini PageRank adalah nilai yang diharapkan untuk surfer acak mengunjungi halaman, ketika dia restart prosedur ini sesering web memiliki halaman. Jika web memiliki 100 halaman dan halaman memiliki nilai PageRank dari 2, surfer acak akan mencapai halaman yang mendapatkan rata-rata dua kali jika dia restart 100 kali.
Seperti disebutkan di atas, dua versi dari algoritma tidak secara fundamental berbeda dari satu sama lain. Sebuah PageRank yang telah dihitung dengan menggunakan versi kedua algoritma harus dikalikan dengan jumlah total halaman web untuk mendapatkan PageRank sesuai yang telah caculated dengan menggunakan versi pertama. Bahkan Page dan Brin bercampur versi algoritma kedua dalam makalah mereka yang paling populer "The Anatomy of a Engine Web Skala Besar Cari hypertextual", di mana mereka mengklaim versi pertama dari algoritma untuk membentuk distribusi probabilitas atas halaman web dengan jumlah PageRanks semua halaman 'menjadi salah satu.
Dalam berikut, kita akan menggunakan versi pertama dari algoritma. Alasannya adalah bahwa perhitungan PageRank dengan cara algoritma ini lebih mudah untuk menghitung, karena kita bisa mengabaikan jumlah halaman web.
Karakteristik dari PageRank
Karakteristik PageRank akan digambarkan oleh contoh kecil.
Kami menganggap web kecil yang terdiri dari tiga halaman A, B dan C, dimana halaman A link ke B dan C halaman, B link halaman ke halaman C dan C link halaman ke halaman A. Menurut Page dan Brin, faktor d redaman biasanya diatur ke 0,85, tetapi untuk menjaga sederhana perhitungan kita set ke 0,5. Nilai yang tepat dari d faktor redaman diakui memiliki efek pada PageRank, tetapi tidak mempengaruhi prinsip-prinsip dasar PageRank. Jadi, kita mendapatkan persamaan berikut untuk perhitungan PageRank:
PR (A) = 0,5 + 0,5 PR (C)
PR (B) = 0,5 + 0,5 (PR (A) / 2)
PR (C) = 0,5 + 0,5 (PR (A) / 2 + PR (B))
Persamaan ini dengan mudah dapat diselesaikan. Kami mendapatkan nilai PageRank berikut untuk halaman tunggal:
PR (A) = 14/13 = 1,07692308
PR (B) = 10/13 = 0,76923077
PR (C) = 15/13 = 1,15384615
Hal ini jelas bahwa jumlah PageRanks semua halaman 'adalah 3 dan dengan demikian sama dengan jumlah halaman web. Sebagaimana ditunjukkan di atas ini bukan hasil yang spesifik untuk contoh sederhana kami.
Sebagai contoh sederhana kami tiga-halaman itu mudah untuk memecahkan sistem persamaan sesuai untuk menentukan nilai PageRank. Dalam prakteknya, web terdiri dari miliaran dokumen dan tidak mungkin untuk menemukan solusi dengan inspeksi.
The Iteratif Perhitungan PageRank
Karena ukuran web yang sebenarnya, mesin pencari Google menggunakan suatu approximative, berulang perhitungan nilai PageRank. Ini berarti bahwa setiap halaman diberi nilai mulai awal dan PageRanks dari semua halaman yang kemudian dihitung di kalangan perhitungan beberapa didasarkan pada persamaan ditentukan oleh algoritma PageRank. Perhitungan berulang lagi akan digambarkan oleh tiga halaman contoh kita, dimana setiap halaman diberi nilai PageRank mulai dari 1.
Perulangan PR (A) PR (B) PR (C)
0 1 1 1
1 1 0.75 1.125
2 1.0625 0.765625 1.1484375
3 1.07421875 0.76855469 1.15283203
4 1.07641602 0.76910400 1.15365601
5 1.07682800 0.76920700 1.15381050
6 1.07690525 0.76922631 1.15383947
7 1.07691973 0.76922993 1.15384490
8 1.07692245 0.76923061 1.15384592
9 1.07692296 0.76923074 1.15384611
10 1.07692305 0.76923076 1.15384615
11 1.07692307 0.76923077 1.15384615
12 1.07692308 0.76923077 1.15384615
Kita melihat bahwa kita mendapatkan pendekatan yang baik dari nilai PageRank nyata setelah hanya beberapa iterasi. Menurut publikasi dari Lawrence Page dan Sergey Brin, sekitar 100 iterasi yang diperlukan untuk mendapatkan pendekatan yang baik dari nilai-nilai PageRank dari seluruh web.
Juga, dengan cara perhitungan iteratif, jumlah PageRanks semua halaman masih menyatu dengan jumlah halaman web. Jadi PageRank rata-rata halaman web adalah 1. PageRank minimal halaman diberikan oleh (1-d). Oleh karena itu, ada PageRank maksimum untuk halaman yang diberikan oleh dN + (1-d), di mana N adalah jumlah total halaman web. Maksimum ini secara teoritis dapat terjadi, jika semua halaman web hanya link ke satu halaman, dan halaman ini juga hanya link ke dirinya sendiri.
mantap master. good artikelnyA
ReplyDelete