Skip to main content
Janji Jiwa

follow us

Bagaimana Google Pekerjaan

Jika Anda tidak tertarik untuk belajar bagaimana Google membuat indeks dan database dokumen yang ia mengakses saat memproses permintaan, melewatkan deskripsi ini. Saya disesuaikan mengikuti gambaran dari Chris Sherman dan deskripsi Gary Harga ini indah Cara Kerja Search Engine dalam Bab 2 dari The Invisible Web (CyberAge Books, 2001).
Google berjalan pada jaringan terdistribusi dari ribuan komputer murah dan karena itu dapat melaksanakan pemrosesan paralel cepat. pemrosesan paralel adalah metode perhitungan di mana banyak perhitungan dapat dilakukan secara simultan, secara signifikan mempercepat pengolahan data. Google memiliki tiga bagian yang berbeda:
  • Googlebot, web crawler yang menemukan dan mengambil halaman web.
  • Pengindeks yang macam setiap kata pada setiap halaman dan menyimpan indeks yang dihasilkan dari kata-kata dalam database besar.
  • Prosesor query, yang membandingkan permintaan pencarian Anda ke indeks dan merekomendasikan dokumen yang dianggap paling relevan.
Mari kita lihat lebih dekat pada setiap bagian.


1. Googlebot, Google Web Crawler

Googlebot adalah robot web merangkak Google, yang menemukan dan mengambil halaman web dan tangan mereka ke indexer Google. Sangat mudah untuk membayangkan Googlebot sebagai laba-laba kecil bergegas di helai dunia maya, namun pada kenyataannya Googlebot tidak melintasi web sama sekali. Fungsinya seperti web browser Anda, dengan mengirimkan permintaan ke web server untuk sebuah halaman web, men-download seluruh halaman, maka menyerahkannya ke pengindeks Google.
Googlebot terdiri dari banyak komputer meminta dan mengambil halaman jauh lebih cepat dari yang Anda bisa dengan browser web Anda. Bahkan, Googlebot dapat meminta ribuan halaman yang berbeda secara bersamaan.Untuk menghindari besar server web, atau crowding out permintaan dari pengguna manusia, Googlebot sengaja membuat permintaan dari masing-masing web server individu lebih lambat dari itu mampu melakukan.
Googlebot menemukan halaman dalam dua cara: melalui bentuk URL add, www.google.com/addurl.html , dan melalui menemukan link dengan merangkak web.
screen shot halaman web untuk menambahkan URL ke Google.
Sayangnya, spammer menemukan cara untuk membuat bot otomatis yang dibombardir bentuk URL add dengan jutaan URL yang menunjuk ke propaganda komersial. Google menolak semua URL yang dikirimkan melalui form Add URL-nya bahwa tersangka berusaha untuk menipu pengguna dengan menggunakan taktik seperti termasuk teks tersembunyi atau link pada halaman, isian halaman dengan kata-kata yang tidak relevan, cloaking (alias umpan dan beralih), menggunakan pengalihan licik , menciptakan pintu, domain, atau sub-domain dengan konten hakekatnya sama, mengirimkan query otomatis ke Google, dan menghubungkan ke tetangga yang buruk. Jadi sekarang bentuk URL Add juga memiliki tes: ini akan menampilkan beberapa berlekuk-lekuk huruf yang dirancang untuk menipu otomatis " surat-guessers "; meminta Anda untuk memasukkan huruf yang Anda lihat - sesuatu seperti tes mata-chart untuk menghentikan robot spam.
Ketika Googlebot mengambil halaman, itu bahan-bahan rusak semua link yang muncul pada halaman dan menambahkan mereka ke antrian untuk merangkak berikutnya. Googlebot cenderung menghadapi sedikit spam karena sebagian besar penulis web menghubungkan hanya untuk apa yang mereka yakini adalah halaman berkualitas tinggi. Dengan panen link dari setiap halaman itu pertemuan, Googlebot dapat dengan cepat membangun sebuah daftar link yang dapat menutupi mencapai luas web. teknik ini, dikenal sebagai merangkak dalam, juga memungkinkan Googlebot untuk menyelidiki jauh di dalam situs individu. Karena skala besar mereka, merangkak dalam dapat mencapai hampir setiap halaman di web. Karena web sangat luas, hal ini dapat memakan waktu, sehingga beberapa halaman mungkin dijelajahi hanya sekali sebulan.
Meskipun fungsinya sederhana, Googlebot harus diprogram untuk menangani beberapa tantangan. Pertama, karena Googlebot mengirimkan permintaan secara simultan untuk ribuan halaman, antrian " kunjungi segera " URL harus terus diperiksa dan dibandingkan dengan URL sudah di indeks Google. Duplikasi dalam antrian harus dihilangkan untuk mencegah Googlebot dari mengambil halaman yang sama lagi. Googlebot harus menentukan seberapa sering untuk meninjau kembali halaman. Di satu sisi, itu adalah pemborosan sumber daya untuk kembali indeks halaman tidak berubah. Di sisi lain, Google ingin kembali berubah halaman indeks untuk memberikan up-to-date hasil.
Untuk menjaga indeks saat ini, Google terus recrawls halaman web yang sering berubah populer pada tingkat kasar sebanding dengan seberapa sering perubahan halaman. Merangkak seperti menjaga arus indeks dan dikenal sebagaimerangkak segar . Halaman koran-download harian, halaman dengan harga saham di-download lebih sering. Tentu saja, merangkak segar kembali halaman lebih sedikit daripada merangkak dalam. Kombinasi dari dua jenis merangkak memungkinkan Google untuk kedua memanfaatkan sumber daya yang efisien dan menjaga indeksnya cukup saat ini.

2. Indexer Google

Googlebot memberikan pengindeks teks lengkap dari halaman yang ditemukan. Halaman ini disimpan dalam database indeks Google. Indeks ini diurutkan menurut abjad istilah pencarian, dengan setiap entri indeks menyimpan daftar dokumen di mana istilah itu muncul dan lokasi dalam teks mana itu terjadi. Struktur data ini memungkinkan akses cepat ke dokumen yang mengandung kata permintaan pengguna.
Untuk meningkatkan kinerja pencarian, Google abaikan (tidak indeks) kata-kata umum yang disebut kata-kata berhenti (seperti yang , adalah , pada , atau , dari , bagaimana , mengapa , serta digit-digit dan huruf tunggal).Kata-kata berhenti begitu umum bahwa mereka berbuat banyak untuk mempersempit pencarian, dan karena itu mereka dapat dengan aman dibuang. Pengindeks juga mengabaikan beberapa tanda baca dan beberapa ruang, serta mengkonversi semua huruf untuk huruf kecil, untuk meningkatkan kinerja Google.

3. Processor Query Google

Prosesor query memiliki beberapa bagian, termasuk user interface (kotak pencarian), yang " mesin " yang mengevaluasi permintaan dan pertandingan mereka untuk dokumen yang relevan, dan formatter hasil.
PageRank adalah sistem Google untuk peringkat halaman web. Sebuah halaman dengan PageRank yang lebih tinggi dianggap lebih penting dan lebih mungkin untuk dicatatkan di atas halaman dengan PageRank yang lebih rendah.
Google menganggap lebih dari seratus faktor dalam komputasi PageRank dan menentukan dokumen mana yang paling relevan dengan query, termasuk popularitas halaman, posisi dan ukuran istilah pencarian di dalam halaman, dan kedekatan istilah pencarian satu sama lain pada halaman. sebuah aplikasi paten membahas faktor-faktor lain yang Google menganggap ketika peringkat halaman. Kunjungi laporan SEOmoz.org ini untuk menafsirkan konsep dan aplikasi praktis yang terdapat dalam aplikasi paten Google.
Google juga berlaku mesin-belajar teknik untuk meningkatkan kinerjanya secara otomatis dengan hubungan dan asosiasi dalam data yang tersimpan belajar. Sebagai contoh, sistem ejaan-koreksi menggunakan teknik tersebut untuk mencari tahu ejaan kemungkinan alternatif. Google erat penjaga rumus menggunakan untuk menghitung relevansi; mereka tweak untuk meningkatkan kualitas dan kinerja, dan mengecoh teknik licik terbaru yang digunakan oleh spammer.
Pengindeksan teks lengkap dari web memungkinkan Google melampaui hanya sesuai dengan pencarian tunggal.Google memberikan lebih mengutamakan halaman yang memiliki istilah pencarian dekat satu sama lain dan dalam urutan yang sama seperti query. Google juga bisa mencocokkan frase multi-kata dan kalimat. Sejak kode HTML Google indeks selain teks pada halaman, pengguna dapat membatasi pencarian atas dasar mana kata-kata permintaan muncul, misalnya, dalam judul, di URL, di dalam tubuh, dan di link ke halaman, opsi yang ditawarkan oleh Advanced Search Form Google dan Menggunakan Operator Pencarian (Advanced Operator) .
Mari kita lihat bagaimana Google memproses query.
1. web server mengirimkan permintaan ke server indeks.  Isi di dalam server indeks mirip dengan indeks di bagian belakang buku - ia memberitahu halaman yang berisi kata-kata yang ditemukan pada jangka pencarian tertentu.  2. Permintaan perjalanan ke server doc, yang sebenarnya mengambil dokumen yang tersimpan.  Cuplikan dihasilkan untuk menggambarkan setiap hasil pencarian.  3. Hasil pencarian kembali ke pengguna dalam sepersekian detik.
Untuk informasi lebih lanjut tentang cara Google bekerja, kita lihat di artikel berikut.
Sumber :
http://www.googleguide.com/google_works.html

You Might Also Like:

Comment Policy: Silahkan tuliskan komentar Anda yang sesuai dengan topik postingan halaman ini. Komentar yang berisi tautan tidak akan ditampilkan sebelum disetujui.
Buka Komentar