Seorang webmaster seringkali memanfaatkan robot untuk membantu menangani permasalahan di lamannya. File Robots.txt di ini dapat berfungsi untuk memberi tahu ‘perayap’ mesin telusur mengenai URL mana yang dapat diakses di situsnya.
Selain itu, Robot.txt juga dapat membantu untuk memisahkan halaman yang tidak ingin Anda tampilkan pada mesin pencari.
Biasanya file ini akan berbentuk sekumpulan kode yang bisa berfungsi dalam mengatur instruksi di bot mesin pencari.
Apa Itu File Robots.txt?
Secara umum, File Robots.txt merupakan file teks yang dibuat oleh webmaster untuk menginstruksikan robot web (biasanya robot pada search engine-mesin telusur) untuk meng-crawl laman di situs web mereka.
Robot.txt juga merupakan bagian dari protokol pengecualian robot (REP). Sebagai informasi, REP merupakan sekelompok standar web yang mengatur cara robot merayapi web, mengakses dan mengindeks konten,.
Selain itu, REP juga bisa menyajikan konten tersebut kepada pengguna.
REP juga menyertakan arahan seperti robot meta. Lebih lanjut, REP dapat memberikan petunjuk halaman, subdirektori, atau seluruh situs tentang bagaimana mesin telusur harus memperlakukan tautan (seperti “follow” atau “nofollow”).
Dalam praktiknya, robots.txt menunjukkan apakah agen pengguna tertentu (perangkat lunak crawler web) dapat atau tidak dapat merayapi bagian situs web.
Instruksi ini ditentukan dengan “melarang” atau “mengizinkan” perilaku agen pengguna tertentu atau semuanya.
Format Dasar File Robots.txt
Secara umum, file robot memiliki format dasar yang tidak begitu rumit. Instruksi sebagaimana maksud di atas lebih pada melarang maupun mengizinkan sebagian perilaku agen pengguna tertentu atau semuanya.
Secara keseluruhan, kedua tindakan ini teranggap sebagai file Robots.txt yang lengkap.
Meski demikian, ada saatnya satu file robots dapat berisi beberapa baris agen pengguna dan arahan, seperti melarang, mengizinkan, menunda perayapan, dan sebagainya.
Di dalamnya, setiap rangkaian direktif agen pengguna muncul sebagai kumpulan terpisah.
Rangkaian direktif itu terpisahkan oleh jeda baris yang secara lebih lanjut dapat kita lihat pada gambar di bawah ini:
Di dalamnya, terdapat beberapa arahan agen-pengguna, aturan melarang atau mengizinkan hanya berlaku dalam instruksi rangkaian yang terpisahkan oleh jeda baris.
Jika berisi lebih dari satu agen pengguna, crawler akan mengikuti arahan di kelompok instruksi yang paling spesifik.
Semua agen pengguna lainnya akan mengikuti arahan yang telah diatur dalam file tersebut. Di sini, agen pengguna melarang beberapa instruksi, seperti komentar, penandaan foto, pencarian, dan lainnya.
Menggunakan sintaks ini dalam file robots.txt akan memberi tahu semua crawler web untuk melarang atau mengizinkan. Secara umum, berikut pola yang ada dalam format robots.txt.
1. Agen Pengguna: Larang (Disallow)
Ketika menerapkan instruksi disallow, maka secara otomatis robots memberi tahu perayap untuk tidak merayapi semua laman, termasuk beranda. Dengan begitu, ini dapat meresistensi laman Anda dari crawler.
Sebagaimana contoh dari gambar di atas, sintaks ini hanya memberi tahu crawler Google (dengan nama agen pengguna Googlebot) untuk tidak meng-crawl halaman mana pun yang berisi string URL.
2. Agen Pengguna: Izinkan (Allow)
Sebaliknya, ketika instruksi mengarah kepada izinkan, maka file robots.txt akan memberitahu perayap bahwa telah mendapat izin untuk masuk ke semua laman, termasuk beranda.
Akan tetapi, Anda dapat menerapkan izinkan terhadap beberapa akses saja.
3. Memblokir Perayap Web Tertentu Dari Folder Tertentu
Seperti tersampaikan di atas, sintaks ini dapat memberi instruksi pada perayap untuk menghindari perayapan halaman tertentu. Di sisi lain, crawler bisa juga memberi izin untuk merayapi halaman tertentu dalam situs.
Bentuk File Robots.txt
File robots.txt sebenarnya hanyalah file teks tanpa kode markup HTML. Oleh karena itu, file ini hanya berekstensi .txt.
Ini akan dihosting di server web seperti file lainnya di website. Robots.txt untuk situs web mana pun biasanya dapat terlihat.
File robot tersebut tidak tertaut ke tempat lain di situs, sehingga pengguna tidak akan menemukannya. Meski demikian, sebagian besar bot perayap web akan mencari file ini terlebih dahulu sebelum merayapi bagian situs lainnya.
Walau memberikan instruksi untuk bot, robot itu tidak dapat sepenuhnya menjalankan instruksi tersebut.
Biasanya, bot yang baik, seperti crawler web atau bot umpan berita, akan mengunjungi file tersebut terlebih dahulu sebelum melihat laman lain di domain.
File pada perayap web dan umpan berita akan mengikuti petunjuk dari domain. Namun, bot yang buruk akan mengabaikan file robots atau akan memprosesnya untuk menemukan halaman web yang terlarang.
Bot perayap web akan mengikuti serangkaian instruksi paling spesifik di file robots. Jika ada perintah yang bertentangan dalam file, maka bot akan otomatis mengikuti perintah yang lebih terperinci.
Terlepas dari itu, hal penting yang perlu Anda perhatikan adalah, semua subdomain memerlukan file robots.txt sendiri, yang berbeda dengan file robot di domain utama.
Apa Itu Agen Pengguna?
Agen pengguna (user agent) merupakan orang atau program yang aktif di internet.
Setiap orang atau program yang aktif di internet akan memiliki “agen pengguna”, atau nama lain yang telah ditetapkan.
Untuk pengguna manusia, user agent akan menampilkan informasi seperti jenis browser dan versi sistem operasi tetapi tidak ada informasi pribadi.
Hal ini membantu situs web menampilkan konten yang kompatibel dengan sistem pengguna.
Sedangkan untuk bot, agen pengguna dalam hal ini secara teoritis membantu administrator situs web untuk mengetahui jenis bot apa yang merayapi situs tersebut. File robot termasuk dalam kategori ini.
Dalam robots.txt, administrator situs web dapat memberikan instruksi khusus untuk bot tertentu. Hal itu bisa kita lakukan dengan menulis instruksi berbeda untuk agen pengguna bot, sehingga bisa menyesuaikan dengan keinginan.
Sebagai contoh, jika administrator ingin laman tertentu muncul (atau tidak muncul) di hasil Google dan penelusuran Bing, mereka dapat menyertakan dua set perintah melalui file robots.txt: satu set diawali dengan “User-agent: Bingbot” dan satu set didahului dengan “User-agent: Googlebot”.
Nama agen pengguna bot mesin pencari umum meliputi:
1. Google
- Googlebot
- Googlebot-Image (untuk gambar)
- Googlebot-News (untuk berita)
- Googlebot-Video (untuk video)
2. Bing
- Bingbot
- MSNBot-Media (untuk gambar dan video)
3. Baidu
- Baiduspider
Bagaimana Cara Kerja File Robots.Txt?
Secara umum, mesin pencari memiliki dua pekerjaan utama, yakni
- Merayapi web untuk menemukan konten, dan
- Mengindeks konten tersebut sehingga dapat tersajikan kepada pencari yang mencari informasi.
Untuk merayapi situs, mesin telusur mengikuti tautan untuk berpindah dari satu situs ke situs lainnya.
Pada akhirnya, mesin pencari biasanya sampai merayapi miliaran tautan dan situs web. Perilaku merayap ini terkadang orang kenal sebagai “spidering”.
Setelah tiba di sebuah situs web tetapi sebelum menjelajahinya, perayap pencarian akan mencari file robots.txt.
Jika menemukannya, crawler akan membaca file tersebut terlebih dahulu sebelum melanjutkan spidering ke halaman.
Karena berisi berbagai informasi tentang bagaimana mesin telusur harus meng-crawl, maka informasi yang ada di sana akan menginstruksikan tindakan perayap lebih lanjut di situs khusus ini.
Selanjutnya, jika file tersebut tidak berisi arahan apa pun yang melarang aktivitas agen pengguna (atau jika situs tidak memiliki robots.txt), itu akan memungkinkan mesin pencari melanjutkan untuk merayapi informasi lain di situs tersebut.
Hal-hal Tentang File Robots.txt
Selain memahami bagaimana cara file robots.txt bekerja, ada beberapa hal lain yang perlu untuk Anda perhatikan.
Berikut adalah penjelasan lengkap hal-hal yang berkaitan dengan robot.txt:
1. Protokol Robots.txt
Dalam jaringan, protokol merupakan format untuk memberikan instruksi atau perintah. File robots menggunakan beberapa protokol berbeda, di mana protokol-protokol ini memiliki berbagai fungsi tertentu.
Protokol utama adalah Protokol Pengecualian Robot. Ini adalah cara untuk memberitahu bot tentang halaman web dan sumber daya mana yang harus dihindari. Petunjuk yang terformat untuk protokol ini akan ikut serta dalam file robot.
Sementara itu, ada juga Protokol Peta Situs yang juga teranggap sebagai protokol inklusi robot. Peta situs menunjukkan perayap web mana yang dapat mereka rayapi.
Ini membantu memastikan bot perayap tidak akan melewatkan halaman penting apa pun.
2. Agar File Robots.txt Dapat Ditemukan
Bagaimana caranya agar file robot dapat ditemukan? Agar dapat ditemukan, file robots.txt harus berada di direktori tingkat atas situs web. Hal itu bertujuan agar mesin pencari lebih mudah untuk menemukan file robot Anda.
Sebagai informasi, Robots.txt peka huruf besar/kecil. Oleh karena itu, file harus kita beri nama “robots.txt”.
Jika Anda menamainya dengan Robots.txt, robots.TXT, atau lainnya, maka tidak akan terbaca oleh bot.
Meski mempermudah pencarian, beberapa agen pengguna (robot) justru lebih memilih untuk mengabaikan robots.txt Anda. Ini sangat umum terjadi pada crawler yang lebih jahat seperti robot malware hingga peretas alamat email.
3. Cara Melihat File Robots.txt
File robots sejatinya tersedia untuk umum. Oleh karena itu, penggunaannya pun cukup gampang.
Anda cuma perlu menambahkan “/robots.txt” ke akhir domain root mana pun untuk melihat arahan situs web tersebut. Namun itu hanya berlaku jika situs tersebut memiliki file tersebut.
Sebagaimana yang telah kita contohkan pada Gambar 2, Anda dapat melakukan pengecekan pada situs berita. Hal itu juga berlaku untuk beberapa website lain, selama mereka memiliki file robot yang kita maksud tersebut.
Hal ini berarti bahwa, siapa pun dapat melihat halaman apa yang bisa di-crawl. Oleh karena itu, jangan menggunakannya untuk menyembunyikan informasi pribadi pengguna.
Setiap subdomain pada domain root menggunakan robots.txt yang terpisah. Ini berarti ketika Anda membuat sebuah domain dan subdomain, maka perlu untuk memiliki file robot-nya sendiri-sendiri.
4. Di Manakah File Robots.txt Dalam Sebuah Situs?
Setiap kali mengunjungi sebuah situs, mesin telusur dan robot perayap web lainnya —seperti crawler di Facebook, Facebot— tahu cara untuk mencari file robots.txt.
Namun, itu hanya terbatas di satu tempat tertentu, yakni direktori utama (biasanya domain root atau beranda web).
Jika agen pengguna mengunjungi sebuah situs, seperti www.contoh.com/robot.txt namun tidak menemukan file robots di sana, user agent menganggap situs itu tidak punya file robot.
Alhasil, pencarian bisa berlanjut dengan merayapi semua yang ada di laman, bahkan seluruh situs.
Lebih lanjut, jika laman robots.txt ada, namun tidak di direktori utama (seperti www.contoh.com/index/robot.txt) laman itu tidak akan ditemukan oleh user agent, sehingga situs tersebut akan teranggap seolah-olah tidak ada file robot sama sekali.
5. Pencocokan Pola Pada File Robots.txt
Sebenarnya, ada beberapa kendala yang acap terjadi dalam penggunaan robots.txt, yang berkaitan dengan pencocokan pola atau kode.
Secara umum, perlu ketepatan penulisan, sebagaimana yang telah kami jelaskan di atas mengenai kepekaan robots terhadap huruf.
Lebih lanjut, ketika datang ke URL yang diblokir atau diizinkan, robots.txt bisa menjadi cukup rumit. Hal itu karena bot memungkinkan penggunaan pencocokan pola untuk mencakup berbagai kemungkinan opsi URL.
Google dan Bing merupakan mesin telusur yang memahami dua ekspresi reguler yang dapat digunakan untuk mengidentifikasi halaman atau subfolder yang ingin dikecualikan oleh SEO.
Kedua karakter ini adalah tanda bintang (*) dan tanda dolar ($), yang artinya
- Tanda bintang (*) adalah wildcard yang mewakili urutan karakter apa pun.
- Tanda dolar ($) cocok dengan akhir URL.
Istilah dalam File Robots.txt
Secara teknis, ada sintaks robots yang umum kita temui. Banyak orang mengenal sintaks robots.txt ini sebagai “bahasa” file robots.txt.
Ada lima istilah umum yang mungkin Anda temui dalam file robot, yakni sebagai berikut:
- Agen-pengguna: perayap web spesifik tempat Anda memberikan instruksi perayapan (biasanya mesin telusur-search engine).
- Larang (disallow): perintah yang digunakan untuk memberi tahu agen pengguna agar tidak merayapi URL tertentu. Hanya satu baris “Disallow” yang diizinkan pada setiap URL.
- Izinkan (allow): perintah untuk memberi tahu Googlebot agar dapat mengakses halaman atau subfolder meskipun halaman atau subfolder induknya mungkin tidak diizinkan. Ini biasanya hanya berlaku untuk Googlebot.
- Penundaan perayapan: waktu yang dibutuhkan perayap harus menunggu sebelum memuat dan merayapi konten halaman. Sebagai informasi, Googlebot tidak menampilkan secara langsung perintah ini, tetapi tingkat perayapan dapat diatur di Google Search Console.
- Peta situs: petunjuk yang digunakan untuk menemukan lokasi peta situs XML apa pun yang terkait dengan URL ini. Perintah ini hanya didukung oleh Google, Bing, Ask, serta Yahoo.
Mengapa Anda Butuh File Robots.txt?
Ada nilai plus yang dimiliki file robot karena mampu mengontrol akses perayap ke area tertentu di situs.
Meskipun ini berbahaya jika secara tidak sengaja melarang Googlebot merayapi seluruh situs Anda, ada situasi yang membuat ini bisa sangat berguna.
Kegunaan robots dalam performa website Anda juga menjadi sangat vital dalam kondisi tertentu.
Namun, seperti yang disampaikan di atas, patut hati-hati ketika Anda melarang Googlebot meng-crawl website.
Berikut adalah beberapa kegunaan file robots.txt.
- Mencegah duplikat konten muncul di SERPs. Hal itu karena robot meta seringkali memberikan pilihan yang lebih baik.
- Menjaga seluruh bagian situs web tetap pribadi.
- Menjaga agar halaman hasil pencarian yang dilakukan internal tidak muncul di SERP publik.
- Menentukan lokasi peta situs.
- Mencegah mesin telusur mengindeks file tertentu di situs web Anda, seperti gambar, PDF, dan sebagainya.
- Menentukan penundaan perayapan (crawling) untuk mencegah server kelebihan beban saat perayap memuat banyak konten sekaligus.
- Namun, jika tidak ada area di situs yang ingin Anda kontrol akses agen penggunanya, file robot tidak terlalu kita perlukan.
Cara Kerja File Robots.txt Terhadap SEO
File robots memberikan dampak baik terhadap optimasi mesin pencari atau kita kenal dengan SEO.
Polanya, robot akan berhubungan dengan manajemen bot yang akan kita bahas lebih lanjut seperti di bawah ini.
1. Hubungan Robots.txt dengan Manajemen Bot
Mengelola bot sangat penting untuk menjaga agar situs web atau aplikasi Anda tetap aktif dan berjalan. Hal itu karena aktivitas bot yang baik pun dapat membebani server asal, memperlambat, atau menurunkan properti web.
File robots.txt dapat membuat situs web teroptimalisasi untuk SEO serta menjaga aktivitas bot tetap terkendali.
Namun, robots.txt tidak akan berbuat banyak untuk mengelola lalu lintas bot berbahaya, sehingga manajemen untuk mengekang aktivitas berbahaya juga masih kita butuhkan.
2. Praktik File Robots Terhadap SEO
Bagaimana penerapan robots.txt terhadap SEO?
Sebelum itu, Anda harus memastikan tidak sedang memblokir konten atau bagian apa pun dari situs web yang ingin dirayapi.
Hal itu karena tautan pada halaman yang terblokir oleh robots.txt tidak akan diikuti, yang artinya:
- Selain laman yang juga ditautkan dari halaman lain yang dapat terakses mesin telusur (yang tidak diblokir melalui robots.txt, meta robots, atau lainnya), sumber daya yang tertaut tidak akan dirayapi dan mungkin tidak terindeks.
- Tidak ada ekuitas tautan dari halaman yang terblokir ke tujuan tautan. Jika memiliki laman yang Anda inginkan untuk diteruskan ekuitasnya, gunakan mekanisme pemblokiran lain selain robots.txt.
Hindari penggunaan file ini untuk mencegah data sensitif (seperti informasi pribadi pengguna) muncul di hasil SERP.
Baca Juga : Apa itu Serp?
Jika Anda hendak memblokir halaman dari hasil pencarian, gunakan metode lain seperti perlindungan kata sandi atau direktif meta noindex.
Beberapa mesin pencari (search engine) memiliki banyak agen pengguna. Misalnya, Google menggunakan Googlebot untuk pencarian organik dan Googlebot-Image untuk pencarian gambar.
Sementara itu, sebagian besar agen pengguna dari mesin telusur yang sama mengikuti aturan yang sama sehingga tidak perlu menentukan arahan untuk setiap perayap, tetapi memiliki kemampuan melakukan ini memungkinkan Anda menyempurnakan cara konten situs terayapi.
Mesin telusur akan meng-cache konten robots.txt, tetapi biasanya memperbarui konten yang di-cache setidaknya sekali sehari.
Jika Anda mengubah file dan ingin memperbaruinya lebih cepat, Anda dapat mengirimkan url robots.txt ke Google.
Penutup
File robots.txt sangat berguna untuk beberapa hal terkait dengan perayapan mesin pencari.
Selain itu, memanfaatkan robot.txt juga bisa menjadi salah satu cara untuk meningkatkan SERp dan meningkatkan upaya SEO Anda.