Cara Menemukan Halaman Tersembunyi di Situs Web

Pada tahun 2016, Google menangani lebih dari 3,2 triliun permintaan pencarian, namun hasil yang diberikan mesin pencari hanya menyumbang sebagian kecil dari konten yang tersedia secara online. Sebagian besar informasi yang tersedia secara online tidak dapat diakses oleh mesin pencari, jadi Anda perlu menggunakan alat khusus, atau menyelidiki situs web sendiri, untuk menemukan halaman tersembunyi ini. Dikenal sebagai web dalam, informasi tersembunyi ini menyumbang hingga 5.000 kali lipat dari yang tersedia menggunakan teknik pencarian biasa.

Jenis Konten Tersembunyi

Halaman tersembunyi situs web termasuk dalam kategori yang menjelaskan mengapa mereka tetap tidak terlihat oleh mesin pencari.

Beberapa merupakan konten dinamis, disajikan hanya ketika pengunjung mengeluarkan permintaan khusus di situs web yang menggunakan kode berbasis basis data untuk menyajikan hasil yang ditargetkan. Sebagai contoh, halaman ini dapat menyertakan hasil belanja berdasarkan kombinasi kriteria produk tertentu. Mesin pencari tidak dirancang untuk melacak dan menyimpan informasi yang disimpan dalam database ini. Untuk menemukan halaman ini, Anda harus pergi ke situs web dan mencari informasi spesifik yang Anda cari, atau menggunakan layanan pencarian berorientasi database seperti Bright Planet.

Beberapa halaman tidak memiliki tautan yang menghubungkannya ke sumber yang dapat ditelusuri. Sumber daya sementara, seperti beberapa versi situs web yang sedang dalam pengembangan, dapat termasuk dalam kategori ini, seperti halnya situs web yang dirancang dengan buruk. Misalnya, jika seseorang membuat halaman web dan mengunggahnya ke server situs web, tetapi gagal menambahkan tautan ke halaman tersebut di halaman situs web saat ini, tidak ada yang akan tahu bahwa itu ada di sana, termasuk mesin pencari.

Masih lebih banyak halaman yang memerlukan kredensial masuk untuk melihat atau menjangkaunya, seperti situs berlangganan. Desainer web menetapkan halaman dan bagian situs sebagai terlarang untuk mesin pencari, secara efektif menghilangkannya agar tidak ditemukan melalui cara konvensional. Untuk mengakses halaman ini, Anda biasanya perlu membuat akun sebelum Anda diberi izin untuk mengaksesnya.

Menggunakan File Robots.txt

Mesin pencari merayapi halaman-halaman di situs web dan mengindeks kontennya sehingga dapat muncul sebagai tanggapan atas pertanyaan. Saat pemilik situs web ingin mengecualikan beberapa bagian domainnya dari prosedur pengindeksan ini, dia menambahkan alamat direktori atau halaman ini ke file teks khusus bernama robots.txt, yang disimpan di akar situsnya. Karena sebagian besar situs web menyertakan file robots terlepas dari apakah mereka menambahkan pengecualian apa pun ke dalamnya, Anda dapat menggunakan nama dokumen yang dapat diprediksi untuk menampilkan isinya.

Jika Anda mengetik "[nama domain]/robots.txt" tanpa tanda kutip ke baris lokasi browser Anda, mengganti "[nama domain]" dengan alamat situs, konten file robots sering muncul di jendela browser setelah Anda menekan tombol "Enter". Entri yang diawali dengan "disallow" atau "nofollow" mewakili bagian dari situs yang tetap tidak dapat diakses melalui mesin pencari.

Peretasan Situs Web Lakukan Sendiri

Selain file robot.txt, Anda sering dapat menemukan konten tersembunyi dengan mengetikkan alamat web untuk halaman dan folder tertentu di browser web Anda. Misalnya, jika Anda melihat situs web artis dan memperhatikan bahwa setiap halaman menggunakan konvensi penamaan yang sama – seperti gallery1.html, gallery2.html, gallery4.html – maka Anda mungkin dapat menemukan galeri tersembunyi dengan mengetik halaman " galeri3.html." di peramban web Anda.

Demikian pula, jika Anda melihat bahwa situs web menggunakan folder untuk mengatur halaman – seperti example.com/content/page1.html, dengan "/content" sebagai foldernya – maka Anda mungkin dapat melihat folder itu sendiri dengan mengetikkan situs web dan folder , tanpa halaman, seperti "example.com/content/" di browser web Anda. Jika akses ke folder belum dinonaktifkan, Anda mungkin dapat menavigasi halaman yang ada di dalamnya, serta halaman di sub-folder mana pun, untuk menemukan konten tersembunyi.