Definisi Spidering dan Crawler Web

Spider & Web Crawlers: Apa yang Anda Perlu Tahu untuk Melindungi Data Laman Web

Labah-labah adalah program (atau skrip automatik) yang 'merangkak' melalui Web mencari data. Labah-labah bergerak melalui URL laman web dan boleh menarik data dari halaman web seperti alamat e-mel. Spider juga digunakan untuk menyampaikan maklumat yang terdapat di laman web ke mesin carian.

Labah-labah, yang juga disebut sebagai 'crawler web' mencari Web dan tidak semua mesra dengan niat mereka.

Laman web Spammer Spider untuk Mengumpul Maklumat

Google, Yahoo!

dan enjin carian lain bukan satu-satunya yang berminat untuk merangkak laman web - jadi penipu dan spammer.

Spider dan alat automatik lain digunakan oleh spammer untuk mencari alamat e-mel (di internet praktik ini sering disebut sebagai 'penuaian') di laman web dan kemudian menggunakannya untuk membuat senarai spam.

Labah-labah juga merupakan alat yang digunakan oleh enjin carian untuk mengetahui lebih banyak maklumat mengenai laman web anda tetapi tidak dibiarkan, laman web tanpa arahan (atau, 'izin') tentang cara merayapi laman web anda dapat menyajikan risiko keamanan informasi utama. Spider bergerak melalui pautan berikut, dan mereka sangat mahir mencari pautan ke pangkalan data, fail program, dan maklumat lain yang anda tidak mahu mereka mendapat akses.

Webmaster boleh melihat log untuk melihat apa labah-labah dan robot lain telah melawat laman web mereka. Maklumat ini membantu webmaster mengetahui siapa yang mengindeks laman web mereka, dan berapa kerap.

Maklumat ini berguna kerana ia membolehkan webmaster untuk menyempurnakan SEO mereka dan mengemaskini fail robot.txt untuk melarang robot tertentu daripada merangkak tapak mereka pada masa akan datang.

Tips untuk Melindungi Laman Web Anda Daripada Crawler Robot yang Tidak Diingini

Terdapat cara yang agak mudah untuk mengekalkan perayap yang tidak diingini keluar dari tapak web anda. Walaupun anda tidak prihatin terhadap labah-labah berbahaya yang merayap tapak anda (alamat e-mail obfuscating tidak akan melindungi anda dari kebanyakan perayap), anda masih perlu menyediakan enjin carian dengan arahan penting.

Semua laman web harus mempunyai fail yang terletak di direktori root dipanggil fail robots.txt. Fail ini membolehkan anda mengarahkan perayap web di mana anda mahu mereka melihat ke halaman indeks (kecuali jika dinyatakan sebaliknya dalam meta halaman tertentu yang tidak diindeks) jika ia adalah enjin carian.

Sama seperti anda boleh memberitahu crawler yang mahu di mana anda ingin mereka menyemak imbas, anda juga boleh memberitahu mereka di mana mereka tidak boleh pergi dan juga menyekat crawler khusus dari keseluruhan laman web anda.

Adalah penting untuk diingat bahawa fail robots.txt yang baik akan mempunyai nilai yang sangat besar untuk enjin carian dan bahkan dapat menjadi elemen utama dalam meningkatkan prestasi laman web anda, tetapi beberapa perayap robot masih akan mengabaikan arahan anda. Oleh sebab itu, penting untuk memastikan semua perisian, plugin, dan aplikasinya sentiasa terkini.

Artikel berkaitan dan maklumat

Oleh kerana kelaziman penuaian maklumat yang digunakan untuk tujuan jahat (spam), undang-undang telah diluluskan pada tahun 2003 untuk membuat amalan tertentu yang menyalahi undang-undang. Undang-undang perlindungan pengguna ini berada di bawah Akta CAN-SPAM tahun 2003.

Adalah penting untuk meluangkan masa untuk membaca Akta CAN-SPAM jika perniagaan anda terlibat dalam mana-mana mailing massa atau penuaian maklumat.

Anda boleh mengetahui lebih lanjut mengenai undang-undang anti-spam dan cara menangani spammer, dan apa yang anda tidak dapat dilakukan oleh pemilik perniagaan, dengan membaca artikel berikut: