Η ευρετηρίαση είναι η διαδικασία σάρωσης αρχείων που βρίσκονται σε έναν πόρο Διαδικτύου από ένα ρομπότ αναζήτησης. Αυτή η διαδικασία πραγματοποιείται έτσι ώστε ο ιστότοπος να είναι διαθέσιμος στα αποτελέσματα αναζήτησης για διάφορα ερωτήματα στη μηχανή αναζήτησης. Μεταξύ των μεγαλύτερων μηχανών αναζήτησης σήμερα είναι το Yandex, το οποίο πραγματοποιεί αυτήν τη σάρωση με τον δικό του τρόπο.
Οδηγίες
Βήμα 1
Η ευρετηρίαση του διαδικτυακού τόπου πραγματοποιείται από ειδικά αυτόματα προγράμματα - ρομπότ αναζήτησης, τα οποία παρακολουθούν αυτόματα την εμφάνιση νέων ιστότοπων στον Παγκόσμιο Ιστό, σαρώνοντας συνεχώς σελίδες Διαδικτύου που βρίσκονται στο Διαδίκτυο, αρχεία και συνδέσμους σε αυτούς σε κάθε πόρο.
Βήμα 2
Για σάρωση, το ρομπότ μεταβαίνει στον κατάλογο όπου ο πόρος βρίσκεται σε έναν συγκεκριμένο διακομιστή. Όταν επιλέγετε έναν νέο ιστότοπο, το ρομπότ καθοδηγείται από τη διαθεσιμότητά του. Για παράδειγμα, υπάρχει η άποψη ότι το Yandex σαρώνει πρώτα ιστότοπους που έχουν δημιουργηθεί σε ρωσική γλώσσα και στα ρωσικά - ru, rf, su ή ua, και μόνο τότε μετακινείται σε άλλες περιοχές.
Βήμα 3
Το ρομπότ πλοηγείται στον ιστότοπο και σαρώνει τη δομή του, αναζητώντας πρώτα αρχεία που υποδεικνύουν περαιτέρω αναζήτηση. Για παράδειγμα, ένας ιστότοπος σαρώνεται για Sitemap.xml ή robots.txt. Αυτά τα αρχεία μπορούν να χρησιμοποιηθούν για τον καθορισμό της συμπεριφοράς του ρομπότ αναζήτησης κατά τη σάρωση. Χρησιμοποιώντας τον χάρτη ιστότοπου (sitemap.xml), το ρομπότ παίρνει μια πιο ακριβή ιδέα της δομής του πόρου. Ο webmaster χρησιμοποιεί το robots.txt για να καθορίσει αρχεία που δεν θα ήθελε να εμφανίζονται στα αποτελέσματα αναζήτησης. Για παράδειγμα, μπορεί να είναι προσωπικές πληροφορίες ή άλλα ανεπιθύμητα δεδομένα.
Βήμα 4
Έχοντας σαρώσει αυτά τα δύο έγγραφα και έλαβε τις απαραίτητες οδηγίες, το ρομπότ αρχίζει να αναλύει τον κώδικα HTML και να επεξεργάζεται τις ληφθείσες ετικέτες. Από προεπιλογή, απουσία αρχείου robots.txt, η μηχανή αναζήτησης ξεκινά την επεξεργασία όλων των εγγράφων που είναι αποθηκευμένα στο διακομιστή.
Βήμα 5
Κάνοντας κλικ σε συνδέσμους σε έγγραφα, το ρομπότ λαμβάνει επίσης πληροφορίες σχετικά με άλλους ιστότοπους που βρίσκονται σε ουρά για σάρωση μετά από αυτόν τον πόρο. Τα σαρωμένα αρχεία στον ιστότοπο αποθηκεύονται ως αντίγραφο κειμένου και δομή σε διακομιστές στα κέντρα δεδομένων Yandex.
Βήμα 6
Η ανάγκη για εκ νέου σάρωση καθορίζεται επίσης αυτόματα από τα ρομπότ. Το πρόγραμμα συγκρίνει το υπάρχον αποτέλεσμα σάρωσης με την ενημερωμένη έκδοση του ιστότοπου όταν περνάει ξανά από το ευρετήριο. Εάν τα δεδομένα που λαμβάνονται από το πρόγραμμα διαφέρουν, το αντίγραφο του ιστότοπου ενημερώνεται επίσης στον διακομιστή Yandex.