La récolte Web
est le processus par lequel un logiciel spécialisé recueille des données à
partir d'Internet et le place dans des fichiers pour un utilisateur final. Il
remplit une fonction similaire, mais plus avancé que, les tâches d'un moteur de
recherche effectuent. Aussi connu sous le nom de grattage Web, la récolte de
Web donne à l'utilisateur un accès automatisé à l'information sur Internet que
les moteurs de recherche ne peuvent pas traiter, car il peut contourner HTML
code. Les trois principaux types de récolte Web sont pour le contenu Web, la
structure et l'utilisation.
Le contenu de la récolte Web implique l'extraction
d'informations en tirant les données des deux résultats de recherche de la page
et partir d'une recherche plus approfondie du contenu caché dans des pages Web.
Cette information supplémentaire est souvent obscurci par les moteurs de
recherche, car il est masqué par du code HTML. Le processus analyse des
informations similaires à la façon dont les yeux humains seraient, en
supprimant les caractères qui ne font pas de phrases significatives afin d'en
extraire les éléments utiles.
Plutôt que de
recherche de contenu, la structure de la récolte Web recueille des données sur
la façon dont l'information est organisée dans des domaines spécifiques de
l'Internet. Les données recueillies fournissent des informations précieuses à
partir de laquelle des améliorations dans des domaines tels que l'organisation
de l'information et la recherche peuvent être faites. C'est une façon d'affiner
la structure même du Web.
L’utilisation du
Web récolte suit les schémas d'accès généraux et une utilisation personnalisée
par les internautes. En analysant l'utilisation du Web, la récolte peut aider à
créer la clarté sur la façon dont les utilisateurs se comportent. Ceci est un
autre moyen d'améliorer la fonction du Web, mais au niveau de l'utilisateur
final. Il peut aider les concepteurs à améliorer les interfaces utilisateurs de
leurs sites Web pour une efficacité maximale. Le processus offre également un
aperçu de quelles sortes d'utilisateurs de l'information recherchent et comment ils vont sur la recherche, donnant
ainsi une idée de la façon dont le contenu doit être développé à l'avenir.
En recueillant
des données texte et image à partir de fichiers HTML et les images, la récolte
Web peut effectuer plus complexe exploration Web qui s'enfonce dans chaque
document. Il analyse également les liens qui pointent vers ce contenu afin de
déterminer si l'information a une importance et de la pertinence à travers
l'Internet. Ceci permet d'obtenir une image plus complète de la façon dont
l'information concerne et influence le reste du Web.
Les entreprises
utilisent la récolte Web pour un large éventail d'objectifs. Il peut être un
moyen efficace de collecter des données à analyser. Certains des ensembles de
données plus communes compilées sont des informations sur les concurrents, les
listes des différents prix des produits, et les données financières. Les
données peuvent aussi être collectées pour analyser le comportement des
clients.