ALI

jeudi 13 février 2014

Qu'est-ce que la récolte de Web?

La récolte Web est le processus par lequel un logiciel spécialisé recueille des données à partir d'Internet et le place dans des fichiers pour un utilisateur final. Il remplit une fonction similaire, mais plus avancé que, les tâches d'un moteur de recherche effectuent. Aussi connu sous le nom de grattage Web, la récolte de Web donne à l'utilisateur un accès automatisé à l'information sur Internet que les moteurs de recherche ne peuvent pas traiter, car il peut contourner HTML code. Les trois principaux types de récolte Web sont pour le contenu Web, la structure et l'utilisation.

Le contenu  de la récolte Web implique l'extraction d'informations en tirant les données des deux résultats de recherche de la page et partir d'une recherche plus approfondie du contenu caché dans des pages Web. Cette information supplémentaire est souvent obscurci par les moteurs de recherche, car il est masqué par du code HTML. Le processus analyse des informations similaires à la façon dont les yeux humains seraient, en supprimant les caractères qui ne font pas de phrases significatives afin d'en extraire les éléments utiles.

Plutôt que de recherche de contenu, la structure de la récolte Web recueille des données sur la façon dont l'information est organisée dans des domaines spécifiques de l'Internet. Les données recueillies fournissent des informations précieuses à partir de laquelle des améliorations dans des domaines tels que l'organisation de l'information et la recherche peuvent être faites. C'est une façon d'affiner la structure même du Web.

L’utilisation du Web récolte suit les schémas d'accès généraux et une utilisation personnalisée par les internautes. En analysant l'utilisation du Web, la récolte peut aider à créer la clarté sur la façon dont les utilisateurs se comportent. Ceci est un autre moyen d'améliorer la fonction du Web, mais au niveau de l'utilisateur final. Il peut aider les concepteurs à améliorer les interfaces utilisateurs de leurs sites Web pour une efficacité maximale. Le processus offre également un aperçu de quelles sortes d'utilisateurs de l'information recherchent  et comment ils vont sur la recherche, donnant ainsi une idée de la façon dont le contenu doit être développé à l'avenir.

En recueillant des données texte et image à partir de fichiers HTML et les images, la récolte Web peut effectuer plus complexe exploration Web qui s'enfonce dans chaque document. Il analyse également les liens qui pointent vers ce contenu afin de déterminer si l'information a une importance et de la pertinence à travers l'Internet. Ceci permet d'obtenir une image plus complète de la façon dont l'information concerne et influence le reste du Web.

Les entreprises utilisent la récolte Web pour un large éventail d'objectifs. Il peut être un moyen efficace de collecter des données à analyser. Certains des ensembles de données plus communes compilées sont des informations sur les concurrents, les listes des différents prix des produits, et les données financières. Les données peuvent aussi être collectées pour analyser le comportement des clients.