Moteurs News

mercredi 30 août 2006

Les pages perso d’Orange interdites de publicités AdSense ?

Je parle encore au conditionnel, mais il semblerait que les pages personnelles hébergées sur perso.orange.fr ne puissent plus afficher de publicités AdSense.

Un de mes sites, en fait le premier que j’ai crée et que je conserve pour des raisons sentimentales ;) , n’affiche plus, depuis quelques heures, les annonces AdSense. C’est ce qui m’a mis la puce à l’oreille.

Après quelques questions posées sur des forums de webmasters, afin d’essayer d’en apprendre un peu plus, une raison avancée par Jennifer Slegg elle même (JenSense.com) est que tous les sous domaines perso.orange.fr serait bloqués par AdSense.

The entire http://perso.orange.fr domain has definitely been blocked. It could have been an issue with someone using that domain getting blocked, and AdSense blocking the entire domain instead of just the directory of the offending publisher. This would explain why you weren't notified.

La première raison venant à l’esprit est donc que des utilisateurs indélicats aient abusé du programme de diffusion publicitaire de Google et qu’en conséquence, tous les répertoires du sous domaine aient été "bannis".

Une autre possibilité, serait une décision d’Orange n’autorisant plus la diffusion d’annonces AdSense sur les pages personnelles de ces utilisateurs. Ceci sans préavis.

Voilà, ce ne sont que des hypothèses, il est encore trop tôt pour tirer des conclusions, l’enquête se poursuit, je vous tiendrais au courant.

Si vous continuez de voir des annonces AdSense diffusées, sur des sites personnels d’Orange, n’hésitez pas à en faire part, cela aidera à éclaircir le mystère.

lundi 28 août 2006

MSN Search fait marche arrière suite à un bug lors de la mise à jour de l’index

Vendredi 25, MSN Search effectua une mise à jour de l’index de leur moteur de recherche.

A la suite de cette mise à jour, plusieurs personnes reportèrent des résultats étranges dans les pages de résultats. Pour une requête, les 5 premiers sites listés étaient identiques sur la page 1 et sur la page 2.

Les premières hypothèses attribuèrent ce bug à cette récente mise à jour, surtout après que cet update ait été confirmé par MSNdude sur les forums de WebmasterWorld.

Finalement, après que MSN ait reconnu le problème, la mise à jour de l’index a été annulée, et l’ancien index restauré. Les résultats semblent être redevenus « normaux ».

Comme le fait remarquer Search Engine Roundtable, ce n’est pas la première fois que MSN Search doit faire marche arrière sur une mise à jour de son index. Déjà en février, un update avait été annulé suite à des résultats truffés de sous-domaines et totalement non pertinents.

On peut évidemment conclure de ce genre de mésaventure que MSN Search a encore beaucoup de progrès à faire dans l’implémentation de son algorithme de recherche. Mais on peut aussi leurs faire crédit du fait qu’ils savent reconnaître leurs erreurs et sont capable de faire rapidement marche arrière afin de les corriger.

Une autre « nouveauté », plus positive du moteur de recherche de MSN et qu’il affiche désormais un nombre de résultats supérieur à 250. Jusqu’à il y a quelques jours, il n’était pas possible de visualiser les résultats de recherche au delà des 250 premiers. Il est désormais possible d’aller jusqu’à 1000 résultats.

De nouveaux services gratuits Google

A partir d’aujourd’hui, les entreprises, associations et autres organisations pourront accéder gratuitement à l’offre de Google réunissant plusieurs outils de communications.

Ces organisations pourront ainsi offrir à leurs membres ou à leurs employés des services de mail, de calendrier en ligne, de messagerie instantanée ou de création de pages personnelles, le tout hébergé gratuitement par Google.

Regroupé sous le nom de Google Apps for Your Domain, cette bêta version comprend Gmail (avec 2 gigabytes d’espace de stockage), Google Calendar, Google Talk et Google Page Creator.

Ce service est en fait le prolongement de « Gmail for Your Domain », en bêta depuis février et qui permet déjà d’utiliser Gmail avec sa propre adresse plutôt que le traditionnel « @gmail.com »

L’avantage certain de ces applications est qu’elles seront hébergées par Google, et ne nécessiteront donc aucun investissement matériel ou logiciel de la part des organisations qui les utiliseront, pas plus qu'elles n'auront d’installations ou de maintenances à effectuer.

Les administrateurs auront accès à un panneau d’administration à partir duquel ils pourront gérer les comptes utilisateurs, les listes de diffusion, etc…

Dave Girouard, de la division Entreprise de Google, a également annoncé qu’une version payante, avec des fonctionnalités supplémentaires (assistance, espace de stockage étendu) devrait être disponible d’ici la fin de l’année.

mercredi 23 août 2006

Comment effectuer le transfert de votre blog Dotclear vers un autre hébergeur ?

Je vous concède que cela n’a que peu à voir avec les moteurs de recherche, mais c’est un problème auquel j’ai récemment été confronté, et j’ai pensé qu’un "petit tutorial" sur le sujet pourrait intéresser certains d’entre vous.

La problématique est la suivante :

Vous avez un blog Dotclear chez un hébergeur, et, pour une raison ou une autre, vous souhaitez migrer votre blog sur un autre serveur. Le but étant que votre site ne soit pas indisponible, et que vos visiteurs ainsi que les lecteurs de vos flux RSS ou Atom ne perdent rien lors de ce transfert.

Tout d’abord, pour ceux d’entre vous qui lisent l’anglais, je vous recommande la lecture de ce billet de Matt Cutts indiquant une procédure possible, principalement axée Wordpress et Linux mais néanmoins intéressante.

Le démarche que j’ai utilisée est la suivante : (Il y a d’autres façons de faire, mais celle-ci me semble être la plus efficace. Elle présente l’avantage de vous faire repartir sur des bases saines avec la dernière version de Dotclear et des plugins correctement installés.)

  1. Exporter la base de données de votre blog.
  2. Ré-installer une version « propre » et à jour de Dotclear chez votre nouvel hébergeur.
  3. Importer la base de données.
  4. Modifier les DNS afin de les faire pointer vers le nouvel hébergement.
  5. Attendre que la propagation DNS soit effectuée.
  6. Supprimer l’ancien site et reprendre une vie normale.

Quelque soit l’âge de votre site et le nombre de billets et commentaires, vous ne voulez pas repartir de zéro et perdre toutes ces heures de dur labeur et de pur plaisir. C’est normal. Il convient donc de les sauvegarder. Je ne saurais trop vous recommander d’effectuer ces sauvegardes sur une base régulière, et pas seulement lors d’une migration entre hébergeurs.



1. Optimisation et sauvegarde de la base.

Connectez vous à l’interface d’administration de Dotclear, onglet « Outils », lien « Opérations MySQL ».

  • Cliquez sur « Optimiser la base » puis dans le panneau administration de votre hébergeur, rendez vous sur l’interface phpMyAdmin (ou l’équivalent) et procédez à l’exportation de votre base : Onglet « Exporter »
  • Cliquez sur le lien « Tout sélectionner »
  • Dans la liste déroulante « Compatibilité de l’exportation » choisissez le format approprié (Dans mon cas la migration s’effectuant d’un hébergement supportant MySQL 5.x vers un autre possédant MySQL 4.x, j’ai opté pour un export MYSQL40)
  • Choisissez la compression « gzippé »
  • Cliquez sur « Exécuter »
  • Sauvegardez ce fichier gzip sur votre disque dur.

Le format gzip est un format compressé. Si vous êtes curieux, vous pouvez le décompresser à l’aide d’un utilitaire tel que WinZip ou WinRar et visualiser le fichier ainsi obtenu dans un éditeur de texte comme Notepad ou PSPad. Il contient l’intégralité des données de votre blog, ( billets, trackbacks, catégories, commentaires etc.…)



2. Installation de la dernière version de Dotclear.

Rendez vous sur http://www.dotclear.net/download/ afin d’y télécharger la dernière version stable de Dotclear, puis installez la chez votre nouvel hébergeur. La marche à suivre pour une installation dans les règles est détaillée ici.

Deux points importants à prendre en compte lors de cette installation :

  • Les tables de votre nouveau blog doivent utiliser le même préfixe que l’ancien. Par défaut « dc_ »
  • L’encodage doit être identique. En général, (et recommandé) UTF-8.

Si vous aviez apporté des personnalisations à votre Dotclear, c’est le moment de les refaire sur cette nouvelle version. Vous pouvez recopier sur cette nouvelle installation les fichiers que vous aviez modifié (template.php, post.php, style.css…) et réinstaller les plugins dont vous avez besoin. Ce peut être également l’occasion de faire quelques changements esthétiques et le tri dans tous ces plugins installés sur la première version et dont vous n’avez pas l’utilité. Une fois la configuration de votre blog terminée, il est temps d’y introduire la substantifique moelle, le contenu.



3. Importation de la base de données.

Lorsque vous avez installé cette nouvelle version de Dotclear, une base de données vide a été crée. Le but est de remplacer cette base par celle que vous avez préalablement exportée et enregistrée.

Par le panneaux d’administration de votre nouvel hébergeur, accédez à phpMyAdmin :

  • Onglet « Structure »
  • Cliquez sur le lien « Tout cocher »
  • Dans la liste déroulante sélectionnez « Supprimer » (Rien à craindre vous ne supprimez qu’une base vide)
  • Puis dans l’onglet « SQL », cliquez sur le bouton « Parcourir » et sélectionnez le fichier gzip que vous avez enregistré. Sélectionnez l’encodage approprié (UTF-8 par défaut)
  • Cliquez sur « Executer ». La requête SQL s’exécute, et votre base est importée dans votre nouveaux blog.

Voilà, le plus dur est fait. Votre nouveaux site est prêt à fonctionner, il est configuré et contient toutes ces données patiemment et amoureusement accumulées. Vérifiez que tout est correct en naviguant dans les différentes catégories, en lisant les billets et commentaires, et en contrôlant dans la partie « Administration » que les plugins sont correctement installés, fonctionnels, et ne générent pas d’erreurs MySQL.

A ce stade, votre nouveau blog existe mais il n’est pas encore accessible au reste du monde. Vos lecteurs assidus, lorsqu’ils tapent son adresse dans leur navigateur, arrivent toujours sur l’ancienne version, chez l’hébergeur que vous êtes résolu à quitter. Il est donc nécessaire d’effectuer la « redirection » de votre nom de domaine vers ce nouvel hébergement en changeant les DNS (Domain Name Server).

C’est ce qui permettra à un internaute qui saisit l'adresse : http://www.votre-nom-de-domaine.com dans son navigateur d’être dirigé vers le nouveau serveur hébergeant votre site grâce à ce qu’on appelle la « résolution des noms de domaine ».



4. Modification des DNS

Chez votre registar (la société auprès de laquelle vous avez enregistré et acheté votre nom de domaine), effectuez le changement de DNS. La procédure varie selon les registar mais elle est généralement assez simple. Chez 1&1, par exemple, après vous être connecté à votre espace client :

  • Cliquez sur « Configuration des domaines »
  • Sélectionnez celui que vous voulez configurer
  • Cliquez sur « DNS » puis « Modifier »
  • Cochez la case « Autre serveurs de noms »
  • Puis entrez les noms de serveurs primaires et secondaires que votre nouvel hébergeur vous aura fournit. (Ils sont du type : NS1.registar.com / NS2.registar.com)


5. Attendre…

La propagation DNS peut prendre jusqu’à 48 heures.

Cela signifie que certains internautes souhaitant se connecter à votre site seront encore redirigés pendant quelques temps vers l’ancien hébergement. Cela est dû au fait que l’adresse IP associée à votre nom de domaine est mis en cache pour une période définie par le TTL (Time To Live) et n’est pas vérifiée à chaque tentative de connexion.

Ainsi, tant que ce TTL n’aura pas été atteint, c’est votre ancien site qui apparaîtra lors de la saisie de votre nom de domaine dans la barre d’adresse du navigateur. Cette mise en cache s’effectuant à tous les niveaux du réseau, il se peut que vous accédiez à la nouvelle version de votre site alors qu’un internaute utilisant un autre fournisseur d’accès ou étant situé dans une autre zone géographique soit dirigé vers l’ancienne.

La meilleure façon d’être sur que tous les visiteurs accède à votre nouveau site est de vérifier les logs de vos serveurs. Lorsque vous êtes assuré que tous vos lecteurs ainsi que les robots tels que Googlebot, Slurp (le robot de Yahoo!), et les autres sont dirigés vers votre nouvel hébergeur, vous pouvez supprimer l’ancienne version de votre site sans aucun risque.

Voilà, c'est fini. Vous pouvez continuer à blogger sereinement.

Mise à jour :

Après ce transfert, quelques petits problèmes sont apparus, ceux qui ont souhaité écrire un commentaire s'en sont aperçu... Le problème venait de la structure des tables modifiées lors de l'export de la base semble t-il, la partie :

CREATE TABLE `dc_post` (
   `post_id` int(11) NOT NULL auto_increment,

ayant été remplacée par :

CREATE TABLE `dc_post` (
  `post_id` int(11) NOT NULL default '0',

N'étant pas un guru de MySQL, je n'ai pas trouvé d'autre solution que de faire les modifications à la main dans un éditeur de texte. Sans doute pas la meilleure manière de faire, mais ça semble fonctionner :) .

vendredi 18 août 2006

Des annonces AdSense déclenchent l’auto-installation de programmes !

Certains internautes visitant des pages contenant des annonces AdSense ont eu la surprise de voir apparaître une fenêtre d’avertissement, leur expliquant que des programmes tentaient de s’installer automatiquement. Rien d’extroardinaire me direz-vous si ce n’est que ce sont justement ces publicités AdSenses qui, de par leur code javascript, déclenchaient ces tentatives d’auto-installation.

Les programmes et plug-ins en question, Quick Time, Flash, Adobe Acrobat et quelques autres, été appelés à partir du fichier http://pagead2.googlesyndication.com/pagead/show_ads.js qui sert à l'affichage des annonces.

Ce problème a été évoqué pour la première fois le 11 août sur le forum WebmasterWorld (enregistrement gratuit obligatoire), mais 4 jours ont été nécessaires avant qu’il ne soit résolu.

Voici la traduction de la réponse du responsable AdSense intervenant sur ce forum :

Merci de porter cela à notre attention. Nous avons rencontré quelques problèmes techniques qui on fait que certains internautes utilisant Internet Explorer ont pu voir des avertissements d’installation pour des applications et plug-ins. Nos ingénieurs ont résolu ce problème immédiatement, la diffusion des annonces étant maintenant redevenue normale. Ne vous inquiétez pas, tous les clics et impressions ont été enregistrés comme d’habitude. Nous sommes désolé pour le dérangement et vous remercions de votre patience.

Ce problème ne concernait en effet que les utilisateurs d'Internet Explorer 6 ou 7.

Le code du fichier show_ads.js a été modifié afin de supprimer la partie provoquant l’auto-installation, le problème ne devrait donc plus se poser.

Si cela était encore le cas, vider le cache de son navigateur devrait suffire à le résoudre.

Une telle « erreur » de la part de Google est tout de même assez surprenante. On peut raisonnablement imaginer que les programmeurs chargés du code des AdSense maîtrisent assez bien le javascript et ne modifient pas ce script au hasard, sans réfléchir aux conséquences éventuelles.

On peut également s’étonner qu’il ait fallu 4 jours entiers avant que le problème ne soit résolu…

D'après JenSense

lundi 14 août 2006

Yahoo! Site Explorer, comment ça marche ?

Yahoo! a récemment mis en ligne une nouvelle version de Yahoo! Site Explorer.

Pour ceux qui n’ont pas suivi, voici un petit récapitulatif de ses fonctionnalités et usages.

Vous aurez peut être remarqué que depuis quelques temps déjà, les recherches effectués sur Yahoo!, et utilisant les commandes : link, linkdomain ou site, vous redirige automatiquement vers Yahoo! Site Explorer.

L’outil n’est pas nouveau, Yahoo! Site Explorer existe depuis presque un an. Sa principale fonction a été de connaître l’état de l’indexation d’un site par Yahoo!

C’est toujours le cas pour cette nouvelle version, mais elle est plus axée sur le suivi de sites et de flux choisis. Elle fournit en outre plus d’informations sur ceux ci.

Il y a en fait deux niveaux d’utilisation :

Vous pouvez explorer n’importe quel site et savoir :

  • Quelle est le nombre de pages indexées par Yahoo!
  • Quels sont les liens pointant vers ce site.
  • Quels sont les liens pointant vers des pages de ce site.

Vous pouvez également explorer un site que vous aurez préalablement authentifié. Pour ce faire, il y a deux pré requis :

  • Vous devez posséder un compte Yahoo!
  • Vous devez placer un fichier texte fournit par Yahoo! et contenant une clé d’authentification à la racine du site.

Une fois un site authentifié avec succès ( très rapidement et au premier essai dans mon cas, mais certains reportent la nécessité de faire plusieurs tentatives ) vous pourrez en plus :

  • Savoir quels sont les sous domaines indexés par Yahoo!
  • Suivre et gérer les sites et les flux que vous aurez ajoutés à votre compte.
  • Avertir Yahoo! d’une mise à jour d’un site ou d’un flux.
  • Savoir à quand remonte la dernière indexation de vos page par le robot de Yahoo!
  • Savoir à quand remonte le dernier ping de vos flux.
  • Télécharger les données au format TSV (Tab Separated Value).
  • Plus quelques infos complémentaires, comme la langue détectée par Yahoo! dans vos pages.

Il y a quelque subtilités à connaître et à prendre en compte pour tirer parti au mieux de Yahoo! Site Explorer.

Par exemple lors de la soumission d’une URL, plusieurs formats sont possibles, et les résultats obtenus varieront en fonction du format choisit.

Si vous proposer l’URL suivante :

http://www.example.com

Vous verrez les pages de ce site et de tous ses sous domaines. Mais les résultats seront limités à ceux précédés du www. Ainsi, les pages appartenant à : http://forums.example.com ne seront pas prises en compte car il n’est pas un sous domaine de http://www.example.com.

Si par contre vous soumettez une URL du type :

http://example.com

Alors les résultats présenteront toutes les pages indexées de ce site et de tous ses sous domaines tels que http://forums.example.com, http://faq.example.com, etc…

Vous pouvez également soumettre un chemin complet du type :

http://example.com/chemin/fichier.html

Et vous pourrez alors connaître les informations relatives à cette page, comme le nombre de liens entrant reconnus par Yahoo!

Enfin, si vous soumettez un chemin partiel tel que :

http://example.com/chemin1/chemin2

Vous obtiendrez des résultats pour toutes les URL de ce chemin et en dessous.

En ce qui concerne les flux, les formats suivant sont pris en compte :

  • RSS 0.9
  • RSS 1.0
  • RSS 2.0
  • Atom 0.3
  • Fichier texte contenant une liste d’URLs ( Il doit se nommer urllist.txt et ne comporter qu’une seule URL par ligne. Il peut également être compressé au format .gz )


Que ce soit pour des pages ou des flux, Yahoo! incite à utiliser la fonction de notification lors d’une mise à jour. Cette nouvelle soumission étant supposée permettre un rafraîchissement des données de Yahoo! concernant ces URLs.

Dans quelle mesure cette notification est-elle prise en compte et accélère le passage du robot, cela reste à vérifier.

Que faire si votre site ou certaines de vos pages ne sont pas indexées par Yahoo! ?

Et bien vous pouvez les lui soumettre. Il suffit d’être connecté à votre compte et de cliquer le lien approprié. Cela ne signifie pas pour autant que les pages seront indexées, Yahoo! précise que les soumissions ne sont pas ajoutées automatiquement et ne garantit pas que vos pages apparaîtront dans les résultats de recherche.

D’ailleurs, il est également précisé, et certains espoirs seront peut-être déçus, que l’utilisation de Site Explorer et l’authentification d’un site n’a aucun effet sur son statut et sa place dans les résultats de recherche du moteur.

Enfin, il faut noter que la plupart des informations et fonctionnalités proposées par Yahoo! Site Explorer sont également accessibles via l’API Yahoo!

dimanche 6 août 2006

Google vous offre sa base de données (6 DVD)

Google vient d’annoncer qu’il mettrait prochainement à disposition son index «N-gram». Il sera disponible sous la forme de 6 DVD, sans doute payants.

Cet ensemble de données, est utilisé par Google dans plusieurs de ses projets de recherche, tels que les systèmes de traduction automatique, de correction orthographique, d’extraction d’informations, ou encore de reconnaissance vocale.

C’est sans doute un des plus grands ensemble de données de ce type mis à la disposition de tous ceux intéressés. Et c’est une opportunité exceptionnelle pour tous les groupes travaillant dans ce domaine de recherche, parfois trop petits pour avoir la capacité technique et financière de réaliser ou d’accéder à ce type d’ensemble de données.

Il a été constitué à partir du traitement de plus de mille milliards (1.011.582.453.213) de mots extraits de pages web.
Il se compose de plus d’un million (1.146.580.664) de séquences de 5 mots étant apparues au moins 40 fois et de 13.653.070 mots uniques.
Les mots dont l’occurrence étant inférieure à 200 n’ayant pas été retenus.

L’utilité de ce corpus :

Un modèle N-gram (ou N-gramme) est utilisé pour déterminer la probabilité d’occurrence d’une lettre ou d’un mot à partir d’une séquence donnée. L’hypothèse de base du N-gramme est que étant donné une séquence de n éléments, la probabilité d’occurrence d’un élément en position i ne dépends que des éléments n-1.

Ainsi, à partir d’un début de phrase, il est possible de déterminer une probabilité d’apparition des mots qui la finiront.

Ex :

  • Les chats aiment
  • Les chats aiment le
  • Les chats aiment le lait
  • Les chats aiment le poisson

Ce type de modèle est utilisé notamment dans le traitement du langage naturel ou de la reconnaissance vocale. Mais son efficacité dépend essentiellement du corpus sur lequel il se base.
Plus celui-ci est important, plus les résultats seront précis et pertinents. Et c’est là tout intérêt du dataset mis à disposition par Google.

La contrepartie déjà évoquée par certains, est que les spammeurs seront bien capables d’en profiter eux aussi, et qu’il fournira une nourriture riche et utile aux algorithmes de génération aléatoire de phrases.

Quoiqu’il en soit, c’est à mon sens une très bonne initiative de la part de Google de partager ce type de ressources et d’en faire profiter la communauté. Cela ne peut que contribuer à faire avancer les recherches dans ce domaine, on ne peut que s’en réjouir.

English English

S'abonner

  • Add to Google
  • Ajouter à Mon Yahoo!
  • Abonnement Bloglines
  • Subscribe in NewsGator Onlines
  • S'abonner avec Netvibes
  • D'autres infos sur Twitter:

Sites amis