1. DÉFINITION - Comment définiriez-vous le “Big data”?
Une des définitions dominantes sont les 3 V de Gartner (Volume, Vitesse et Variété). Une autre pourrait être “ce qui ne peut pas être traité avec les technologies habituelles telles que SQL/ETL-ELT”. Quelle serait la vôtre?
Le Big Data est une évolution et non une révolution qui serait due à des technologies ou des usages. Cela désigne l’évolution de l’analyse des données pour en tirer des informations qui servent à la prise de décision.
Depuis la fin des années 1960, l’informatique décisionnelle s’est intéressée à savoir comment on pouvait gérer et manipuler les informations pour prendre de meilleures décisions. Les infocentres alors créés permettaient une simple duplication des données de production dans un autre environnement pour manipuler ces données. Puis les entrepôts de données sont venus mettre ces informations en cohérence. Aujourd’hui, on s’aperçoit que le volume de données que l’on traite, la vitesse à laquelle elles arrivent et leur variété ont changé. Intervient alors le Big Data, étape supplémentaire de quelque chose qui se fait depuis de nombreuses années.
Les 3V définissent donc bien le Big Data. On a en effet des volumes de données plus en plus importants mais ce n’est pas une problématique nouvelle (au moment des premiers ordinateurs, on se demandait comment on allait remplir les 10Mo du disque dur). On prend conscience que l’on a de plus en plus de données, qu’elles arrivent plus vite (très proche du temps réel tweet/retweet), et que les ordinateurs sont maintenant capables de stocker et d’analyser des données diverses (textes, chiffres, photos, sons...).
On peut ajouter un 4e V qui est la visualisation. En effet, plus les données sont nombreuses et variées, plus il est important de trouver comment les représenter (lorsqu’il ne s’agissait que de chiffres et de lettres, de simples graphiques ou tableaux suffisaient mais ce n’est plus le cas maintenant).
Un 5e V à considérer également est celui de la valeur. Le Big Data n’est pas un projet TI, il doit créer de la valeur.
Je ne suis pas d’accord avec la seconde définition, à savoir “ce qui ne pourrait pas etre traité avec les technologies habituelles”, car de nombreux projets Big Data peuvent etre traitées avec des technologies classiques.
2. APPLICATIONS - Quelles sont les solutions à portée de main en matière d’initiatives Big data?
En matière de réduction des coûts et de création de valeur, que voyez-vous, ou souhaiteriez-vous voir arriver?
Un projet Big Data est généralement un succès quand on a su commencer petit, sans chercher à remettre en question la totalité de l’entreprise ni attendre d’être capable de tout refaire avant d’agir. Un projet Big Data doit être petit, modeste mais créer de la valeur : un projet pilote fermé qui permet de tester avant d’être généralisé, si les résultats sont positifs. Par exemple, quand Air France a voulu développer une application permettant de choisir son siège dans l’avion selon la présence de ses contacts des réseaux sociaux (en se connectant via son profil LinkedIn), l’expérience a été limitée à quelques vols sur KLM, afin de voir si cela répondait à un réel besoin. Il aurait été très risqué de le généraliser tout de suite à l’ensemble du système de réservation.
Un autre exemple est celui des valises communicantes, équipées d’étiquettes-écrans et d’un module GPS, qui est développé actuellement et sera proposé début septembre auprès de certains voyageurs seulement.
Les projets Big Data intelligents sont ceux qui démarrent à petite échelle, même si, par la suite, la duplication du dispositif peut entraîner des coûts supplémentaires à ce qu’ils auraient été si le projet avait été généralisé dès le début, mais cela évite de prendre un risque incalculable.
Le Big Data est une stratégie d’affaires et non un projet technologique qui serait dirigé par les TI. Les initiatives en la matière ne visent pas la totalité des processus dès le départ. Il est essentiel de faire en amont un travail sur le modèle d’affaires à appliquer, de déterminer où on peut gagner de l’argent, de délimiter les contours du projet pour le rendre le moins impactant possible. Ensuite, si les résultats sont positifs et que l’on a demontré la valeur ajoutée pour l’entreprise sur une petite quantité, on peut passer à l’étape de généralisation.
Que signifie le Big data pour les assureurs, en dehors de la détection de la fraude?
Les sujets intéressants en matière de Big Data sont ceux liés à l’utilisation de nouvelles données, comme les comportements sur les médias sociaux.
Par exemple, dans le cas où un assuré publierait un tweet, public donc, disant qu’il part pour deux semaines en vacances, ceci pourrait augmenter le risque de cambriolage de son domicile et ainsi poser la question suivante : est-ce que l’assuré a respecté son contrat? En effet, le contrat stipule des mesures de précaution comme le fait de ne pas mettre la clé sous le paillasson : un tel tweet constitue-t-il la même imprudence et donc violation du contrat? Même chose si l’assuré publie une photo de l’intérieur de son domicile montrant un tableau de maître ou encore une photo de sa carte bancaire.
Tous les cas de figures ne sont pas prévus formellement mais les contrats contiennent des formules globales et l’on peut considérer qu’elles englobent des situations de ce type.
Les médias sociaux peuvent également être utilisés pour détecter des cas de fraude. Par exemple, des photos de vacances postées sur Facebook (et que le profil est public) ou Instagram par une personne réclamant des remboursements à son assurance maladie.
On risque de voir arriver en matière d’assurance santé ce que l’on observe en assurance automobile, à savoir une collecte de données visant à personnaliser les prestations, comme les modules installés dans les automobiles afin d’étudier le comportement du conducteur. Il ne s’agit pas de forcer les assurés à installer de tels dispositifs, mais ceux-ci seront amenés à les installer d’eux-mêmes avec des appareils comme la future montre-santé iWatch.
À l’extrême, on pourrait même envisager des machines permettant de vérifier qu’un assuré ayant dit avoir arrêté de fumer n’a effectivement pas consommé de cigarette. Notons que de telles données pourraient ne pas se retrouver uniquement dans les mains de l’assureur mais aussi d’un employeur potentiel, cherchant à recruter des personnes en meilleure santé possible.
D’autres questions se posent également suite à l’apparition de la voiture sans conducteur développée par Google : lorsque celle-ci sera mise en marché, l’assureur devra-t-il assurer le constructeur, puisqu’il n’y a pas de conducteur?
Pensez-vous qu’il est important d’être le premier à prendre une initiative Big data ou qu’il est préférable d’arriver second mais avec une meilleure approche?
Le premier a toujours un avantage concurrentiel mais il doit maintenir son avance en continuant à innover. Si l’on attend, on peut laisser passer des opportunités de créer de la valeur, sous couvert de vouloir éviter le risque. Or, on peut limiter ce risque, en démarrant par de petits projets bien contrôlés.
3. CADRE LÉGAL - Quelles contraintes doivent être gardées à l’esprit?
Quelles sont, selon vous, les principales questions légales à considérer? La vie privée (i.e. Comment se conformer aux lois et régulations actuelles et futures visant à protéger les droits des individus à la vie privée?)? La responsabilité (i.e. Les grands assureurs sont de plus en plus au fait des risques qu’encourent leurs clients ; ceci implique-t-il une forme quelconque de responsabilité fiduciaire?)?
La question légale est complexe car les habitudes évoluent. Les données sont diffusées généralement seulement avec l’accord de l’internaute (p. ex. tweet, checkin Foursquare…). La question est : est-ce que les gens, notamment les plus jeunes, ont encore envie d’avoir une vie privée? Quel sens a ce concept aujourd’hui?
L’État doit cependant jouer son rôle de protecteur en particulier envers les personnes les plus vulnérables, cette protection visant à s’assurer que les individus ne sont pas contraints à communiquer des informations, mais ne signifiant pas d’empêcher la collecte de données. Si l’État doit intervenir, cela devrait être en améliorant la lisibilité des termes de contrat.
Il est délicat d’attendre des sociétés privées de se comporter autrement qu’en sociétés privées, les plaignants doivent garder en tête que les services comme les réseaux sociaux sont gratuits et que lorsque c’est gratuit, c’est l’utilisateur qui est le produit.
Comment voyez-vous la future législation?
Je ne saurais pas faire de prévision, mais les juristes devraient regarder la question du croisement des données. Si je donne mon accord à, par exemple, Bell et TD pour collecter des données me concernant, à aucun moment je n’ai autorisé une entreprise tiers à croiser ces données pour déterminer, dans le cas présent, ma géolocalisation selon mes achats.
Il y a pour l’instant un vide juridique en ce qui concerne les données générées par d’autres données. Les premières sont bien plus riches que les deuxièmes, expliquant la naissance du projet XData en France, visant à croiser les données de La Poste, Veolia, EDF ou encore l’opérateur Orange.
4. SUCCÈS ET ÉCHECS - Qu’est-ce qui fait la une des journaux?
Quelles sont les meilleures utilisations du Big data que vous ayez vues? Et les pires?
On ne recense pas à l’heure actuelle beaucoup de cas de succès ni d’échec. Beaucoup de projets sont en cours donc c’est encore difficile à dire.
Un projet intéressant a été en Italie de prendre des photographies aériennes croisées au cadastre pour identifier les piscines non déclarées : un projet bien circonscrit avec un retour sur investissement immédiat.
Ce n’est pas en Europe que l’on voit le plus d’innovation en matière de Big Data, mais plutôt aux États-Unis, en Amérique du sud et en Asie. L’Europe, et surtout la France, marquent un certain retard.
Quant aux pires utilisations, pas d’exemple précis ne vient en tête mais de manière générale, les projets qui échouent sont ceux qui n’avancent pas. qui n’atteignent pas leurs objectifs, ce qui peut se produire plus souvent quand ils sont gérés par le seul département TI sans qu’il y ait eu une offre commerciale ou un modèle d’affaires de déterminé.
Si vous aviez 3 suggestions à faire pour réussir un projet Big data, quelles seraient-elles?
- Ne pas confondre projet Big Data avec projet TI.
- Commencer petit, limiter les risques.
- Faire attention à l’immobilité : si on ne fait rien, on peut se faire dépasser par la concurrence ou, pire, par un nouveau joueur arrivé de l’extérieur et venant totalement perturber le marché (p. ex. les taxis et les hôtels traditionnels ont vu leur métier heurté de plein fouet par respectivement Uber et Airbnb, des gens dont le métier est l’informatique, pas l’hôtellerie ni le transport ; des gens qui ne font que gérer des données).
Presque tous les domaines d’activité pourraient être très impactés par l’arrivée d’un concurrent qui se base sur les données et non sur les activités traditionnelles. Par exemple, Google, certain de l’infaillibilité de ses véhicules sans conducteur, pourrait très bien devenir lui-même assureur. Les assureurs traditionnels sont mal préparés à ça. Le danger vient de l’extérieur et pas seulement des concurrents.
Un autre exemple est Netflix qui, contrairement à la télévision traditionnelle, est capable de déterminer qui veut voir quoi et permet donc de produire des contenus en fonction de l’analyse du choix de ses clients.
5. QU’EST-CE QUI COMPTE LE PLUS - En bout de ligne, que retenir?
Quel est l’élément le plus important en matière d’initiatives Big data? Cela peut être un fait, un conseil ou encore un avertissement.
Le plus important est de s’ouvrir à ce qui se fait à l’extérieur. D’être curieux. De maintenir une cellule de veille non pas technologique mais d’affaires, pour voir comment son secteur pourrait être impacté demain par de nouveaux joueurs, afin de mieux se défendre, voire d’être celui qui va perturber ce secteur.
Une des définitions dominantes sont les 3 V de Gartner (Volume, Vitesse et Variété). Une autre pourrait être “ce qui ne peut pas être traité avec les technologies habituelles telles que SQL/ETL-ELT”. Quelle serait la vôtre?
Le Big Data est une évolution et non une révolution qui serait due à des technologies ou des usages. Cela désigne l’évolution de l’analyse des données pour en tirer des informations qui servent à la prise de décision.
Depuis la fin des années 1960, l’informatique décisionnelle s’est intéressée à savoir comment on pouvait gérer et manipuler les informations pour prendre de meilleures décisions. Les infocentres alors créés permettaient une simple duplication des données de production dans un autre environnement pour manipuler ces données. Puis les entrepôts de données sont venus mettre ces informations en cohérence. Aujourd’hui, on s’aperçoit que le volume de données que l’on traite, la vitesse à laquelle elles arrivent et leur variété ont changé. Intervient alors le Big Data, étape supplémentaire de quelque chose qui se fait depuis de nombreuses années.
Les 3V définissent donc bien le Big Data. On a en effet des volumes de données plus en plus importants mais ce n’est pas une problématique nouvelle (au moment des premiers ordinateurs, on se demandait comment on allait remplir les 10Mo du disque dur). On prend conscience que l’on a de plus en plus de données, qu’elles arrivent plus vite (très proche du temps réel tweet/retweet), et que les ordinateurs sont maintenant capables de stocker et d’analyser des données diverses (textes, chiffres, photos, sons...).
On peut ajouter un 4e V qui est la visualisation. En effet, plus les données sont nombreuses et variées, plus il est important de trouver comment les représenter (lorsqu’il ne s’agissait que de chiffres et de lettres, de simples graphiques ou tableaux suffisaient mais ce n’est plus le cas maintenant).
Un 5e V à considérer également est celui de la valeur. Le Big Data n’est pas un projet TI, il doit créer de la valeur.
Je ne suis pas d’accord avec la seconde définition, à savoir “ce qui ne pourrait pas etre traité avec les technologies habituelles”, car de nombreux projets Big Data peuvent etre traitées avec des technologies classiques.
2. APPLICATIONS - Quelles sont les solutions à portée de main en matière d’initiatives Big data?
En matière de réduction des coûts et de création de valeur, que voyez-vous, ou souhaiteriez-vous voir arriver?
Un projet Big Data est généralement un succès quand on a su commencer petit, sans chercher à remettre en question la totalité de l’entreprise ni attendre d’être capable de tout refaire avant d’agir. Un projet Big Data doit être petit, modeste mais créer de la valeur : un projet pilote fermé qui permet de tester avant d’être généralisé, si les résultats sont positifs. Par exemple, quand Air France a voulu développer une application permettant de choisir son siège dans l’avion selon la présence de ses contacts des réseaux sociaux (en se connectant via son profil LinkedIn), l’expérience a été limitée à quelques vols sur KLM, afin de voir si cela répondait à un réel besoin. Il aurait été très risqué de le généraliser tout de suite à l’ensemble du système de réservation.
Un autre exemple est celui des valises communicantes, équipées d’étiquettes-écrans et d’un module GPS, qui est développé actuellement et sera proposé début septembre auprès de certains voyageurs seulement.
Les projets Big Data intelligents sont ceux qui démarrent à petite échelle, même si, par la suite, la duplication du dispositif peut entraîner des coûts supplémentaires à ce qu’ils auraient été si le projet avait été généralisé dès le début, mais cela évite de prendre un risque incalculable.
Le Big Data est une stratégie d’affaires et non un projet technologique qui serait dirigé par les TI. Les initiatives en la matière ne visent pas la totalité des processus dès le départ. Il est essentiel de faire en amont un travail sur le modèle d’affaires à appliquer, de déterminer où on peut gagner de l’argent, de délimiter les contours du projet pour le rendre le moins impactant possible. Ensuite, si les résultats sont positifs et que l’on a demontré la valeur ajoutée pour l’entreprise sur une petite quantité, on peut passer à l’étape de généralisation.
Que signifie le Big data pour les assureurs, en dehors de la détection de la fraude?
Les sujets intéressants en matière de Big Data sont ceux liés à l’utilisation de nouvelles données, comme les comportements sur les médias sociaux.
Par exemple, dans le cas où un assuré publierait un tweet, public donc, disant qu’il part pour deux semaines en vacances, ceci pourrait augmenter le risque de cambriolage de son domicile et ainsi poser la question suivante : est-ce que l’assuré a respecté son contrat? En effet, le contrat stipule des mesures de précaution comme le fait de ne pas mettre la clé sous le paillasson : un tel tweet constitue-t-il la même imprudence et donc violation du contrat? Même chose si l’assuré publie une photo de l’intérieur de son domicile montrant un tableau de maître ou encore une photo de sa carte bancaire.
Tous les cas de figures ne sont pas prévus formellement mais les contrats contiennent des formules globales et l’on peut considérer qu’elles englobent des situations de ce type.
Les médias sociaux peuvent également être utilisés pour détecter des cas de fraude. Par exemple, des photos de vacances postées sur Facebook (et que le profil est public) ou Instagram par une personne réclamant des remboursements à son assurance maladie.
On risque de voir arriver en matière d’assurance santé ce que l’on observe en assurance automobile, à savoir une collecte de données visant à personnaliser les prestations, comme les modules installés dans les automobiles afin d’étudier le comportement du conducteur. Il ne s’agit pas de forcer les assurés à installer de tels dispositifs, mais ceux-ci seront amenés à les installer d’eux-mêmes avec des appareils comme la future montre-santé iWatch.
À l’extrême, on pourrait même envisager des machines permettant de vérifier qu’un assuré ayant dit avoir arrêté de fumer n’a effectivement pas consommé de cigarette. Notons que de telles données pourraient ne pas se retrouver uniquement dans les mains de l’assureur mais aussi d’un employeur potentiel, cherchant à recruter des personnes en meilleure santé possible.
D’autres questions se posent également suite à l’apparition de la voiture sans conducteur développée par Google : lorsque celle-ci sera mise en marché, l’assureur devra-t-il assurer le constructeur, puisqu’il n’y a pas de conducteur?
Pensez-vous qu’il est important d’être le premier à prendre une initiative Big data ou qu’il est préférable d’arriver second mais avec une meilleure approche?
Le premier a toujours un avantage concurrentiel mais il doit maintenir son avance en continuant à innover. Si l’on attend, on peut laisser passer des opportunités de créer de la valeur, sous couvert de vouloir éviter le risque. Or, on peut limiter ce risque, en démarrant par de petits projets bien contrôlés.
3. CADRE LÉGAL - Quelles contraintes doivent être gardées à l’esprit?
Quelles sont, selon vous, les principales questions légales à considérer? La vie privée (i.e. Comment se conformer aux lois et régulations actuelles et futures visant à protéger les droits des individus à la vie privée?)? La responsabilité (i.e. Les grands assureurs sont de plus en plus au fait des risques qu’encourent leurs clients ; ceci implique-t-il une forme quelconque de responsabilité fiduciaire?)?
La question légale est complexe car les habitudes évoluent. Les données sont diffusées généralement seulement avec l’accord de l’internaute (p. ex. tweet, checkin Foursquare…). La question est : est-ce que les gens, notamment les plus jeunes, ont encore envie d’avoir une vie privée? Quel sens a ce concept aujourd’hui?
L’État doit cependant jouer son rôle de protecteur en particulier envers les personnes les plus vulnérables, cette protection visant à s’assurer que les individus ne sont pas contraints à communiquer des informations, mais ne signifiant pas d’empêcher la collecte de données. Si l’État doit intervenir, cela devrait être en améliorant la lisibilité des termes de contrat.
Il est délicat d’attendre des sociétés privées de se comporter autrement qu’en sociétés privées, les plaignants doivent garder en tête que les services comme les réseaux sociaux sont gratuits et que lorsque c’est gratuit, c’est l’utilisateur qui est le produit.
Comment voyez-vous la future législation?
Je ne saurais pas faire de prévision, mais les juristes devraient regarder la question du croisement des données. Si je donne mon accord à, par exemple, Bell et TD pour collecter des données me concernant, à aucun moment je n’ai autorisé une entreprise tiers à croiser ces données pour déterminer, dans le cas présent, ma géolocalisation selon mes achats.
Il y a pour l’instant un vide juridique en ce qui concerne les données générées par d’autres données. Les premières sont bien plus riches que les deuxièmes, expliquant la naissance du projet XData en France, visant à croiser les données de La Poste, Veolia, EDF ou encore l’opérateur Orange.
4. SUCCÈS ET ÉCHECS - Qu’est-ce qui fait la une des journaux?
Quelles sont les meilleures utilisations du Big data que vous ayez vues? Et les pires?
On ne recense pas à l’heure actuelle beaucoup de cas de succès ni d’échec. Beaucoup de projets sont en cours donc c’est encore difficile à dire.
Un projet intéressant a été en Italie de prendre des photographies aériennes croisées au cadastre pour identifier les piscines non déclarées : un projet bien circonscrit avec un retour sur investissement immédiat.
Ce n’est pas en Europe que l’on voit le plus d’innovation en matière de Big Data, mais plutôt aux États-Unis, en Amérique du sud et en Asie. L’Europe, et surtout la France, marquent un certain retard.
Quant aux pires utilisations, pas d’exemple précis ne vient en tête mais de manière générale, les projets qui échouent sont ceux qui n’avancent pas. qui n’atteignent pas leurs objectifs, ce qui peut se produire plus souvent quand ils sont gérés par le seul département TI sans qu’il y ait eu une offre commerciale ou un modèle d’affaires de déterminé.
Si vous aviez 3 suggestions à faire pour réussir un projet Big data, quelles seraient-elles?
- Ne pas confondre projet Big Data avec projet TI.
- Commencer petit, limiter les risques.
- Faire attention à l’immobilité : si on ne fait rien, on peut se faire dépasser par la concurrence ou, pire, par un nouveau joueur arrivé de l’extérieur et venant totalement perturber le marché (p. ex. les taxis et les hôtels traditionnels ont vu leur métier heurté de plein fouet par respectivement Uber et Airbnb, des gens dont le métier est l’informatique, pas l’hôtellerie ni le transport ; des gens qui ne font que gérer des données).
Presque tous les domaines d’activité pourraient être très impactés par l’arrivée d’un concurrent qui se base sur les données et non sur les activités traditionnelles. Par exemple, Google, certain de l’infaillibilité de ses véhicules sans conducteur, pourrait très bien devenir lui-même assureur. Les assureurs traditionnels sont mal préparés à ça. Le danger vient de l’extérieur et pas seulement des concurrents.
Un autre exemple est Netflix qui, contrairement à la télévision traditionnelle, est capable de déterminer qui veut voir quoi et permet donc de produire des contenus en fonction de l’analyse du choix de ses clients.
5. QU’EST-CE QUI COMPTE LE PLUS - En bout de ligne, que retenir?
Quel est l’élément le plus important en matière d’initiatives Big data? Cela peut être un fait, un conseil ou encore un avertissement.
Le plus important est de s’ouvrir à ce qui se fait à l’extérieur. D’être curieux. De maintenir une cellule de veille non pas technologique mais d’affaires, pour voir comment son secteur pourrait être impacté demain par de nouveaux joueurs, afin de mieux se défendre, voire d’être celui qui va perturber ce secteur.














