Decideo

Technology Podcasts

Decideo est la communauté d’information et d’échange autour des outils et meilleures pratiques d’analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d’experts, actualités, agenda, offres d’emploi, sont disponibles en ligne et sur les applications mobiles gratuites. Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

Location:

France

Genres:

Technology Podcasts

Description:

Decideo est la communauté d’information et d’échange autour des outils et meilleures pratiques d’analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d’experts, actualités, agenda, offres d’emploi, sont disponibles en ligne et sur les applications mobiles gratuites. Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

Twitter:

@decideo

Language:

French

Contact:

+33180876251

Website:

https://www.decideo.fr/

Email:

podcast@decideo.com

Episodes

#4.15 Observabilité des données avec Jean-Paul Otte, Precisely

5/12/2024

Voici quelques-uns des sujets que nous abordons avec Jean-Paul Otte, Responsable des services stratégiques chez Precisely : - Posons nous la question de l'impact des nouveaux usages mobiles (IOT, mobiles) sur les données. Quelles nouvelles données collectons-nous ? Et quelles sont leurs particularités ? - Plus l'IA se développe, plus on a besoin de l'alimenter avec des données de qualité. Comment s'assurer que les données collectées sont exactes, homogènes et contextualisées ? - Quels outils permettent de détecter cette non-qualité de données ? Peut-on la corriger ? Comment ?

Duration:00:16:26

#4.14 Stéphane Juillard, fondateur de Orkestra Data

5/5/2024

Voici quelques-uns des sujets que nous abordons avec Stéphane Juillard, fondateur et CEO de Orkestra Data : - Qu'est qu'une data platform ? Comment peut-on définir ce terme ? Différences avec un Hub, une Fabric... - Orkestra est lui-même éditeur d'une data platform. Comment vous positionnez-vous par rapport à vos concurrents ? - Vous mettez en avant une plateforme orientée métier : comment selon vous doivent se répartir les rôles entre l'informatique et les métiers en 2024 ? - Le data mesh, on en parle ? Ou c'est déjà du passé ? - Vous avez publié un guide comparatif des data plateformes donc vous vous comparez vous-même à vos concurrents. C'est un peu SAP qui publierait un comparatif des ERP... comment convaincre les lecteurs que ce travail a été fait de manière objective ? Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez un email à philippe.nieuwbourg@decideo.com. Pour ne manquer aucun épisode du podcast Decideo, abonnez-vous, c'est gratuit !

Duration:00:16:10

#4.13 Un assistant personnel IA "designed by Jonathan Ive" ?

5/2/2024

Quel appareil pour embarquer demain l’intelligence artificielle au plus près de notre corps Le succès d’Apple est dû au travail de milliers de personnes, mais deux d’entre elles ont fait de Apple ce qu’il est devenu, on aime ou on déteste. Steve Jobs bien sûr, son fondateur, mais également Jonathan Ive, qui a supervisé le design des produits pendant 27 ans. Ce qui fait la différence chez Apple, c’est justement cette combinaison du design de produits physiques, et d’une offre logicielle parfaitement intégrée. Aujourd’hui, l’intelligence artificielle, ce sont des outils logiciels fantastiques, et qui continueront à se développer dans les prochaines années, mais utilisés à partir d’appareils physiques et d’interfaces utilisateurs datées, pour ne pas dire préhistoriques. Ouvrir votre navigateur pour poser une question à ChatGPT au travers d’un clavier et d’un écran… quelle tristesse ! On peut bien sûr imaginer l’adaptation des montres connectées, des casques de réalité virtuelle, ou des assistants vocaux afin qu’ils servent d’interface à ces outils. Une IA dont on dit que son impact sera plus important sur notre société que la révolution industrielle. Quel outil ? Quel objet ? Quelle interface ? Le BlackBerry, puis l’iPhone, en leurs temps, ont inventé pour nous de nouveaux usages. Le déroulement continue des pages sans fin sur les réseaux sociaux a fondamentalement changé notre manière de naviguer. L’IA va devoir nous apporter un support au moins aussi révolutionnaire. On parle beaucoup d’un assistant personnel, d’un dispositif nous permettant d’accéder en toutes situations, à cette IA à notre service. Un nouvel appareil qui ne serait ni un téléphone, ni un ordinateur, avec lequel nous communiquerions sans doute avec la voix, et qui serait portable, connecté, léger ; en résumé, quelque chose qui n’existe pas encore, mais qui deviendrait notre compagnon intelligent, notre deuxième cerveau dit-on parfois. Mais alors, qui et quand ? Bien sûr je n’ai pas la réponse définitive à ces questions. Mais, et c’est l’objet de cette chronique, une association annoncée il y a quelques jours mérite notre attention. Jony Ive, et c’est là qu’il intervient, vient d’annoncer s’associer avec Sam Altman, le patron d’OpenAI, afin de lever des fonds pour développer ce fameux assistant intelligent. Pour Sam Altman, c’est la bonne décision. S’il ne développe pas son propre appareil, OpenAI risque d’être cantonné à son rôle d’OEM, de fournir des intelligences artificielles à ceux qui voudront bien les intégrer. Mais il a certainement compris que le succès d’Apple vient de cette intégration. D’ailleurs même Microsoft a cherché plusieurs fois, sans grand succès, à développer ses propres matériels. Donc une IA sans appareil pour l’héberger, restera toujours un logiciel, à la merci des choix des fournisseurs de matériels. En s’associant à Jony Ive, il montre aussi qu’il a compris que le matériel doit être beau, attirant, pour que l’on ait envie de dépenser beaucoup d’argent pour se l’offrir, et pour le montrer. Le récent lancement du casque Apple Vision Pro en est encore un exemple. Les travaux d’Apple inquiètent très certainement Sam Altman ; l’abandon du projet de voiture Apple est une mauvaise nouvelle pour lui. Car ce sont des milliards qui auraient été dépensés sur ce projet et qui pourraient être réaffectés à d’autres projets, justement dans l’IA. Car si Apple est en retard en matière d’offre d’IA à grande échelle, l’entreprise dispose justement du savoir-faire et d’appareils existants, iPhone, Apple Watch, HomePod, etc. Le combat des chefs pourrait être demain Apple contre OpenAI. Le premier dispose du savoir-faire matériel, mais doit s’améliorer sur la partie logicielle. Le second est en avance sur le logiciel, mais totalement absent de la partie matérielle. Donc cette nouvelle société qui serait en cours de création, pourrait lever pas moins d’un milliard de dollars. De quoi lui permettre de développer tranquillement son assistant...

Duration:00:06:01

#4.12 Données personnelles, reprenons le pouvoir, avec Cécile Petitgand

4/29/2024

Cécile Petitgand est l'auteur du livre : Données personnelles, reprenons le pouvoir - réflexions sur la gouvernance citoyenne à l'ère du numérique, publié aux Editions Hermann. Avec elle, nous nous interrogeons sur la relation parfois ambigüe que nous entretenons avec nos données personnelles.

Duration:00:18:23

#4.11 Nomination des premiers CAIO (Chief Artificial Intelligence Officer) aux Etats-Unis

4/25/2024

L’administration américaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comités de gouvernance Suite à l’Executive Order signé par Joe Biden le 30 octobre 2023, l’administration américaine a publié un Mémorandum destiné à l’ensemble des agences et départements de l’administration américaine. Dans ce document, Shalanda D. Young, précise que les administrations concernées devront nommer d’ici le 28 mai 2024, un Chief Artificial Intelligence Officer (CAIO), dont le document définit le profil, ainsi que former un comité de gouvernance de l’IA. Les principales responsabilités du CAIO seront les suivantes - coordonner l'utilisation de l'IA dans l’agence gouvernementale ; - promouvoir l'innovation liée à l'IA ; - gérer les risques liés à l'utilisation de l'IA. Le mémorandum précise que la personne choisie pour occuper cette fonction peut être le directeur des systèmes d’information, ou le directeur du data office ; mais il peut également s’agir d’un recrutement extérieur. La description de poste (en pages 6 et 7 du document) permet de détailler les trois points indiqués ci-dessus et l’ensemble des tâches qui leur sont connectées, dont : - Le document prévoit que pour réaliser ces tâches, le CAIO doit avoir une position hiérarchique suffisamment élevée pour d’une part échanger avec les directions des autres agences, et d’autre part vérifier la conformité des systèmes d’IA implémentés dans les directions de sa propre agence. En parallèle, le document demande à chaque agence de mettre en place un comité de gouvernance de l’intelligence artificielle. Il peut s’agir d’un comité existant (par exemple de gouvernance des données) dont les compétences seront élargies à l’IA. Devront participer à ce comité au moins les départements suivants : « informatique, cybersécurité, données, vie privée, droits civils et libertés civiles, équité, statistiques, capital humain, achats, budget, affaires juridiques, gestion de l'agence, expérience client, évaluation des programmes, et responsables de la mise en œuvre de l'IA au sein du ou des bureaux de programme de l'agence. Les agences devraient également envisager d'inclure des représentants de leur bureau de l'inspecteur général respectif » Après cette avancée en matière d’organisation et de ressources, comment les autres pays vont-ils s’organiser ? Quand verra-t-on dans l’administration française, canadienne, suisse ou belge la nomination de CAIOs et de comités de gouvernance de l’IA ?

Duration:00:03:50

#4.10 Les prompts sont des données : il va falloir les cataloguer

4/21/2024

Les prompts sont des données : va-t-il falloir les cataloguer ? Selon une enquête de l’Associated Press, déjà 70 % des rédacteurs utilisent l’IA générative pour produire du contenu. Les données sont omniprésentes dans la démarche : dans l’alimentation des modèles, dans les prompts et dans les contenus produits. Si j’écris demain un article à l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander à ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a déjà été établi par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriété sur ses propres créations. L’IA n’a pas de personnalité juridique. C’est l’Humain qui a piloté l’IA qui est reconnu comme auteur de ses créations. Mais demain, le journaliste, le scénariste, mais également le programmeur, le rédacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront à les produire. Pourrait-on aller jusqu’à déposer et protéger un prompt, tout comme on protège un livre, un logiciel ou un scénario ? Peut-être est-ce une idée à creuser. Juristes spécialistes de la propriété intellectuelle, je vous lance la perche ! En tous cas, ces prompts, ce sont également des données. Et il faut les collecter, les stocker, et donc peut-être les protéger, afin de faire le lien entre le prompt et le contenu qu’il a produit. En entreprise, la réplicabilité et l’explicabilité sont des sujets importants. Si je lance deux fois la même requête sur une même base de données, je dois obtenir le même résultat. Sinon, j’ai un problème. Êtes-vous certain que le même prompt lancé dans le même outil d’IA générative, produira le même contenu ? Je ne crois pas, et c’est un vrai problème. Si j’utilise l’IA générative pour transformer une question en langage naturel en requête SQL, la même question donnera-t-elle toujours la même réponse ? Si non, ça sent le crépage de chignon en réunion du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des résultats différents en fonction de l’heure de la journée, de la météo ou de l’âge du capitaine. Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilité de leur cycle de vie, le lien entre le prompt et son résultat, etc. Des tas de métadonnées qu’il va falloir organiser. Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera : - L’historisation des prompts utilisés, et de leurs métadonnées ; - La traçabilité, le lineage, qui a mené du prompt au résultat. Quel modèle a été utilisé, quelle version, quelles données d’entrainement, etc.. Cet outil permettra également de vérifier les droits d’accès, la conformité des données utilisées, et produites. Et il assurera la piste d’audit nécessaire pour qu’en cas de besoin, le service conformité ou audit interne, voir une autorité extérieure, puissent remonter l’historique. Vous voyez que le sujet de la gouvernance de l’IA, et des données qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisé ChatGPT pour rédiger 10 lignes sur la révolution russe ! Si vous envisagez une utilisation sérieuse, et en production, de l’intelligence artificielle, vous devrez passer par les étapes que je viens de décrire. Et si vous cherchez une idée de business à créer dans le domaine du logiciel, regardez du côté d’une plate-forme de traçabilité des usages de l’IA en entreprise… il y a tout un marché !

Duration:00:04:19

#4.9 Votre plan de métro des compétences, avec Jean-Guillaume Pelletier de Mindmatcher

4/14/2024

Cette semaine, Decideo a rencontré Jean-Guillaume Pelletier, associé de Mindmatcher, pour parler de la cartographie des métiers du numérique, à laquelle il a collaboré, pour le compte de GEN - Grande Ecole du Numérique. - Vous avez aidé la Grande Ecole du Numérique, créée en 2015 par le gouvernement, à cartographier les métiers du numérique. Quel a été votre apport et votre rôle dans l'établissement de cette cartographie ? - Quelles ont été les technologies utilisées ? Et les données sur lesquelles vous vous êtes appuyé ? - Comment avez-vous évité les biais ? - On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ? - La limite de l'IA, comme elle s'appuie sur des données du passé, c'est qu'elle est incapable de prévoir l'imprévisible. Comment avez-vous procédé ? - Est-ce que ce travail peut être reproduit dans les entreprises ? Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez un email à philippe.nieuwbourg@decideo.com.

Duration:00:15:50

#4.8 SAP Datasphere et le data mesh

4/8/2024

SAP et le data mesh Depuis que le concept de data mesh a émergé en 2019, la réponse des grands éditeurs de solutions centralisées était attendue. SAP n’étant clairement pas un ardent défenseur de la décentralisation, il était légitime pour ses clients de se demander comment l’editeur allait aborder le sujet. Lancé en 2019, formalisé en 2022 dans le livre éponyme, le concept de data mesh a convaincu un certain nombre d’entreprises comme Suez, Le bon coin, Paypal, Eurotunnel, etc. Certains ne le nomment pas, et en choisissent les principes qu’ils souhaitent appliquer. Mais tous font un pas vers la décentralisation de la responsabilité des données vers les domaines métiers, et la migration de data warehouses centralisés vers des data products, décentralisés fonctionnellement et centralisés techniquement. Centraliser les données ou les jeux de données ? La réponse de SAP est apparue récemment, elle s’appelle SAP Datasphere. Soit pour ne pas avoir à payer de royalties, soit pour ne pas avouer qu’il n’est pas l’inventeur du concept, SAP n’utilise quasiment pas l’expression data mesh dans sa communication. Mais l’objectif est clairement de répondre à cette évolution. Voyons ensemble comment. Il y a quelques années, SAP migrant vers le cloud, proposait comme solution centrale à un système décisionnel son offre SAP Data Warehouse Cloud. Evoluant sur les plans technologiques et marketing, SAP Data Warehouse Cloud est devenu SAP Datasphere. Et il y a tout juste un an, SAP a présenté SAP business data fabric, basée sur SAP Datasphere comme coeur de la conception des systèmes décisionnels pour ses clients. “i[Data Fabric est une architecture technique, qui permet de rassembler des données hétérogènes en provenance de plusieurs sources]i”, explique Wolfgang Epting, expert produit chez SAP. On est donc bien dans une architecture de centralisation des données. Mais en réalité, SAP défend que SAP Datasphere peut être utilisé pour centraliser, de manière technique uniquement, des données ou des jeux de données (data products) qui peuvent provenir de sources externes. Ainsi, en définissant et construisant les data products dans les domaines métier, comme le préconise le data mesh, mais en les stockant dans la SAP business data fabric, cette dernière devient une plateforme selfservice de jeux de données. Les quatre principes du data mesh sont bien respectés : les domaines, les jeux de données, la plateforme en libre-service, et la gouvernance fédéralisée. Il faudra cependant resister à la tentation de stocker les données unitaires dans SAP business data fabric et d’y fabriquer les jeux de données, auquel cas il n’y aurait plus de décentralisation et l’on retrouverait le trio data warehouse - data lake - data mart. Le data mesh est avant tout un changement de paradigme, une organisation différente, décentralisant la responsabilité des données dans les métiers, et modifiant la répartition des rôles entre l’informatique et les métiers. Les luttes de pouvoir pourraient se réveiller à l’occasion de cette mise en place… Cataloguer, la première pierre de l’édifice Qu’il s’agisse de gouvernance ou de data mesh, le catalogue des données est au centre du dispositif. SAP ou pas, sans catalogue de données, toute la gouvernance et la décentralisation des responsabilités vers les métiers, seront incomplètes et surtout bien compliquées à appliquer. SAP s’est beaucoup appuyé sur ses partenaires pour la création du catalogue des données. Collibra semble le partenaire éditeur privilégié. D’ailleurs, en terme de couverture fonctionnelle, comme de coût et de délai de mise en place, il n’est pas rare d’entender Collibra qualifié de “SAP des catalogues de données”. Jusqu’à ce que SAP annonce sa propre solution, SAP Datasphere Catalog. Il permet “ i[de découvrir, gérer et controler, toutes les données afin de garantir une gouvernance transverse de l’ensemble de leur cycle de vie]i”, explique Wolfgang Epting. Il s’appuie sur un graphe de connaissance, qui...

Duration:00:06:26

#4.7 DBOS, la nouvelle startup de Michael Stonebraker

4/1/2024

DBOS, la base de données au coeur d’un futur système d’exploitation Quand vous entendez le nom de Michael Stonebraker, et que vous avez quelques souvenirs de vos cours d’histoire du logiciel, vos neurones se réactivent. Michael Stonebraker est en effet le concepteur de Ingres, au début des années 70, qui donnera naissance à Sybase, à Postgres. Spécialiste des bases de données, il donnera naissance à de nombreuses entreprises dont Vertica, VoltDB, etc. et sera pendant plusieurs années le directeur technique de Informix. Et si vous avez perdu la mémoire de cette histoire des bases de données, où si vous ne vous y êtes jamais intéressé, je vous conseille la lecture du petit livre rouge du sujet : RedBook.io. Disponible gratuitement, la 5ème édition, qui date de 2015, vous permettra de comprendre comment et pourquoi ont été créés ces composants indispensables de notre système d’information, les bases de données. Mais ce n’est pas le sujet du jour. En effet, à 80 ans, Michael Stonebraker n’a pas l’intention de partir à la pêche au coeur de l’Amérique profonde, mais plutôt de se lancer dans un nouveau projet : DBOS ! La réflexion de Michael Stonebraker part du rôle croissant de la donnée dans le système d’information. Notre économie “data driven”, nos entreprises “data driven”, notre architecture informatique bientôt “data driven”. Mais nos systèmes d’exploitation ne le sont pas encore; Linux par exemple. Pour Michael Stonebraker, il est temps de séparer les données du code du système d’exploitation, et réduire celui-ci à un petit noyau logiciel, exécutant quelques fonctions basiques de bas niveau. Tout le reste s’exécute dans la base de données. Cela fait maintenant trois ans qu’il travaille au MIT et à Stanford sur le sujet. Depuis une quinzaine d’années les bases de données relationnelles OLTP ont été grandement optimisées; elles pourraient donc aujourd’hui supporter l’exécution des tâches d’un système d’exploitation, explique-t-il. L’idée est donc de faire tourner l’OS dans la base de données. Une des fonctionnalités intéressantes est le “time travel debugger”. Il permet de remonter dans l’historique du système d’exploitation, par exemple en cas de cyber-attaque, et de revenir à la situation antérieure, instantanément. DBOS, qui compte pour l’instant une équipe de dix personnes, a levé 8,5 millions de dollars pour lancer ses activités. Michael Stonebraker en est un des cofondateurs, et le directeur technique. Un autre des cofondateurs est l’ancien directeur technique de Databricks. DBOS serait déjà en test dans une grande banque et une société du secteur agro-alimentaire. Pour en savoir plus, https://www.dbos.dev/

Duration:00:03:21

#4.6 Les données ESG avec Olivier Brien de Finastra

3/28/2024

Normes ESG, reporting CSRD dans le domaine de la finance. On en parle avec notre invité cette semaine. - Le secteur financier est-il un émetteur d'externalités ? De quels types ? - Est-ce que la transformation numérique du secteur financier est un atout pour améliorer l'impact ESG ou au contraire un générateur de nouvelles externalités ? - Au coeur du sujet ESG, il y a la mesure, donc les données. Comment s'organise-t-on pour collecter et conserver ces nouvelles données ? - Comment s'assurer de leur qualité et de leur impartialité ? - Comment le système d'information doit-il s'adapter dans les prochaines années à ces nouvelles comptabilités ?

Duration:00:19:01

#4.5 La gouvernance des données avec Rachid Tighremt - Layer Data

3/21/2024

Cette semaine, une conversation passionnante avec Rachid Tighremt, fondateur de la société Layer Data, qui se spécialise dans l'accompagnement des projets de gouvernance des données. Nous parlons de conduite de projet, de choix d'un outil de catalogue de données, de la répartition des responsabilités entre l'informatique et les métiers. Nous abordons également un sujet novateur, celui du tableau de bord du projet de gouvernance : comment le construire, quels indicateurs doit-il contenir, etc.

Duration:00:14:39

#4.4 Zeenea lance un catalogue de data products

1/24/2024

Une place de marché pour cataloguer les data products Vous avez décidé de suivre la tendance ? Bravo ! C’est à dire de vous appuyer sur les utilisateurs métiers pour gérer et gouverner leurs données. Et vos propriétaires de données développent des data products, en négociation directe avec les consommateurs de ces mêmes données. Fantastique ! Selon plusieurs études, entre 50 et 70 % des entreprises seraient en train de planifier ou de déployer ce type d’architecture. Généralement, lorsque je présente cette nouvelle organisation à des entreprises, cela soulève deux questions : celle du catalogage des data products, et celle du stockage des données. Pour ce qui est du stockage, beaucoup de solutions ont émergé; on parle souvent de Snowflake ou de Databricks, mais également de Amazon Data Zone que je vous présentais la semaine dernière. En ce qui concerne le catalogage des données, c’est plus compliqué. Par définition, un catalogue de données catalogue … des données. Or là, ces données sont regroupées dans des jeux de données, ces fameux data products. Comment un catalogue de données peut-il évoluer vers un catalogue de jeux de données. C’est ce que propose depuis cette semaine Zeenea. Zeenea est un éditeur français, qui propose à ses clients une gestion de catalogue de données. Dans Zeenea, un Data Product est, je cite, “une collection de Jeux de Données de haute qualité et leurs métadonnées (propriétés, description, termes de glossaire liés, etc.), fournissant un contexte clair aux consommateurs de données”. L’éditeur a choisi de créer un magasin de data products. A l’image d’un site de commerce électronique, les utilisateurs de données vont pouvoir consulter une “Enterprise Data Marketplace”, dans laquelle les producteurs de données auront déposé leurs data products. Vous pouvez donc dans Zeenea cataloguer vos données, et partager vos data products. La solution est de plus basée sur un graphe de connaissance. Il permet aux utilisateurs de découvrir des données ou des data products, en suivant les liens. Les points essentiels tels que la gestion du cycle de vie, des politiques d’accès aux données, ou encore de la conformité des data products, sont pris en charge par la plateforme. A plus long terme, Zeenea envisage de décentraliser plus encore ses catalogues de données, en intégrant une forme de fédéralisation. Un catalogage géré par les utilisateurs, mais dans un cadre de gouvernance fédéral. Alors, appelez cela data mesh, ou pas, mais clairement Zeenea va dans la bonne direction. Allez, juste une remarque, Zeenea devrait intégrer la notion de data contracts dans sa plateforme. Ce contrat, signé entre le producteur et le consommateur d’un data product, est justement la partie qui manque à la théorie du data mesh.

Duration:00:03:20

#4.3 AWS met le catalogue de données au coeur de sa Data Zone

1/20/2024

Un peu comme Monsieur Jourdain faisait de la prose sans le savoir, la mode semble aujourd’hui de faire du Data Mesh sans le dire. Presque toutes les entreprises que je rencontre testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble utiliser le terme de Data Mesh. Alors certes, inventé par Zhamak Dehghani en 2019, le data mesh est également devenu pour son inventeur l’occasion de promouvoir un outil informatique ad-hoc. Mais c’est surtout parce que le data mesh est assez contraignant, si l’on en respecte l’ensemble des principes. Les entreprises choisissent donc plutôt de s’en inspirer et de sélectionner les règles qu’elles souhaitent appliquer. Se pose bien entendu la question de l’architecture informatique qui va supporter ces data products. Hors de question de laisser chaque utilisateur gérer cela de son côté. Ce serait une catastrophe technique et de conformité. Mais on ne veut pas non plus revenir à une centralisation, dans un outil technique inaccessible aux utilisateurs… nous n’aurions alors pas progressé par rapport au data warehouse… Et n’oublions pas, pour compléter le tableau, que ces data products vont devoir partager la scène, pendant plusieurs années sans doute, avec les architectures centralisées actuelles. Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il va donc falloir gérer une transition par étape, avant d’envisager de décommissioner les systèmes centraux. Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, où l’on va pouvoir conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché. En parallèle, Amazon lance un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il va fonctionner de concert avec le catalogue de données Amazon Glue Data Catalog. Et s’appuie sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. Attention cependant, les descriptions sont uniquement générées en anglais pour l’instant. Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue; et c’est lui qui est vectorisé - à la clef, gain d’espace, de temps de calcul et de coût. Cela renforce la place centrale de la gouvernance des données, et de son catalogue au coeur de la plateforme data. Bien sur cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous dit que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON… je n’appelle pas cela de l’intégration. Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ? Je n’en suis pas certain, mais en plaçant le catalogue de données au centre de sa Data Zone, Amazon clairement va dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.

Duration:00:04:37

#4.2 Autonomie des utilisateurs, qui n'en veut ?

1/9/2024

Depuis que je présente dans mes formations les concepts liés à une gouvernance des données orientée métiers, basée sur une répartition nouvelle des responsabilités entre l’informatique et les métiers, je ne cesse de répéter que les utilisateurs de 2024 veulent plus d’autonomie (en 2025 sans doute passeront-ils du “je souhaite”, à “je veux”), et moins dépendre d’un département informatique ou d’un département data pour manipuler cette matière première qu’ils maitrisent parfaitement Libérer pour attirer et conserver L’autonomisation des utilisateurs serait même une des clefs pour raviver l’engagement des jeunes générations, nouvelles arrivées dans le monde de l’entreprise. “Il importe aujourd’hui de s’interroger sur la manière de rendre le travail attractif pour que chacun ait le sentiment que son travail compte”, explique Pascale Griet dans son livre La Grande Impatience (Hermann Editeurs, 2023). “Valoriser le travail, c’est à la fois valoriser la contribution individuelle, et faire en sorte que chaque voix contribue effectivement à cette oeuvre collective”, explique-t-elle en parlant du sens à donner à l’entreprise. Autonomie d’accord, mais tout le monde est-il prêt ? Certes non ! Et mes dernières missions m’ont amené à rencontrer un assureur mutualiste, un département français, une administration sociale… dans lesquels manifestement, l’autonomie n’est pas le souhait de tous, en particulier au niveau de la direction. Y parvenir c’est “libérer” l’entreprise. Isaac Getz, dans son livre Liberté & Cie (Flammarion, 2009), définit l’entreprise libérée “lorsque la majorité des salariés disposent de la liberté et de l’entière responsabilité d’entreprendre toute action qu’eux-mêmes estiment comme étant la meilleure pour la vision de l’entreprise”. Une libération qui passe par les données De quoi parle-t-on si l’on applique ces idées au monde de la donnée ? En résumé de l’idée que les métiers peuvent, et souhaitent, prendre en main leurs données (dans un cadre de gouvernance global à respecter impérativement), tout comme les générations précédentes ont pris leur autonomie dans l’usage du téléphone, du mail, de Powerpoint ou de Word. Utiliser un outil tel que Tableau ou PowerBI n’est pas hors de portée d’un trentenaire qui a utilisé un ordinateur pendant une bonne partie de ses études. Et dépendre d’un service informatique ou d’un service “data” pour requêter, analyser et comprendre ses données, lui semble totalement anachronique. Il faut donc répondre positivement à ce besoin justifié d’autonomie. Les “data products” ont été conçus pour cela. Mais d’un autre côté, certains ne sont pas prêts ! Les vieux allez vous me dire ? Oui, mais ils peuvent être vieux dans leurs têtes sans ce que cela ne reflète leur état-civil. Certains n’ont pas la maturité pour prendre cette autonomie. Et parfois c’est la culture de leur organisation qui les a freiné. Doit-on les embarquer de force ? Cela ne fonctionnera pas. Doit-on les convaincre ? Ce serait idéal, mais certains resteront inflexibles. Doit-on rejeter l’autonomie aux autres pour satisfaire les moins agiles ? On risque alors de perdre les meilleurs éléments. Il faut donc mettre en place une transition progressive. Développer des data products pour permettre aux couples producteurs - consommateurs de bénéficier de cette nouvelle autonomie (dans un cadre de gouvernance strict, je le répète); mais maintenir un architecture centralisée “à l’ancienne” pour servir les données traditionnelles. Ainsi les plus agiles pourront montrer aux plus réticents les bénéfices de la nouvelle organisation; peut-être les convaincre; et finalement permettre dans plusieurs mois ou années le décommissionnement de l’ancien système. Ce n’est finalement pas pour rien, si le mot “autonomy” apparait 54 fois dans le livre de Andrew Johns sur les Data Contracts…

Duration:00:04:21

#4.1 ESG CSRD Data room, vous faut-il un data warehouse de plus ?

12/17/2023

ESG Data Room : vous faut-il un data warehouse de plus ? “Le chemin vers la durabilité est pavé de données de haute qualité”, explique Janine Guillot, conseillère spéciale du président de l’ISSB, dans le rapport KPMG 2023 sur le reporting ESG. Tout le monde l’a compris, le respect des impératifs de reporting liés aux critères extra-financiers, sociaux et environnementaux, ne peut s’atteindre sans des données, et des données de bonne qualité. Dès 2024, environ 50 000 entreprises dans le monde seront concernées par la production de rapports sur leurs impacts sociaux et environnementaux respectant la directive européenne CSRD. Au-delà des aspects règlementaires, c’est une exigence des nouvelles générations. On parle de crise de l’engagement dans les entreprises, mais c’est en réalité une recherche de sens, d’impact positif, au-delà des critères purement financiers de réussite. Les nouveaux salariés recherchent “des emplois où l'on voit concrètement l'aboutissement de son travail à la fin de la journée. La finalité surtout. La question de l'utilité se mêle ici à celle du sens”, explique Pascale Giet dans La Grande Impatience. Les données sont donc encore une fois au coeur du futur de l’entreprise. Et des données que nous n’avions pas l’habitude de collecter, de stocker, et donc d’analyser. Ces indicateurs sociaux et environnementaux naissent dans nos opérations quotidiennes, mais ils ne sont presque jamais collectés. Mesurez-vous l’impact social et environnemental de la dernière formation à laquelle vous avez participé, du dernier webinaire que vous avez écouté, de la lecture même de cet article ? Non, car nous avons l’habitude de voir tout cela au travers du prisme financier. Quelque chose qui ne coute rien, est considéré comme sans impact, et n’est donc pas comptabilisé. Pourtant si vous assistez à une formation gratuite, vous consommez peut-être du carbone (impact environnemental négatif), mais en revanche votre compétence augmente (donc impact social positif). Prendre l’habitude de mesurer les critères financiers et les externalités non financières deviendra d’ici la fin de la décennie, une bonne pratique, une habitude… et une obligation. Cela ne se fera pas en quelques clics. Les processus sont à inventer, et les outils ne sont pas adaptés. Bien sur, vous avez votre Excel favori si vous souhaitez noyer votre entreprise dans une mer de données non vérifiées. Mais si vous êtes un peu sérieux, vous arriverez vite à la conclusion qu’il y a quatre options : https://www.institut.capgemini.fr/formation/data-mesh-retours-dexperience-et-guide-pratique-de-mise-en-place/https://blogs.sap.com/2023/11/02/manoeuvring-through-the-complexity-of-eu-sustainable-finance-corporate-sustainability-reporting-directive-csrdhttps://www.salesforce.com/news/stories/net-zero-cloud-ai-reporting-news/ Face à ces choix, la premier constat est simple : personne n’est prêt ou presque. Lors d’un webinaire de présentation de sa solution EPM, Jedox a réalisé un petit sondage en ligne : 55 % des participants reconnaissaient n’avoir pas encore choisi d’outil… et c’est une bonne nouvelle. Certes ce n’est pas pour demain… mais 2025 c’est après-demain. Car pour sortir des indicateurs fiables en 2025, il vous faudrait commencer à comptabiliser correctement en 2024… Or vous n’êtes pas prêts. Ne comptez pas sur un report de la date limite au dernier moment, ce n’est pas la France ! Mais l’Europe. Et les calendriers sont bien plus strictes que dans l’hexagone (voir par exemple la farce du report régulier de la mise en place de la facturation électronique). N’allez pas non plus vous précipiter sur un outil (comme vous l’aviez fait il y a quelques années en installant un data lake sans savoir pourquoi… qui s’est transformé en data marécage). L’outil viendra en son temps, lorsque vous aurez cerné le périmètre, formalisé les processus, choisi les indicateurs, identifié les sources de données, défini les rôles de chacun… croyez-moi il y a du travail avant de passer à...

Duration:00:08:58

#3.16 Et si l'IA ne pouvait que regresser...

6/20/2023

Et si la regression de l’IA était la bouée de sauvetage de l’Être humain… Pour bien comprendre l’IA, il faut comprendre le principe de base de l’apprentissage machine. On apprend à la machine, on la dresse. Au risque de paraître à contre-courant, l’IA n’est pas “intelligente”, c’est du dressage. Comme je l’explique dans mes formations, l’IA fonctionne un peu comme votre chien. Il est “intelligent” car il a compris que, en échange d’une friandise ou d’une caresse, il vous ramène la balle que vous avez lancée. Si vous appelez cela de l’intelligence, d’accord; moi, je préfère appeler cela du dressage. Quoiqu’il en soit, l’IA fonctionne sur le même principe. C’est ce que l’on appelle des données d’entrainement. Vous montrez à l’algorithme ce qui s’est passé. Il en déduit ce qui va se passer. Première contrainte, vous devez avoir des données sur ce qui s’est passé dans le passé. Sans données d’entrainement, aucune prédiction n’est possible. Et ne me parlez pas des générateurs de données d’entrainement, qui représente sans doute le pire des biais que vous pouvez enseigner à vos systèmes d’IA. Pas de données, pas de prévisions ! Dans le cas des IA génératives, comme ChatGPT, dont on parle beaucoup depuis six mois, ou de ses équivalents graphiques comme MidJourney; l’entrainement est réalisé à partir de contenus récupérés sur Internet ou dans différentes bases de données. Si vous demandez à MidJourney de dessiner un ordinateur à la manière de Picasso, il copiera l’ensemble des caractéristiques des tableaux de Picasso qui ont servi de base à son apprentissage et produira un nouveau dessin. Ce nouveau dessin sera ensuite intégré dans sa base de connaissance et servira à son tour de donnée d’entrainement, etc. Et c’est là qu’à moyen terme, l’apprentissage machine creuse sa propre tombe. L’IA produit du contenu à partir du contenu existant. Dans le cas d’un tableau style Picasso, ou d’un texte style Victor Hugo, ce n’est bien sur ni du Picasso, ni du Victor Hugo, mais une copie. Cette même copie servira par la suite à alimenter les prochaines phases d’apprentissage. Un article sur le sujet a été récemment publié sur Arxiv : “The Curse of Recursion: Training on Generated Data Makes Models Forget” - La malédiction de la récursivité : L'entraînement sur des données générées fait oublier les modèles. Cet article explique comment, à force de créer des contenus basés sur les contenus eux-mêmes générés par une IA générative, le système perd peu à peu de sa substance. A force de copier la copie de la copie de la copie, le contenu généré devient le plus petit dénominateur commun du tableau de Picasso ou du texte de Victor Hugo. En résumé, pour paraitre intelligente, une IA générative a besoin de contenu humain original pour améliorer en permanence la copie qu’elle génère. Se posent alors deux questions. Premièrement, dans un monde où plus personne ne voudrait travailler, et où tout le monde utiliserait l’IA, comment continuerait-on à progresser ? La réponse est simple, nous ne progresserons plus. Plus de découverte scientifique, plus d’imagination, juste des copies de copies de copies. Imaginez que tout le monde confie la rédaction de ses pages web ou de ses fiches produits à une IA générative… ce n’est plus la terre qui serait plate, mais bien l’ensemble des sites Web ainsi conçus. Deuxièmement, les humains créateurs de contenus accepteront-ils que leurs créations soient pillées par les IA génératives sans leur accord ? J’ai déjà démontré que les IA génératives ne respectent ni les droits d’auteur ni le copyright, et ne mentionnent aucune de leurs sources. Et je plaide d’ailleurs pour la mise en place d’une balise permettant de publier du contenu sur Internet, et d’indiquer que l’on refuse son indexation par les IA génératives. Donc si ces IA ne disposent plus de contenu original et humain pour apprendre, elle perdront peu à peu de leur valeur. C’est ce qu’explique l’article que je citais il y a quelques instants. N’ayez donc pas peur...

Duration:00:05:12

#3.15 Albert School, l'école de commerce ancrée dans la data

5/22/2023

Fondée par Grégoire Genest, Matthieu Heurtel et Mathieu Schimpl, Albert School est la première Business School qui place la data au coeur de son enseignement, et qui ambitionne de former les talents de demain. Cette nouvelle école s’inscrit dans un contexte où l’enseignement supérieur français est segmenté entre formations d’ingénieur et écoles de commerce. Son ambition est de casser la frontière entre le commerce et la data et ainsi former des futurs managers/entrepreneurs qui comprennent à la fois le monde de l’entreprise et ses enjeux techniques, pilotés par la data. Offrant un équilibre entre l'enseignement des grandes écoles de commerce et d'ingénieur, l’école veut réinventer la préparation de ses étudiants au monde de l'entreprise. L’école propose des parcours post bac et master et garantit à ses étudiants de nombreux débouchés, à commencer par des opportunités dans ses entreprises partenaires renommées (LVMH, Carrefour, BCG Gamma...) et vise 100% d’employabilité post-cursus. Les 33 étudiants de la première promotion ont fait leur rentrée en septembre dernier au sein d’un campus de 2500 m² dans le Xe arrondissement de Paris. (Photo Albert School)

Duration:00:23:55

#3.14 Gouvernance - Digital Services Act (DSA)

4/26/2023

Le Digital Services Act (DSA) est une proposition de loi de l'Union européenne visant à réglementer les entreprises technologiques et les services en ligne opérant sur le marché européen. Cette proposition de loi est destinée à remplacer la directive e-commerce de l'Union européenne datant de 2000, qui était la principale loi régissant les services en ligne en Europe. Le DSA vise à moderniser la réglementation des services en ligne et à renforcer la responsabilité des entreprises technologiques en matière de lutte contre la désinformation, les discours de haine, la contrefaçon et d'autres contenus illégaux en ligne. Il prévoit également la mise en place de nouvelles obligations de transparence pour les plateformes en ligne, notamment en ce qui concerne la publicité politique, les algorithmes et les pratiques de modération de contenu. Le DSA est l'une des deux propositions législatives qui ont été présentées en décembre 2020 dans le cadre du paquet législatif sur la stratégie numérique de l'Union européenne. La seconde proposition, le Digital Markets Act (DMA), vise à réglementer les plateformes en ligne qui sont considérées comme des "gatekeepers" en raison de leur position dominante sur le marché. Thierry Breton a annoncé le 25 avril 2023, la liste des grandes plates-formes qui seront soumises au DSA dès le mois d'août 2023.

Duration:00:04:14

#3.13 Automatiser l'analyse financière, avec David IN, Prodware

4/20/2023

"L’informatique décisionnelle a pour but de « faciliter la collecte des données, son analyse et la transmission de l’information, et la met en forme pour être un support à la prise de décision » (Rikhardsson et Yigitbasioglu 2018, p. 37). Grâce à l’automatisation des remontées de données et à leur agrégation, elle permet d’améliorer la fiabilité du reporting et de prendre des décisions sur les ressources et les charges d’une entreprise, ou encore sur ses besoins d’investissement. Le malheur des dirigeants réside néanmoins bien souvent dans leur difficulté à évaluer le retour sur investissement des solutions de Business Intelligence. À y regarder de plus près, on se rend compte que le temps passé par des employés sur la production et la consolidation de données, par exemple lors de la clôture d’un exercice comptable, est titanesque. Or quand un mois est nécessaire pour clôturer un exercice, les outils de BI permettent de le faire en moins d’une semaine. Leur valeur ajoutée se ressent également au quotidien : un dirigeant qui a besoin d’une analyse financière pour prendre une décision doit en temps normal attendre quelques jours pour l’obtenir. La technologie permet quant à elle de réaliser cette tâche en une trentaine de minutes", nous explique David In responsable d’activité Data (BI/EPM) chez Prodware France

Duration:00:25:25

#3.12 Romain Delalande, Pegasystems, nous parle de low-code, no-code et de gouvernance

3/2/2023

2023 serait l'année du low-code ! C'est en tous cas ce que pense Pega, éditeur d'une plate-forme logicielle d'encadrement et d'administration de ces nouvelles pratiques de développement sans code. Sans code peut-être, mais pas sans données ! Et si les architectures de données, la gouvernance, la conformité sont au coeur des besoins actuels des entreprises, comment des technologies censées laisser à l'utilisateur le soin de développer ses propres outils informatiques peuvent-elles respecter le cadre contraignant global d'un système d'information ? Nous recevons aujourd'hui Romain Delalande, Manager Solutions Consulting France chez Pegasystems pour aborder l'ensemble de ces sujets, et comprendre comme le low-code / no-code peut, ou ne peut pas, être utilisé dans le cadre d'applications décisionnelles.

Duration:00:22:00