Post Mortem-logo

Post Mortem

Technology Podcasts

In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.

In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.

Location:

France

Description:

In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.

Language:

English


Episodes

#17 Incident BGP chez Facebook & OVH

4/28/2022
En octobre dernier, Facebook était indisponible plusieurs heures durant. Le même mois, l’hébergeur français OVH a également subit un incident. Leur point commun ? BGP. Le Border Gateway Protocol. Dans cet épisode #17 de Post Mortem, Stéphane Bortzmeyer nous fait découvrir les coulisses d’internet. Là où le « cloud », le « serverless » se fracasse à la réalité de l’internet : des machines bien physique qui essaient de communiquer entre elles. Mais ces machines sont distribuées à la...

Duration:01:04:00

#16 Blameless Engineering at ASOS

12/7/2021
Steve Withey, Principal Software Engineer @ ASOS, walks us through the journey ASOS tech teams followed towards adopting a blameless postmortem culture. In today's episode, we cover: Resources Playing the blame-less game">Playing the blame-less game Google Site Reliability Engineering books,">Google Site Reliability Engineering books,

Duration:00:24:09

#15 Le ML Ops pour accélérer l’innovation, de la R&D à la production

10/19/2021
Ils ont fait x4 en effectif en moins de 2 ans et ont recruté plus de 60 Data Scientists. Preligens est une scale-up proposant des solutions logicielles dans le domaine de la défense et a connu une croissance fulgurante ces deux dernières années. Aujourd’hui, je reçois Marie-Caroline Corbineau, Data Scientist au sein de l’équipe R&D de Preligens pour revenir sur les effets de cet afflux de nouveaux contributeurs sur leur capacité à développer et livrer des algorithmes à l'état de l'art...

Duration:00:15:43

#14 Scaler sa réponse à incidents - Le cas Algolia

8/31/2021
Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue">alert fatigue. Mais par où commencer ? Dans cet épisode, on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité. Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de...

Duration:00:29:23

#13 An experiment gone wrong

6/1/2021
Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau système de recommandation de mon application a-t-il un impact ? Pour qui ? Un test AB permet de comparer deux variantes afin d’identifier la plus efficace pour l’objectif recherché. Aujourd’hui, je reçois Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous d’une plateforme d'expérimentations 🧑‍🔬 Pour collecter les événements des sites clients (e.g., clic sur tel bouton, de telle couleur, etc.) et les...

Duration:00:28:57

#12 Comment Google anonymise vos données personnelles avec la Differential Privacy

5/4/2021
Des emojis les plus populaires sur iOS à l'affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l'anonymat des utilisateurs? Dans ce Post Mortem thématique, le Docteur Damien Desfontaines - Senior Software Engineer, Privacy pour Google nous parle de Differential Privacy (confidentialité différentielle). Avec des centaines de millions d'utilisateurs actifs chaque jour, les géants du...

Duration:00:38:29

#11 Prédiction de retards à la SNCF 🚉

4/6/2021
Tous les jours, des millions de voyageurs prennent le train sur le réseau SNCF, mais parfois, un train subit un retard. Aujourd'hui je reçois Héloïse Nonne, Head of Data Science & Engineering @ eSNCF, pour comprendre comment ce problème est adressé en interne pour améliorer l'information voyageurs. Après avoir présenté les spécificités d'un projet ML dans un groupe qui opère sur plus de 30 000 km de voies, Héloïse revient sur la modélisation envisagée pour améliorer l'information voyageurs...

Duration:00:35:48

#10 Competitive Data Science Vs Réalité business

3/9/2021
Les plateformes de Data Science comme Kaggle permettent de découvrir des jeux de données variés et de se tester face à d'autres compétiteurs. Plus votre modèle performe, meilleur est votre classement sur le leaderboard. Avec des jeux de données "curated" et des métriques à optimiser définies dès le début, le setup d'un Kaggle est souvent bien différent de celui que l'on retrouve lorsque l'on résout un challenge data dans la "vraie vie". Retour sur l'expérience de Badr Ouali, Head of Data...

Duration:00:19:18

#9 Avalanche de requêtes et effets de bords mystérieux

2/23/2021
Les fêtes de fin d’années sont synonymes de pics d’activités pour le e-commerce. Alors comment réagir quand on se rend compte qu’un incident se profile à l’horizon du moment le plus business critique de l’année ? Une conversation avec Théo Carrive, CTO de Cheerz. Concepts mentionnés: EXPLAIN Apple Universal Links cette keynote New Relic

Duration:00:22:37

#8 When the facts change, I change my model

2/5/2021
"When the Facts Change, I Change My Mind. What Do You Do, Sir?" disait JM Keynes. L’économiste soulignait alors l’importance de réajuster ses a priori et sa représentation du monde lorsqu'on on est confronté à de nouveaux éléments. C’est la même chose lorsqu’on entraîne un modèle de machine learning et qu’on le déploie. Les données que l’on va rencontrer en production suivent-elles une distribution similaire aux données sur lesquelles on a entraîné le modèle? Si non, comment peut-on...

Duration:00:24:18

#7 Don't knock the checklist

1/27/2021
Action items resulting from a postmortem analysis are often to implement more advanced monitoring or deploy new tools to track usage at a fine-grain level. Today, Timothy Raymond shows us that a good old checklist can sometimes be the most efficient way to prevent regressions in production. Some concepts mentioned in the episode: below 2000 characters About our guest, Timothy Raymond (Twitter @tim_raymond) is a seasoned Go programmer and currently a Principal Software Engineer at...

Duration:00:20:17

#6 Monitor early, fix bugs early 🇫🇷

12/8/2020
Loïc Carbonne, VP Engineering @ Theodo, nous partage son expérience sur la réduction du lead time de résolution des incidents. Au travers des leçons apprises lors du développement d’applications web, Loïc nous propose des outils et méthodes pour s’organiser afin: 1) d’identifier plus rapidement les bugs 2) et de réduire leur temps de résolution. En résumé, des best practices sur l’alerting, le monitoring et la gestion de bugs dans un fonctionnement scrum. Ressources ITIL — Information...

Duration:00:27:02

#5 Autoscaling lag et gestion des incidents chez Doctolib 🇫🇷

11/24/2020
Benoit Lafontaine, Engineering Director chez Doctolib, nous partage le post mortem d’un incident récent dû à une évolution soudaine de la charge sur la partie patient de leur service. Malgré une architecture d’auto-scaling déjà en place, le service a été dégradé quelques minutes. Benoît revient également sur la façon dont les incidents sont gérés chez Doctolib. Ressources Extrait audio d'un JT de M6, 19-45, disponible sur le kit presse du site doctolib.fr Superfail, une émission de...

Duration:00:33:37

#4 La divulgation de vulnérabilités, théorie et pratique 🇫🇷

11/10/2020
Que faire lorsque l'on rencontre une vulnérabilité dans un produit ou un service numérique? On explore avec Rayna Stamboliyska (Twitter: @MaliciaRogue) le rôle de la divulgation coordonnée de vulnérabilités; en quoi celle-ci permet de fluidifier la remontée des vulnérabilités et offre un compromis intéressant pour préserver la sécurité des utilisateurs? Dans un environnement où nous sommes tous utilisateurs finaux de produits et de services numérique, où le risque 0 en cyber sécurité...

Duration:00:36:42

#3 La Data Science dans les grands groupes, avec Ouriel Bettach 🇫🇷

10/28/2020
Ouriel Bettach, Data Scientist depuis plus de 6ans, nous propose un panorama de ses expériences au sein de grands groupes industriels sur des projets de machine learning (ML). On en profite pour faire le bilan sur la façon dont les grands groupes approchent des projets ML et d’évoquer les points bloquants récurrents dans ces projets, avant d’ouvrir sur les challenges qui se dressent à l’horizon. Points clés ; squadML Flow Références Ouriel nous recommande le blog Towards Data Science...

Duration:00:28:53

#2 Dragonblood is still leaking 🇫🇷

10/14/2020
Wi-Fi Protected Access 3 (WPA3) est destiné à remplacer WPA 2 - en service depuis 2004 - en rendant presque impossible de craquer le mot de passe d'un réseau. Problème, des chercheurs ont révélé qu'un attaquant peut exploiter des failles dans les implémentations existantes de WPA 3 pour récupérer le mot de passe de la victime. Dans cet épisode, Mohamed Sabt, maître de conférence à l'université de Rennes 1 enseignant la cybersécurité et chercheur au sein de l'équipe "Sécurité et...

Duration:00:47:22

What's this podcast about?

10/1/2020
In Post Mortem, we have engineers coming back on real-life incidents of IT systems. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened, how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents. A...

Duration:00:02:15

Qu'est ce que Post Mortem? 🇫🇷

9/30/2020
C’est quoi un « post mortem » ? Dans cet épisode je définis le thème du podcast, on y partage des retours d’expériences sur des incidents survenus dans des systèmes informatique. Un post mortem, d’après Wikipédia, c’est un process que l’on réalise à la fin d’un projet pour analyser ce qui a fonctionné et ce qui a moins bien marché dans un projet. L’objectif est d’en tirer des bonnes pratiques et de les partager pour éviter de répéter des incidents similaires. Dans ce podcast, on revient,...

Duration:00:02:08

#1 A migration's tale

9/24/2020
Nicolas walks us through a challenging service migration he experienced at Criteo, a personalized retargeting company. A Windows to Linux server migration was on the way for several months already when they realized that the logging backend they used was not working as expected under Linux and failed to collect metrics. Problem: By that time, 95% of the machine park had already switched to Linux. Product teams relying on those metrics to run their A/B tests were using small data sets...

Duration:00:34:22