Data Science

Analyse de données, feature engineering, visualisation et outils modernes pour transformer vos données en insights actionnables.

4 articles

Articles

Feature Store en 2025 : est-ce encore utile en production IA ?
Data Science

Feature Store en 2025 : est-ce encore utile en production IA ?

Les feature stores ont fait beaucoup de bruit dans le monde du MLOps il y a quelques années. Présentés comme la solution miracle pour industrialiser le machine learning, ils promettaient de résoudre tous nos problèmes de gestion de features. Mais aujourd'hui, en 2025, alors que les architectures de ML ont considérablement évolué, la question mérite d'être posée : est-ce que les feature stores sont toujours pertinents ? Spoiler : la réponse n'est pas binaire. C'est quoi, un feature store, déjà

Jean-Michel Helem · 7 novembre 2025 · 7 min
Polars vs Pandas : benchmark réel sur 10 Go (performance & mémoire)
Python

Polars vs Pandas : benchmark réel sur 10 Go (performance & mémoire)

Résumé des résultats (TL;DR) Avant de plonger dans les détails, voici les chiffres clés de ce benchmark sur 47 millions de lignes (10 Go) : MétriquePandasPolarsDifférenceVitesse moyenne41.3s3.3s12.5x plus rapideRAM moyenne20.3 Go6.8 Go67% moins de mémoireMeilleur gain128.3s4.2s30.5x (lazy pipeline)Read CSV 10 Go127.3s14.8s8.6x plus rapideGroupBy multi-agg18.4s1.2s15.3x plus rapideJoins8.92s0.54s16.5x plus rapideCoût infra réel$340/mois$85/mois-75% en production Verdict : Polars domine sur

Jean-Michel Helem · 17 octobre 2025 · 14 min
DuckDB : le nouveau couteau suisse de l'analyse de données
Data Science

DuckDB : le nouveau couteau suisse de l'analyse de données

Si vous faites de l'analyse de données, vous avez probablement ce workflow : 1. Extraire les données (CSV, Parquet, base SQL...) 2. Charger en Pandas 3. RAM qui explose 4. Attendre 10 minutes qu'un groupby se termine 5. Crash. Recommencer sur une machine plus grosse. Et si je vous disais qu'il existe une solution qui : * ⚡ Requête 100× plus rapide que Pandas * 💾 Analyse 100 Go sur un laptop 16 Go de RAM * 📁 Lit directement CSV/Parquet/JSON sans import * 🔧 Zero configuration, zero serveu

Jean-Michel Helem · 15 octobre 2025 · 11 min
Python vs Java pour le ML : pourquoi j'ai (parfois) tort de choisir Java
Data Science

Python vs Java pour le ML : pourquoi j'ai (parfois) tort de choisir Java

En tant que développeur Java depuis 15 ans, j'ai un aveu à faire : je persiste parfois à utiliser Java pour du Machine Learning alors que Python serait objectivement meilleur. Pourquoi ? Par confort. Par habitude. Par conviction que "Java c'est plus robuste". Par fierté mal placée. Mais après avoir vraiment utilisé les deux écosystèmes en production sur des projets ML, j'ai appris quelque chose d'important : le bon outil dépend du contexte, pas de vos préférences. Dans cet article, je partage

Jean-Michel Helem · 8 octobre 2025 · 8 min