Streaming
2 articles
Articles
Streaming, parallelisation, batching : agents IA 5x plus rapides
Une application LLM lente est une application abandonnee. Les utilisateurs en 2026 attendent une experience reactive, comparable a celle des produits maitrises (Cursor, Claude Code, ChatGPT). Pourtant, beaucoup d'applications LLM construites en interne souffrent de latences a deux ou trois chiffres en secondes. Pour la majorite des cas, ce n'est pas une fatalite mais le resultat d'implementations naives. Trois techniques bien connues mais mal exploitees produisent des accelerations spectaculaire
Feature Engineering Temps Réel : Le Chaînon Manquant entre Données et Modèles IA
En 2026, 78% des échecs ML en production sont liés aux features, pas aux modèles (Gartner Report). Pendant que les data scientists optimisent des architectures transformers complexes, les pipelines de features sont construits à la va-vite avec SQL batch, créant un écart fatal entre entraînement et production : training-serving skew. Le feature engineering temps réel résout ce problème en calculant les features à la volée sur des streams de données (Kafka, Pulsar), permettant aux modèles ML de d