Architecte de résilience
- Type :
- Lieu(x) :
- Montréal, Québec
- Toronto, Ontario
- Date d’affichage :
- ID de l’emploi :
- R152089
Nos équipes sont au coeur de tout ce que nous faisons. Ensemble, nous aidons les gens, les entreprises et la société à aller de l’avant dans les bons moments et à être résilients dans les moments difficiles.
Notre promesse aux employés, c’est ce qu’Intact vous promet en échange de votre engagement à vivre nos valeurs, à donner le meilleur de vous-mêmes, à être ouverts au changement et à vous investir dans votre carrière. Nous vous promettons de vous soutenir et de vous offrir des occasions de développement et des avantages financiers axés sur la performance dans un milieu de travail où vous pouvez façonner l’avenir, réussir en équipe et évoluer avec nous.
La rémunération chez Intact, c’est plus qu’une paie.
Aménagements de travail flexibles et formule de travail hybride
Possibilité d’acheter jusqu’à cinq jours de vacances additionnels par année
Autres avantages sociaux visant à soutenir votre bien-être mental et physique, incluant des soins de santé virtuels, un compte de dépenses mieux-être, et plus encore.
RAAE et autres possibilités d’épargne : jusqu’à 12 % du salaire, voire plus (renseignez-vous sur la possibilité d’un revenu de retraite garanti à vie)
Échelle salariale (sans s’y limiter) :
149,600 - 182,800Boni annuel cible, basé sur le salaire de base, avec un versement potentiel pouvant aller jusqu’au double de la cible (selon la performance individuelle de l’employé et les résultats financiers de l’entreprise)
15%Pour honorer notre promesse de réussir en équipe, nous partageons les fruits de notre succès avec nos employés par l’entremise d’un programme de bonis annuels et d’un régime d’achat d’actions des employés (RAAE), dans le cadre duquel Intact verse une cotisation correspondant à 50 % des actions nettes achetées par l’employé.
Nos régimes de retraite sont flexibles et offrent une sécurité à long terme pour nos employés après leur carrière. Nous sommes l’une des rares entreprises à toujours offrir un régime de retraite à prestations déterminées qui assure un revenu de retraite garanti à vie.
Le salaire de la personne retenue pour ce poste sera déterminé selon un ensemble de facteurs, dont : l’expérience professionnelle, les compétences, la contribution anticipée quant au poste, l’équité interne, etc. L’échelle salariale présentée ci-haut est pour une semaine de travail de 35 heures et pourrait s’appliquer à la majorité des différents profils de candidats, mais nous encourageons les candidats se situant en dehors de cette zone salariale à postuler.
À propos du poste
Nous recherchons un(e) architecte de résilience pour définir et piloter notre architecture de résilience de bout en bout et notre stratégie de fiabilité en production sur nos environnement infonuagiques Azure, AWS, Google et nos environnements sur site.
La personne qui occupera ce rôle sera responsable des standards de conception, de la préparation à la mise en production et des mécanismes de contrôle à l'échelle de l'entreprise.
Le(la) candidat(e) idéal(e) combine une expertise en ingénierie de la fiabilité des sites (SRE), une maîtrise avancée de l'architecture système et une vision claire des pratiques d'ingénierie bleue/verte et de l'ingénierie du chaos, ainsi que de l'IA/IA générative, afin de garantir la fiabilité des systèmes, d'exploiter l'IA comme levier de résilience, de transformer les flux de travail des équipes et de de fournir aux utilisateurs des solutions résilientes et intelligentes.
Ce que vous accomplirez chez nous :
Objectifs principaux :
Définir l'architecture de résilience à l’échelle de l'entreprise, les modèles et les garde-fous de production pour toutes les plateformes et tous les services critiques.
Piloter la qualité de la conception par des revues d'architecture rigoureuses et des évaluations de préparation à la mise en production.
Faire des déploiements bleu/vert et de l'ingénierie du chaos des pratiques de premier-plan, formalisées et codifiées à l'échelle de l'entreprise : conception, outillage, automatisation et validation continue.
Intégrer l'IA/IA générative à l'ingénierie de la fiabilité : architectures de systèmes d'IA robustes, observabilité assistée par l'IA, détection causale et remédiation autonome.
Piloter l'évolution des stratégies de reprise après sinistre, de protection contre les logiciels de rançons (ransomwares) et de continuité d'activité, en s'appuyant sur des contrat de niveau de service/ Objectif de niveau de service (SLA/SLO) stricts et des résultats d’affaires mesurables.
Responsabilités principales
Définir l'architecture de référence de résilience pour les environnements infonuagiques/hybrides (disponibilité, latence, durabilité, Objectif de temps de restauration (RTO) / Objectif de point de reprise (RPO))
Mettre en place la gouvernance via des revues de conception, des points de contrôle de production, des politiques de sécurité, des tableaux de bord et des contrôles automatisés intégrés aux plateformes d’intégration et de déploiement continus (CI/CD), infrastructure en tant que code (IaC) et plateformes d'exécution.
Standardiser l'architecture de déploiement bleu/vert et concevoir des basculements de trafic sécurisés, des points de contrôle d'intégrité, des basculements progressifs, des restaurations et des migrations de données sans interruption de service.
Piloter un programme d'ingénierie du chaos à l'échelle de l'entreprise (expérimentations, injection de pannes, simulations) et intégrer les résultats dans les règles de l'architecture et l'amélioration des Objectif de niveau de service (SLO).
Définir les standards de préparation à la mise en production (capacité/saturation, dégradation progressive, tentatives de redémarrage/délai, disjoncteurs, limitation de débit) et formaliser les procédures opérationnelles, les cartographies de dépendances et les topologies de basculement validées par des exercices et des simulations de reprise après sinistre.
Promouvoir l'observabilité et les pratiques en ingénierie de la fiabilité des sites (SRE) : adoption d'OpenTelemetry, traçage distribué, indicateur de niveau de service/contrat de niveau de service/Objectif de niveau de service (SLI/SLA/SLO), budgets d'erreur et tableaux de bord de fiabilité pour la direction.
Concevoir l'architecture de reprise après sinistre (DR) et de cyber-résilience (sauvegardes immuables/isolées, PITR, segmentation résistante aux logiciels de rançons, validation de la restauration) en conformité avec les exigences réglementaires et d'audit.
Garantir la résilience de la plateforme et des données sur Kubernetes/maillage (service Mesh) de services, la réplication/le consensus, la géodistribution et le flux d'événements (DLQ, gestion de la contre-pression, retraitement).
Assurer la fiabilité des systèmes d'IA/IA générative et des opérations pilotées par l'IA (surveillance/garde-fous, détection d'anomalies, modélisation prédictive, remédiation avec intervention humaine, copilotes opérationnels).
Assurer le rôle de référent(e) en matière de résilience : encadrer les équipes, animer les comités/forums et communiquer clairement les compromis aux dirigeants et aux ingénieurs.
Ce que vous mettrez à profit :
Plus de 10 ans d’expérience en ingénierie de fiabilité de sites (SRE)/Plateforme/Infrastructure/Architecture systèmes, avec une solide expérience des environnements de production critiques à grande échelle sur Azure, AWS, GCP et sur site.
Gestion du trafic multirégional, équilibrage de charge global, DNS/BGP, TLS/mTLS, CDN/Edge.
Écosystèmes Kubernetes (AKS/EKS/GKE), maillages de services (Istio/Linkerd), stratégies d’autoscaling, disponibilité, contraintes de topologie.
Solutions d’observabilité : OpenTelemetry, Prometheus/Grafana, Jaeger/Tempo, ELK/OpenSearch, APM commerciaux ; modélisation de la corrélation et de la topologie.
Résilience des données : consensus/réplication (Raft/Paxos), partitionnement, PITR, snapshots, CDC ; caches (Redis), bases de données (Aurora, Cosmos DB, Spanner).
Infrastructure en tant que code (IaC) et automatisation : Terraform/Pulumi, GitOps (Argo CD/Flux), politiques en tant que code (OPA), modèles d’intégration et de déploiement continus (CI/CD) (déploiement bleu/vert, déploiement canary, déploiement progressif).
Ingénierie du chaos, orchestration de la reprise après sinistre et basculement automatisé à l’échelle de l’entreprise.
Aucune expérience de travail au Canada requise, mais nécessité d’avoir l’autorisation de travailler au Canada.
Bilinguisme (français et anglais) - Nécessite d'interagir sur une base régulière avec des collègues partout au pays.
Compétences en IA/IA générale :
Conception de systèmes d’IA fiables : déploiement de modèles (Ray/SageMaker/Vertex), bases de données vectorielles (Pinecone/FAISS/pgvector), pipelines de récupération, garde-fous et sécurité.
Apprentissage automatique en production (ML/Ops) : surveillance des modèles (dérive, performance, détection d’hallucinations), pipelines de fonctionnalités, traçabilité/observabilité, gouvernance des invites/du contenu.
Application de l’IA aux opérations : détection causale, résilience prédictive, cadres de remédiation autonomes.
Solides compétences en génie logiciel (Go/Python/TypeScript) et en pensée systémique ; excellente communication (écrite, visuelle, verbale) et présence de direction.
#LI-Hybrid
Il s'agit d'un nouveau rôle au sein de notre équipe en plein croissance | This role is a new member of our growing team.Égalité d’accès à l’emploi
Le respect est une des valeurs d’Intact. Pour nous, cela veut dire voir la diversité comme une force. Nous veillons à offrir un milieu de travail accessible où tout le monde se sent valorisé, inclus et encouragé à partager son point de vue unique.
Nous encourageons les candidatures de personnes appartenant à des groupes dignes d’équité, notamment les femmes, les Autochtones, les personnes handicapées, les personnes noires et les personnes faisant partie de la communauté 2ELGBTQI+.
Dans le cadre de l’engagement d’Intact envers la réconciliation, nous reconnaissons que nous travaillons, nous nous réunissons et voyageons dans un territoire habité à l’origine par les Premières Nations, les Métis, les Inuits, appelé aujourd’hui Canada. Cette histoire s’étend sur plusieurs siècles et continue d’évoluer aujourd’hui.
Nous avons mis en place des politiques qui visent à assurer aux personnes handicapées l’égalité d’accès et de participation, entre autres grâce à des mesures d’adaptation (accommodements) en milieu de travail. Un exemplaire de ces politiques est disponible sur demande.
Si nous pouvons rendre le processus de recrutement plus accessible pour vous, n’hésitez pas à nous le dire quand nous vous ferons part d’une possibilité d’emploi. Nous travaillerons avec vous pour répondre à vos besoins.
Si vous travaillez déjà pour Intact ou belairdirect, veuillez postuler à ce poste sur notre site carrière interne.
Merci de prendre note qu'Intact n'offre ni parrainage ni soutien concernant les démarches d'immigration, y compris, mais sans s'y limiter, les permis de travail fermés liés à l'entreprise. Les candidats doivent être admissibles à travailler au Canada à compter de la date prévue de leur entrée en fonction et durant toute la période de leur emploi. De plus, ils demeurent les seuls responsables de maintenir leur admissibilité au travail.