Portfolio

Rûmeysa CAN

À propos

Ce qui m'anime, c'est donner du sens aux données. Cellule par cellule, neurone par neurone, patient par patient. Pas juste faire tourner un pipeline mais comprendre ce que les données racontent vraiment. Ce qui me fascine dans la biologie, c'est qu'elle a résolu des problèmes avant nous. Le cerveau fonctionne déjà comme une architecture distribuée, le neurone comme une unité de calcul, la plasticité comme un algorithme d'apprentissage. L'informatique essaie encore de comprendre ce que le vivant fait naturellement. Et au milieu de tout ça, il y a une question qui me revient : que fait le stress au cerveau ? Concrètement. Comment une exposition prolongée au danger, un échec répété, un trauma réduit la neurogenèse hippocampique (Gould et al., 1998 ; McEwen, 2007), efface ou distord les souvenirs (une amnésie qui n'est pas un oubli mais une lésion — Sapolsky, 2017) et laisse des traces mesurables dans les circuits (LeDoux, 2015). Le cerveau garde une mémoire du stress. Cette mémoire est biologique.

Mes deux stages montrent ces deux facettes. Au NeuroPSI (CNRS, Paris-Saclay), j'ai travaillé sur le traitement sensoriel du cortex somatosensoriel murin : tracking comportemental par deep learning, électrophysiologie, imagerie calcique GCaMP. Au BME Lab (Hôpital Saint-Joseph), j'ai manipulé des données cliniques réelles structurées en OMOP-CDM avec tout ce que ça implique : hétérogénéité, valeurs manquantes, contraintes RGPD. Ces deux expériences forment un fil continu : relier la biologie des mécanismes aux données réelles.

En dehors du labo, la photographie m'aide à voir autrement. Elle m'oblige à chercher ce qui n'est pas immédiatement visible.

Formation

Licence Sciences de la Vie
Université Sorbonne Paris Nord
Bioinformatique BioinformatiqueÉpigénétiqueOutils mathématiquesInformatique
Neurosciences NeurosciencesPhysiologie intégrativeImagerie médicaleBiocapteurs
Physique MécaniqueOptiqueIngénierieOutils mathématiques
Biologie Biologie moléculaireImmunologieStatistiques biologiques
Baccalauréat Général
Lycée Geoffroy Saint-Hilaire, Étampes

Expériences de recherche

Recherche Clinique — Hôpital Paris Saint-Joseph
Stage d'observation · Mars 2026 · Biostatistiques & data science
Tutrice : Pauline Bian · Responsable : Dr. Joconde Weller
Missions
Extraction de cohortes via PMSI et DxCare
Entrepôts de données de santé (EDS-SPHERE, CODOC)
Modélisation prédictive sous R
Conformité CNIL et RGPD

L'équipe de Recherche Clinique en biostatistiques et data science de l'Hôpital Paris Saint-Joseph exploite les entrepôts de données de santé (EDS-SPHERE, CODOC) pour des études cliniques. J'ai intégré l'équipe de Pauline Bian, spécialisée dans la biostatistique appliquée à la recherche médicale. Le PSA post-opératoire à 3 mois est-il prédictif de l'évolution d'un cancer de prostate découvert fortuitement sur les copeaux d'énucléation HoLEP ?

Mon rôle : me familiariser avec l'extraction de cohortes via les bases PMSI et DxCare, observer la construction du dataframe et la modélisation prédictive sous R (régression logistique et forêts aléatoires) appliquées au projet HoLEP-iCaP.

En parallèle, j'ai découvert le fonctionnement des entrepôts de données de santé et leurs contraintes réelles : hétérogénéité des sources, données en texte libre à structurer, normes CNIL/RGPD strictes. Il faut d'abord comprendre le modèle de données avant même de formuler une question. C'est là que j'ai compris ce que signifient vraiment les « données réelles ».

RPythonBiostatistiquesPMSIEDS-SPHERERGPD
NeuroPSI — CNRS, Paris-Saclay
Stage L1 · 2023 · Équipe Daniel Shulz · Traitement sensoriel
Tuteur : Anton Dogadov · Équipe : Daniel Shulz
Missions
Pipeline de tracking avec DeepLabCut
Analyse de trajectoires sous MATLAB
Imagerie calcique GCaMP6f grande vitesse
Outils génétiques Cre-Lox

NeuroPSI est un institut de neurosciences du CNRS qui étudie les mécanismes cellulaires et intégratifs du système nerveux. J'ai rejoint l'équipe d'Anton Dogadov, spécialisée dans l'étude de l'activité corticale de la souris. Comment le cerveau encode les signaux sensoriels, enregistrés par imagerie calcique grande vitesse chez une souris transgénique exprimant GCaMP6f dans les neurones corticaux excitateurs.

Mon rôle : construire un pipeline de tracking comportemental avec DeepLabCut pour annoter automatiquement les mouvements de vibrisses sur des milliers d'images. L'extraction des keypoints image par image permettait ensuite d'analyser les trajectoires sous MATLAB : angles, vitesses, amplitudes.

En parallèle, je me suis familiarisée avec les outils génétiques Cre-Lox, j'ai observé une procédure chirurgicale sur souris et analysé des données d'imagerie calcique biphotonique du cortex somatosensoriel. Voir l'activité neuronale en temps réel dans un cerveau vivant, corrélée aux mouvements détectés automatiquement. Les résultats ont été directement intégrés au projet de recherche de l'équipe. C'est ce stage qui a ancré mon intérêt pour les neurosciences computationnelles.

PythonMATLABDeepLabCutGCaMP6fCre-Lox

Projets

Volcano plot — Expression différentielle RNA-seq (Lupus vs Contrôle) log₂(Fold Change) −log₁₀(p-adj) PRDM1 down-régulé up-régulé PRDM1 — gène hub
Volcano plot — gènes différentiellement exprimés dans le lupus. PRDM1 identifié comme gène hub sur-exprimé.
PRDM1 & Lupus — Analyse différentielle de l'expression génique
Dans le lupus érythémateux systémique, le corps produit des auto-anticorps contre son propre ADN, ce qui entraîne une inflammation pouvant toucher plusieurs organes. Peut-on détecter une signature transcriptomique propre aux patients lupus, des gènes sur-exprimés ou sous-exprimés par rapport aux individus sains ? À partir d'un jeu de données d'expression génique, j'ai calculé les Fold Change (log2) entre patients lupus et sujets sains, puis visualisé les profils sous Morpheus avec une heatmap et deux types de clustering (hiérarchique et K-means). Le gène PRDM1, retrouvé dans le cluster des gènes sur-exprimés, a été analysé via GeneCards, UniProt, Reactome et STRING pour comprendre ses interactions et son rôle dans le réseau immunitaire.
PRDM1 surexprimé chez les patients lupus, identifié comme répresseur transcriptionnel central dans la différenciation des plasmocytes
UMAP — Single-cell RNA-seq · Clustering Leiden · 6 populations UMAP1 UMAP2 B-cells T-cells NK cells Monocytes DC Neutro
UMAP — 6 populations cellulaires identifiées par clustering Leiden. Hétérogénéité transcriptomique inter-cluster significative.
Single-cell RNA-seq — Identification automatique de populations cellulaires
Contrairement au bulk RNA-seq qui donne une moyenne d'expression sur l'ensemble des cellules, le single-cell permet de résoudre chaque cellule individuellement. Peut-on identifier automatiquement des populations cellulaires distinctes dans un échantillon sanguin à partir de leurs profils d'expression génique ? J'ai travaillé sur le dataset PBMC3k (3 000 cellules mononuclées du sang périphérique, données publiques Scanpy). Pipeline complet : contrôle qualité (filtrage sur le nombre de gènes détectés et le pourcentage de gènes mitochondriaux), normalisation, sélection des 2 000 gènes les plus variables, réduction dimensionnelle PCA, clustering Leiden et projection UMAP. Les gènes marqueurs de chaque cluster ont été identifiés par test de Wilcoxon (p_adj < 0.05) et visualisés sur heatmap.
6 clusters identifiés sur le UMAP, avec des signatures géniques distinctes par cluster
Signal EEG + Puissance spectrale (Normal vs Épileptique) Normal Épilepsie spike Puissance par bande (δ θ α β γ) δθαβγ Normal Épileptique
Signal EEG et puissance spectrale par bandes — augmentation nette dans les bandes β/γ lors des crises.
Analyse EEG — Activité cérébrale normale vs crise épileptique
L'épilepsie se manifeste par des décharges neuronales synchrones et anormales. Peut-on voir une différence entre un signal EEG normal et un signal épileptique, et la puissance du signal permet-elle de les distinguer ? J'ai travaillé sur le dataset Epileptic Seizure Recognition (UCI, 11 500 enregistrements EEG à 180 Hz). Après avoir séparé les signaux normaux et épileptiques, j'ai appliqué un filtre passe-bande entre 0,5 et 40 Hz pour éliminer les artefacts qui ne viennent pas du cerveau : en dessous de 0,5 Hz on trouve des artefacts de mouvement, au-dessus de 40 Hz du bruit électrique et des artefacts musculaires. Enfin, j'ai calculé la puissance moyenne de chaque signal (moyenne du carré des amplitudes) pour mesurer l'intensité de l'activité électrique et comparer les deux groupes.
Les signaux épileptiques ont une puissance significativement plus élevée que les signaux normaux, ce qui reflète la dépolarisation synchrone des neurones lors des crises
Charge virale SARS-CoV-2 dans les eaux usées (copies/L) Semaines Copies / L pic Omicron moy. mobile (4 sem.) signal ~5j avant cas cliniques
Charge virale mesurée par biocapteurs dans les eaux usées — signal précurseur ~5 jours avant les vagues cliniques officielles.
Surveillance épidémiologique du SARS-CoV-2 par biocapteurs
Les systèmes de surveillance clinique du COVID-19 sont réactifs : les cas déclarés apparaissent après la circulation virale. Les biocapteurs dans les eaux usées permettent-ils de suivre la tendance de circulation du SARS-CoV-2 en temps réel, à l'échelle des collectivités ? J'ai travaillé sur les données réelles de surveillance SARS-CoV-2 dans les eaux usées de 54 collectivités françaises (données publiques data.gouv.fr, SUMEAU). Avec Pandas, j'ai exploré le jeu de données : valeurs manquantes par collectivité, moyenne, médiane et écart-type des taux. J'ai ensuite visualisé l'évolution temporelle pour plusieurs villes (Grenoble, Marseille, Lescar, Rennes) avec Matplotlib, puis représenté les moyennes sur une carte de France avec des cercles proportionnels.
Distribution spatiale et temporelle du SARS-CoV-2 visualisée sur 54 collectivités françaises, avec des disparités significatives entre territoires
DeepLabCut — Keypoints + Métriques cinématiques (angle moustache) w1w2w3 w4w5w6 Frames gauche droite
Tracking automatique des keypoints et extraction des angles de moustaches frame par frame — NeuroPSI, CNRS Paris-Saclay.
Tracking comportemental automatisé — moustaches de souris (DeepLabCut)
L'annotation manuelle des mouvements de moustaches sur des milliers d'images vidéo, c'est le goulot d'étranglement classique des études de traitement sensoriel. DeepLabCut permet d'automatiser ce tracking avec une précision suffisante pour extraire des métriques cinématiques fiables. Pipeline de tracking par deep learning (réseau pré-entraîné + fine-tuning sur frames annotées), extraction de keypoints frame par frame, calcul d'angles, vitesse et amplitude sous MATLAB. Réalisé au NeuroPSI, CNRS, dans le cadre de l'étude du cortex somatosensoriel murin.
Le pipeline a réduit le temps d'annotation d'environ 90% tout en permettant d'extraire les métriques sur toutes les vidéos.

Compétences

Programmation

PythonRMATLABSQLPandas · NumPyMatplotlibtidyverse · ggplot2Linux

Bioinformatique & Neuro

ScanpyDESeq2DeepLabCutMorpheusSTRING · ReactomeNCBI · EnsemblUniProt · GeneCards

Labo

Culture cellulairePCRSpectrophotométrieChromatographieMicroscopie photoniqueConfocale

Langues

Français & Turc — bilingue
Anglais — C1
Espagnol — B2
Russe — A1

Certifications

Principales
Complémentaires
Statistics 101 (IBM · Cognitive Class)  ·  SQL and Relational Databases 101 (IBM)  ·  English Advanced C1 (Univ. Federico II Naples · Coursera)

Recherches personnelles

Cerveau, échec et identité — une lecture critique
Neurosciences · Philosophie de l'esprit · Cognition

Une exploration personnelle à partir de la littérature neuroscientifique : que se passe-t-il dans le cerveau face à l'échec ? LeDoux (2015, Anxious) décrit comment l'amygdale génère des réponses de peur avant toute évaluation consciente. Sapolsky (2017, Behave) montre que le stress chronique réduit la densité dendritique dans le cortex préfrontal. Littéralement, l'échec répété peut altérer les capacités d'évaluation future. Damasio (The Feeling of What Happens, 1999) lie les émotions à la construction du soi via les marqueurs somatiques.

Ce que ces trois lectures ont en commun : les émotions ne sont pas des interférences avec la cognition. Elles en sont une composante. La philosophie stoïcienne (Épictète, Marc Aurèle) et Montaigne proposent des stratégies de reconfiguration cognitive que les neurosciences commencent à formaliser sous d'autres noms.

LeDoux 2015Sapolsky 2017Damasio 1999Philosophie de l'espritRégulation émotionnelle

Neuroimagerie et données omiques — le cas du glioblastome

Bioinformatique · Neuroimagerie · Oncologie computationnelle

Le glioblastome est la tumeur cérébrale la plus agressive. Survie médiane de 15 mois malgré chirurgie, radiothérapie et chimiothérapie. Ce qui rend cette tumeur aussi difficile à traiter, c'est son hétérogénéité. Pas juste entre patients mais au sein d'une même tumeur. Chaque région peut avoir un profil moléculaire différent.

Les approches récentes combinent neuroimagerie et données omiques. L'IRM multiparamétrique détecte des zones hypermétaboliques dans les régions péritumorales. Ces zones sont enrichies en cellules souches de glioblastome. Les cellules les plus agressives et résistantes aux traitements. Mais l'imagerie seule ne suffit pas. Il faut la croiser avec les données transcriptomiques pour comprendre quels gènes sont actifs dans ces zones.

Des équipes comme CANTHER (CNRS/Inserm/Lille) ont utilisé le machine learning pour unifier les données de 16 études internationales. 1600 patients. Résultat : une cartographie de l'activité transcriptionnelle identifiant 7 sous-types tumoraux avec des mécanismes biologiques et un pronostic différents. L'outil (GBM-cRegMap) est désormais public.

Ce qui m'intéresse dans ces approches, c'est l'intégration. L'imagerie donne une vue spatiale de la tumeur. Les données omiques donnent le profil moléculaire. Mais il faut relier les deux. Identifier quelles régions visibles à l'IRM correspondent à quels sous-types moléculaires. C'est exactement le type de problème où la bioinformatique devient indispensable. Pas pour remplacer l'expertise clinique, mais pour faire le pont entre l'image et la molécule.

Neuroimagerie Glioblastome Données omiques Machine learning

En dehors du labo

Lectures & curiosités scientifiques

J'aime lire en dehors du cursus. Neurosciences, philosophie de l'esprit, vulgarisation. Ce qui me passionne : comprendre le cerveau depuis les angles que le cours n'aborde pas.

Activer ses neurones — Steve Masson Sciences & éthique — Gérard Toulouse Quelle éthique pour les sciences ? — Véricourt & Toulouse L’intelligence naturelle et l’éveil de la conscience — Antonio Damasio
Articles arXiv & bioRxiv — connectomique, IA et neurosciences

Photographie & intérêts

Photographier c'est apprendre à regarder autrement. Trouver la structure dans le désordre, la géométrie dans le vivant. Une façon de prolonger hors du labo la même attention aux détails.

Nénuphars

Nénuphars — lumière rasante sur l'eau

Microscope NeuroPSI
Setup biphotonique — NeuroPSI, CNRS Paris-Saclay
Prothèse bionique
Prothèse bionique en fibre de carbone — salon ingénierie de la santé
Ruche
Ruche au bord de l'eau — intelligence collective du vivant
Hardware ouvert
Démontage & réparation — comprendre par les mains
TP Labo
Travaux pratiques — paillasse, solutions, protocoles
Séminaire ICN
ICN Data Club — Séminaire de neurosciences computationnelles, Paris-Saclay · 2023
Écrans GCaMP

Imagerie calcique GCaMP, NeuroPSI 2023

Contact