ASMSA 2020 Algorithmes Stochastiques, Modélisation Statistiques et Applications
Quatrième Rencontre Poitiers-Bordeaux: 10 et 11 Décembre 2020

Titres et résumés
Jeudi 10 décembre 2020
Paul Freulon (09h00--09h40).
Résumé: Il sera présenté une méthode permettant d'estimer les proportions de différentes populations cellulaires présentes dans un échantillon biologique à partir de données médicales appelées données de cytométrie en flux. Cette méthode repose sur l'utilisation de la distance de Wasserstein afin d'évaluer la proximité entre deux séries de mesures de cytométrie en flux. Pour approximer la distance de Wasserstein et son gradient, on utilise la procédure d'optimisation stochastique de Robbins-Monro, ainsi que la régularisation entropique de la distance de Wasserstein.
Valentin De Bortoli (09h50--10h30).
Abstract: In this presentation, we investigate the limiting behavior of a continuous-time counterpart of the Stochastic Gradient Descent (SGD) algorithm applied to two-layer  overparameterized neural networks, as the number or neurons (ie, the size of the hidden layer)  N → +∞. Following a probabilistic approach, we show  'propagation of chaos' for the particle system defined by this continuous-time dynamics under different scenarios, indicating that the statistical interaction  between the particles asymptotically vanishes. In particular, we establish quantitative convergence with respect to N of any particle to a solution of a mean-field McKean-Vlasov equation in the metric space endowed with the Wasserstein distance. In comparison to previous works on the subject, we consider settings  in which the sequence of stepsizes in SGD can potentially depend on the number of neurons and the iterations. We then identify two regimes under which  different mean-field limits are obtained, one of them corresponding to an implicitly regularized version of the minimization problem at hand.
Gilles Mordant (10h40--11h20).
Résumé : Dans cet exposé, je présenterai comment il est possible d'utiliser la distance de Wasserstein pour réaliser des tests d'ajustement dans le cadre d'hypothèses nulles fixes ou pour des familles paramétriques. Un cas particulier de familles paramétriques traitées est l'ensemble des familles de distributions engendrées par un groupe et une distribution. Ensuite, je présenterai une nouvelle mesure de dépendance basée sur la distance de Wasserstein. Certaines propriétés seront établies et je montrerai que cette mesure est naturellement liée à des outils de statistique multivariée classiques. Enfin, les questions d'estimation et d'inférence à propos de cette mesure seront abordés. Dans chacun de ces exemples, la nécessité d'utiliser des algorithmes stochastiques sera mise en avant.
Solym Manou-Abi (13h40--14h20).
Résumé: Dans cet exposé, il est question de l'analyse de la première vague du covid-19 sur l'île de Mayotte. Nous parlerons dans un premier temps des aspects socio-démographique et sanitaire sur l'île de Mayotte. Dans un second temps nous allons présenter l'historique de la première vague epidémique à Mayotte et les données observées. Ensuite les outils de modélisation adoptés et justifiés par les données cliniques, virologiques recueillies sur l'agent pathogène SARS-Cov-2. Après avoir décrit des estimations du nombre de reproduction de base et donc du taux d'infection, nous présenterons les prédictions effectuées prenant en compte une structure hétérogène de la population. Mots clés: Modèle d'épidémiologie, Coronavirus, Estimation, Taux de reproduction
Mohamed Ibazizen , Abdelghani Hamaz (14h30-15h10).
Abstract : The analysis of spatial processes is of interest in many different fields and spatial processes have been studied in such disciplines as geography, geology, biology and agriculture. We consider spatial processes defined on a regular rectangular grid in two dimensions with sites labeled (i,j), with an associated random variable X(i,j) defined at each site. When the data is coming from physical and natural sciences it is common to have irregularities, missing or outlying observations. Let the third-quadrant Q = {(i,j) ; i ≤ 0, j ≤ 0, (i,j) ≠ (0,0)} used as the past of a second order stationary random field. In this work, we consider prediction or estimation of X(0,0) when a finite number of observations are added to Q and the past is modified to I=Q∪K where K represents both the index set and the finite-dimensional subspace spanned by the additional observation : K = {X(i,j); 0 ≤ i ≤ h1 , 0 ≤ j ≤ h2 ; (i,j)≠ (0,0)}. We propose an interpolator of X(0,0) obtained as an appropriate linear combination of the backward and forward optimal predictors. A necessary and sufficient condition for this interpolator is given to be optimal.
Jean-François Dupuy, Bilel Bousselmi et Abderrazek Karoui (15h30--16h10).
Résumé: Nous nous intéressons à l'estimation dans le modèle de régression de Poisson lorsque : i) la variable de comptage observée peut être censurée aléatoirement à droite, et ii) les indicatrices de censure sont manquantes pour certains individus de l'échantillon. Nous proposons plusieurs méthodes d'estimation : imputation multiple, estimation IPW (pondération par l'inverse de la probabilité de sélection) et établissons les propriétés asymptotiques des estimateurs obtenus. Nous proposons également une méthode d'estimation IPW robuste. Une étude de simulation comparant ces différentes méthodes est décrite.
Zaher Khraibani (16h20--17h00).
Abstract: Given the fast spread of the novel coronavirus (COVID-19) worldwide and being classified by the World Health Organization (WHO) as one of the worst pandemics in history, it seemed necessary and intriguing for us to study the rate of growth of this later at such a high frequency. This issue has been the subject of intensive research by several teams all around the world. In this proposal project, we will present a brief study aiming to predict the probability of reaching a new record number of COVID-19 cases in Lebanon, based on a biostatistical method record theory, giving more insights about the rate of its quick spread in Lebanon. We will be using the methodology based on the records theory to predict the intensity of the next COVID-19 records and to compute the probabilities of the waiting time to observe the future COVID-19 record. The new approach of the re-emergence of COVID-19 in Lebanon will be conducted using a non-parametric statistical test to show the emergence of this new pandemic in Lebanon.
Vendredi 11 décembre 2020
Hugues Aschard (09h00--09h40).
Résumé: The sample size of human genetic studies has increased dramatically over the past years, leading to the discovery of thousands of variants associated with quantitative traits and diseases. In parallel, a tremendous amount of genomic data has been generated, from transcriptomic to metabolomic, improving our understanding of the molecular mechanisms of complex phenotypes. Finally, information on individual environmental background, including pollutants, lifestyle factors and behaviours, are becoming available thanks to the development of exposome-oriented technologies. Despite this massive increase in size and dimensionality of available data, the majority of past and current research focuses on simple univariate analysis, evaluating association between a single factor and a single outcome at a time. The community is now showing strong interest in integrative approaches for inferring complex networks and further deciphers the etiology of human diseases. However, the methodological gap to reach this goal is substantial. Solving this question goes through the development of new methods that, as GWAS, can demonstrate ease of use (and therefore ensure dissemination to the community), ease of interpretation, and high replicability. More importantly future methodologies will have to solve the intrinsic combinatorial and computational issues related to such an endeavor. Here, I will discuss global strategies for addressing these challenges while using examples from recent studies.
Amine Ounajim , Yousri Slaoui, Pierre-Yves Louis, Maxime Billot, Denis Frasca et Philippe Rigoard (09h50--10h30).
Abstract : Using technological advances, massive amounts of longitudinal data have become available. This makes parametric and non-parametric modeling techniques dedicated to longitudinal data very useful. Varying-coefficient models have recently drawn a lot of attention since they model potential links between one time-varying response variable and time-varying covariates using regression coefficients represented by smooth time functions. However, varying-coefficient models are generally used without taking into account either data heterogeneity or within-subject correlation. This corresponds to a major estimation bias, which delineates a strong limitation in this model. To bridge this gap, we propose here a mixture of varying-coefficient models with random effects represented by stochastic processes. We developed a specific backfitting procedure to estimate our model. A cross-validation method was also deployed for the selection of smoothing hyperparameters, which affect model performance. The proposed model has been evaluated on simulated and real data, showing that this algorithm brings together clustering subjects in homogeneous groups and achieves better estimates of intra and inter-subject effects.
Michel Harel , Echarif Elharfaoui et Joseph Ngatchou-Wandji (10h40--11h20).
Abstract . We study change-points tests based on U-statistics for absolutely regular observations. Our method avoids some of the technical assumptions on the data and the kernel required in Dehling et al. (2015). The asymptotic properties of the U-statistics are studied under the null hypothesis, under fixed alternatives and under a sequence of local alternatives. The asymptotic distributions of the test statistics under the null hypothesis and under the local alternatives are given explicitly and the tests are shown to be consistent. A small set of simulations is done for evaluating the performance of the tests in detecting changes in the mean, variance and correlation of some simple time series. Dehling, H., Fried, R., Garcia, I., and Wendler, M. (2015). Change-Point Detection Under Dependence Based on Two-Sample U-Statistics. Asymptotic Laws and Methods in Stochastics. Springer, New York, NY.
Cyril Perret (13h40--14h20).
Résumé: Durant quarante dernières années, les sciences cognitives ont réalisé d'importants progrès en ce qui concerne les différentes activités réalisées par le cerveau durant l'activité d'écriture. Nous disposons de modèles théoriques décrivant les étapes de planification (i.e., organisation des idées), de mise en forme (i.e., choix des mots, préparation et exécution des gestes graphiques) et de révision (i.e., corrections) intervenant durant la production d'un écrit. Il existe toutefois des questions pour lesquelles les approches expérimentales sont peu efficientes à apporter des solutions. L'objectif de cette présentation est de décrire un exemple de situation et de montrer comment l'utilisation des modélisations statistiques pourrait être une solution. Dans la tradition de la chronométrie mentale chère aux sciences cognitives, la mesure du temps s'écoulant entre deux frappes de touche au clavier est conçue comme une « fenêtre » sur les processus cognitifs impliqués dans la production écrite. Plus précisément, les chercheurs font l'hypothèse que la durée entre deux frappes est déterminée par des combinaisons plus ou moins complexes de processus cognitifs. Nous ne savons toutefois que peu de choses sur ces combinaisons. Notre objectif est donc de regrouper statistiquement les intervalles inter-keystrokes. Une première approche à partir de modèles de mélange gaussien conclura cette présentation.
Abir EL Haj , Yousri Slaoui, Pierre-Yves Louis, Cyril Perret et Zaher Khraibani (14h30-15h10).
Résumé: On s'intéresse dans ce travail à classifier les réseaux ayant des poids attribués aux noeuds. Cette question est motivée par la nécessité de spécifier les différentes périodes de stabilité électrophysiologique effectuées par le cerveau au cours d'un expérience psycho-linguistique; préparation de l'écriture à partir de l'activité électrique produite par les neurones dans le cerveau et enregistrés par l'électroencéphalogramme. Le but est d'explorer l'évolution de l'intensité moyenne des clusters obtenus au cous du temps en classant les 128 électrodes obtenues par les enregistrements électroencéphalographies (EEG). Nous proposons une extension du modèle à blocs stochastiques (SBM) afin de traiter ce type de réseau. Nous fournissons des méthodes d'inférence à travers les approches fréquentiste et bayésienne afin d'estimer les paramètres du modèle et classer les noeuds. Enfin, nous effectuons une application numérique en utilisant les données électroencéphalographies pour valider l'approche proposée.
Issam EL Hattab (15h30--16h10).
Résumé : L'analyse de la régression occupe une place importante dans les applications de la statistique. En effet, le praticien est souvent confronté à l'étude de deux ou plusieurs variables simultanément, il est donc amené à s'interroger sur la nature de la relation qui les unit. L'objectif de l?analyse de la régression est de pouvoir expliquer via une fonction m dite de régression les variations moyennes d'une grandeur dépendante en fonction d'une ou de plusieurs variables (explicatives). Dans cet exposé, je m'intéresse au problème de la Régression Non Paramétrique, c'est-à-dire, celui de l'estimation de la fonction de régression sans supposer que son expression est connue en fonction d'un nombre fini de paramètres à estimer. Les méthodes non paramétriques utilisées pour estimer la fonction de régression font l'objet d'une vaste littérature, en particulier, l'estimation à noyau tel que l'estimateur de Nadaraya-Watson. Ma contribution consiste à estimer la régression par une approche originale. Ma démarche fait usage d'un estimateur à noyau de type plug-in en utilisant une représentation basée sur les copules de la fonction de régression. L'inconvénient majeur de l'estimation à noyau réside dans le choix de la fenêtre h>0. Pour cela, j'ai établi la convergence en presque sûre de mon estimateur en précisant sa vitesse de convergence, et ce, de manière uniforme relativement à la fenêtre.
Alya Atoui, Abir El haj, Yousri Slaoui, Zaher Khraibani, Regis Moileron, Samir Abbad Andalousi, Ali Fadel, Kamal Slim (16h20--17h00).
Abstract: With the increasing demand for water and the reducing quantity of usable water, monitoring water quality has become a major concern for many researchers who aim to find applicable solutions to overcome this issue. This study uses the stochastic block model (SBM) method to show how the relationship between the physicochemical parameters varies from one location to another with respect to the type of activity around the water body. The SBM method uses a big set of data to analyze the variation of parameters and divide them into clusters (communities). In each community, the elements are said to be directly related, which means that any variation that occurs in one element will affect all the other elements significantly. Parameters from different clusters also can be affected by this variation, the magnitude of this effect is measured by the weight matrix which shows the intensity of the impact of each parameter on the others whether it is in the same cluster or not. This method was successful in determining the elements of each cluster and to understand the relation between them. Also, it clearly showed that the relationship between the parameters is not always the same, and it can be affected by many factors such as temperature, precipitation, and human activity. This method has helped in triggering new thinking techniques that focus on identifying the cause of the presence of a certain pollutant to improve water quality instead of thinking about how to reduce this specific element. Another way is to identify the element that has the greatest impact on the others and find ways to control it, thus improving the overall quality more easily.
Comité d'organisartion
  • Marc Arnaudon (IMB, Université de Bordeaux)
  • Hermine Biermé (LMA, Université de Poitiers)
  • Jérémie Bigot (IMB, Université de Bordeaux)
  • Yousri Slaoui (LMA, Université de Poitiers)
Illustration
  • Jocelyne Attab (LMA, Université de Poitiers)
Lien webex Jeudi 10 décembre 2020:
Lien webex Vendredi 11 décembre 2020
Pour me contacter

Université de Poitiers
Laboratoire de Mathématiques et Applications
UMR 6086 du CNRS
86962 Futuroscope Chasseneuil, France

Téléphone: (+33) (0)5 49 49 68 77

Fax: (+33) (0)5 49 49 69 01
Mail: Yousri"point"Slaoui "AT" math "point"univ "-"poitiers "point" fr