# Probability and Statistics Seminar

## Past sessions

Newer session pages: Next 9 8 7 6 5 4 3 2 1 Newest

### Robust bandwidth selectors in semiparametric partly linear regression models

Consider a semiparametric partly linear model, with response variable $y$ and covariates $x_1,\dots, x_p$ and $t$. This model can be a suitable choice when one suspects that the response depends linearly on $x$, but that it is nonlinearly related to $t$. Least square estimators have been studied by several authors. All these estimators, as nonparametric estimators, depend on a smoothing parameter that should be chosen by the practitioner. As it is well known, large bandwidths produce estimators with small variance but high bias, while small values produce more wiggly curves. This trade-off between bias and variance lead to several proposals to select the smoothing parameter, such as cross-validation procedures and plug-in methods. It is well known that, both in linear regression and in nonparametric regression, least squares estimators can be seriously affected by anomalous data. The same statement holds for partly linear models. To avoid that problem, Bianco and Boente (2003) considered a three-step robust estimate for the regression parameter and the regression function. In this talk, we will introduce a robust plug-in selector for the bandwidth, under a partly linear model with fixed design which converges to the optimal one and leads to robust data-driven estimates of the regression function and the regression parameter. Our plug-in proposal is based on nonparametric robust estimates of the $j$-th derivatives, which extends the proposals given when $j=2$. We define an empirical influence measure for data-driven bandwidth selectors and, through it, we study the sensitivity of the plug-in selector. We use a Monte Carlo study to compare the performance of the classical approach and of the resistant selectors under normality and contamination. It appears that the robust selector compares favourably to its competitor, despite the need to select a pilot bandwidth. When combined with the three-step procedure proposed by Bianco and Boente (2003), it leads to robust data-driven estimates both of the regression function and the regression parameter.

### Informação Estatística e Análise Pré-posteriori

Esta palestra tem um carácter académico mais do que científico. O nosso objectivo é discutir o conceito de informação estatística como nos foi apresentado pelo Professor Dev Basu. Apresentaremos um exemplo simples de bolas em urnas. Com esse exemplo discutiremos o conceito de informação e mostraremos que podemos perder informação quando realizamos novos experimentos. Usaremos o conceito de Informação de DeGroot e suficiência de Blackwell para escolher experimentos. Por último mostraremos como podemos estabelecer o tamanho de amostra mínimo para atingir objectivos bem definidos.

### Capacity Management in Cellular Hierarchical Networks

An efficient utilisation of the radio resources in mobile communications is of a great importance. In general a high degree of sharing is efficient, but requires service protection mechanisms to guarantee the Quality of Service for all customers. We study the effect of cell breathing and overlapping along with hierarchical cell structures. We show that by call packing we obtain a high utilisation. The transformation from cell-based network to direct routing network model is used to carry out calculations. The models in discussion are a generalisation of the Erlang-B formula, including general arrival processes and multi-rate (multi-media) traffic for second and third generation systems.

### Um olhar sobre o reino vegetal: a biotecnologia aplicada ao pinheiro bravo

Neste seminário focam-se aspectos gerais sobre o desenvolvimento de uma planta. Em particular é discutida a questão de clonagem de pinheiros feita a partir de árvores melhoradas, de valor florestal comprovado. No seguimento desta questão discute-se como é possível criopreservar embriões de pinheiro por tempo indefinido. Uma vez que o termo chave é transformação genética, neste seminário será discutida o que é, como é efectuada e quais os resultados.

### Exploring Finite Markov Chains by the Systematic Computation of Descriptors

We try to gain insight into the deeper physical behavior of a finite Markov chain by systematically computing quantities related to the visits to a string of nested sets of states. The choice of the successive states added to the nested sets is called an exploratory strategy. The strategy is constructed by focusing of the physical property to be explored. Quantities that serve as criteria in one strategy are reported as descriptors for the other strategies. This is a promising tool for the exploration of finite discrete-time Markov chains. Similar methods can be developed for continuous-time chains and Markov renewal processes, but the required computational methods are substantially different. We believe that this methodology may find applications, among other areas, in genetics and linguistics. The existing Markov chain analysis should be complemented by data analytic procedures applied to real or simulated data bases. The exploration in parallel of the Markov chains and suitable data sets can serve to develop the skills needed to gain reliable insights from the models and from the data sets.

Este Seminário é uma organização conjunta do CEMAT- Grupo 3 e da Sociedade Portuguesa de Estatística

### Determinar o mérito genético de uma árvore

Um dos elementos centrais do sucesso do melhoramento genético é a capacidade de poder prever, com base num modelo genético simples e em métodos estatísticos apropriados, qual o valor genético de um indivíduo. Esta ciência designa-se por Genética Quantitativa. O seu objecto de estudo é poder dizer qual o mérito dos genes que contém (em relação à média da população a que pertence) e que levam a que tenha uma performance melhor. Irei apresentar resumidamente o modelo genético subjacente, os métodos estatísticos mais comuns e os desafios de análise estatística que encontramos na análise de dados reais.

### A random walk on the unit interval

We examine a Markov chain model for a random walk on the unit interval. That model is the subject of several problems, starting with 6.4.34, pp. 321 ff. in the book Marcel F. Neuts, "Algorithmic Probability: A Collection of Problems", Chapman and Hall, New York, New York, 1995. The random walk is studied by analytic, numerical and computer-experimental methods. Each of these approaches complement the others. Together, they offer an example of the diverse, hybrid methods that can be brought to bear on the contemporary problems of applied mathematics.

### Phylogenetics: discovering the tree of life

Brief history of phylogenetic analysis, and some of the related controversies ("cladistics vs. phenetics"). Introduction to terms, principles and methods of phylogenetics, including parsimony, likelihood and distance based approaches. Particular emphasis will be given to the analysis of DNA sequence data. Some of the problems that affect phylogenetic analysis will be discussed, such as homology assessment, horizontal gene transfer (HGT), "gene trees vs. species trees". Information on the most commonly used software will be provided, including a short demonstration on the use of PAUP* (Phylogenetic Analysis Using Parsimony, *and other methods).

The presentation will be in Portuguese (or in English, if requested), with transparencies in English.

### 16/03/2004, 14:30 — 15:30 — Room P3.31, Mathematics BuildingCláudia Nunes, Departamento de Matemática, IST

Nesta apresentação é feita uma análise de um modelo espaço-temporal, o qual descreve o movimento colectivo de partículas no espaço e no tempo. Considera-se um conjunto $E$ (eventualmente infinito, mas numerável), ao qual chegam partículas de acordo com uma cadeia Markov $(K,X)$. $K$ designa o ambiente aleatório que rege o processo (sendo que $K$ é uma cadeia de Markov homogénea) e $X$ designa o número de partículas que entram no conjunto $E$ em cada instante. Assume-se que o número de partículas geradas em determinado instante depende apenas da transição ocorrida na cadeia $K$, pelo que o processo bivariado $(K,X)$ é uma cadeia Markov modulada.

Uma vez entradas no conjunto $E$, as partículas movem-se ao longo dos elementos de $E$ de forma condicionalmente independente (dada a transição no ambiente e o número de partículas geradas), e de acordo com uma cadeia de Markov absorvente em tempo finito.

Para este sistema é feita uma análise do tipo sample path, apresentando-se nomeadamente leis de médias para diversos funcionais de interesse, nomeadamente:

• Taxa de entrada de partículas num dado subconjunto de $E$;
• Taxa de throughput de $A$ para $B$, onde $A$ e $B$ são subconjuntos (disjuntos) de $E$;
• Taxa de novas visitas a um dado subconjunto.

Finalmente discute-se a validade destes resultados em termos de valor esperado, no quadro de ergodicidade da cadeia moduladora $K$.

Este trabalho é um trabalho conjunto de Nelson Antunes, Cláudia Nunes e António Pacheco.

### Quantitative genetic models for describing simultaneous and recursive relationships between phenotypes

Multivariate models are of great importance in theoretical and applied quantitative genetics. We extend quantitative genetic theory to accommodate situations in which there is linear feedback or recursiveness between the phenotypes involved in a multivariate system, assuming an infinitesimal, additive, model of inheritance. It is shown that structural parameters defining a simultaneous or recursive system have a bearing on the interpretation of quantitative genetic parameter estimates (e.g., heritability, offspring-parent regression, genetic correlation) when such features are ignored. Matrix representations are given for treating a plethora of feedback-recursive situations. The likelihood function is derived, assuming multivariate normality, and results from econometric theory for parameter identification are adapted to a quantitative genetic setting. A Bayesian treatment with a Markov chain Monte Carlo implementation is suggested for inference and developed. When the system is fully recursive, all conditional posterior distributions are in closed form, so Gibbs sampling is straightforward. If there is feedback, a Metropolis step is embedded for sampling the structural parameters, since their conditional distributions are unknown. Extensions of the model to discrete random variables and to non-linear relationships between phenotypes are discussed.

### Approximation algorithms for the estimate of the MCD and a new proposal

In the multidimensional framework the robust estimation of the location and the covariance matrix is a highly expensive computational task. A popular estimator is the Minimum Covariance Determinant (MCD; Rousseeuw, 1984, 1985). Different authors proposed approximation algorithms for this estimator. Recently Rousseeuw and van Driessen (1999) seem to stop the competition in providing a fast and good approximation to the MCD with their procedure called FAST-MCD. This algorithm works fine when the spatial configuration of data contains either radial outliers or clusters of outliers having dispersion higher than that of the good points. When the cluster of outlying observations has a dispersion lower than that of the good points the FAST-MCD shows some drawbacks. This behavior highlights some remarks about the robustness of the MCD. In the talk we review the MCD estimator and some algorithms for its approximation, we discuss about the source of failure of the estimator, and we present a new procedure.

### Default Priors for Gaussian Processes

Motivated by the statistical evaluation of complex computer models, we deal with the issue of objective prior specification for the parameters of Gaussian processes. In particular, we derive the Jeffreys-rule, independence Jeffreys and reference priors for this situation, and prove that the resulting posterior distributions are proper under a quite general set of conditions. Another prior specification strategy, based on maximum likelihood estimates, is also considered, and all priors are then compared on the grounds of the frequentist properties of the ensuing Bayesian procedures. Computational issues are also addressed in the paper, and we illustrate the proposed solutions by means of an example taken from the field of complex computer model validation.

### Robust tests for the regression parameter in semiparametric partly linear models

This talk focuses on the problem of testing the null hypothesis $H_{0\boldsymbol{\beta}}:\boldsymbol{\beta}=\boldsymbol{\beta}_o$ under a semiparametric partly linear regression model, $y_i=\boldsymbol{x}_i' +g(t_i)+\epsilon_i$, $1\leq i\leq n$, by using a three-step robust estimate for the regression parameter and the regression function. Two families of tests statistics are considered and their asymptotic distribution are studied under the null hypothesis and under contiguous alternatives. A Monte Carlo study is performed to compare the finite sample behavior of the proposed tests with the classical ones.

### Estimação de um modelo de equações simultâneas usando o método da regressão quantílica

O método da regressão quantílica é um método de estimação que se baseia numa generalização do conceito de regressão, recorrendo à estimação de quantis da distribuição condicional associada ao modelo. Enquanto que os métodos de estimação usuais em modelos de regressão têm como objectivo estimar o valor médio da distribuição condicional da variável resposta, a regressão quantílica considera a estimação dos quantis da distribuição condicional. Ao ter em conta a estimação de diversos quantis da distribuição, esta técnica permite obter informação mais completa sobre a distribuição condicional no seu todo.

O método da regressão quantílica foi introduzido por Koenker e Bassett (1978) e, dadas as suas potencialidades, tem vindo a ser usado com bons resultados na estimação de parâmetros em diversos modelos estatísticos. Uma das áreas de aplicação em que a regressão quantílica tem despertado maior interesse nos últimos anos, tem sido a área socio-económica. No presente trabalho, vai considerar-se a estimação dos parâmetros de um modelo de equações simultâneas através da regressão quantílica. Os modelos de equações simultâneas são modelos estatísticos fundamentais em econometria; são caracterizados por sistemas de equações que traduzem a dependência de um conjunto de variáveis relativamente a um outro conjunto, admitindo-se a existência de relações de interdependência entre as diversas variáveis. O processo é ilustrado com um modelo proposto por Portela (2001), constituído por duas equações comportamentais e que se destinou ao estudo dos salários e do nível de escolaridade portugueses no período de 1985 a 1997.

### Fluid Buffers - Changing the Behaviour at the Borders

The application of matrix-analytic methods to the resolution of fluid queues has shown a close connection to discrete-state quasi-birth-and-death (QBD) processes. We further explore this similarity and analyze fluid queues with finite and infinite capacities, for which the evolution of the buffer content changes when it is either empty or full. We briefly indicate how the stationary density of the fluid buffer may be computed in an efficient manner.

### Robust Procedures for Semiparametric Partly Linear Autoregression

In many situations, a fully nonparametric autoregressive process, $\{y_t\}$, can neglect a possible linear relation between $y_t$ and any lag $y_{t-k}$ and so, it may be sensible to fit a partly linear autoregressive model.

In the simplest partly linear autoregression model, the stationary process $\{y_t: t\geq 3\}$ satisfies $$$y_t=\beta y_{t-1}+ g(y_{t-2})+\epsilon_t, \label{eq:1:507}$$$ with $\epsilon_t$ i.i.d. independent of $\{y_{t-j}, j\geq 1\}$, $E(\epsilon_t)=0$ finite $E\epsilon_t^2$.

The sensitivity of the least squares estimates to outliers has been extensively described both in the purely parametric and in the nonparametric setting. The sensitivity to outliers of the classical estimates under a partly linear autoregression model ($\ref{eq:1:507}$) is good evidence that robust methods, less sensitive to a single wild spike outlier, would be desirable, since the effect of a single outlier is even worse than in the independent setting.

In this talk, which corresponds to a joint work with Ana Bianco, the problem of obtaining a family of robust estimates for model ($\ref{eq:1:507}$) is addressed introducing a three–step robust procedure whose asymptotic behavior is derived. A robust procedure to choose the smoothing parameter is also discussed. Through a Monte Carlo study, the performance of the proposed estimates is compared with the classical ones. Moreover, a procedure to detect anomalous observations is discussed.

### A semi-Markov approach to the analysis of fluid queues

Fluid queues in a random environment are used to modeltelecommunication networks and are amenable to a variety of approachesfor solution. Recently, it has been shown that they may be solved byfollowing the same renewal-type arguments as for quasi-birth-and-deathprocesses. The advantages are that one may concentrate on thestructural behaviour of the process and rely on fast, numericallystable algorithmic procedures. We shall briefly describe theconceptual approach and discuss the infinite and finite buffer cases.

### Modelos de Contagem e Somas Aleatórias

Dados reais exibem frequentemente padrões de aleatoriedade complexos, que podem ser transmitidos por modelos discretos sofisticados. Muitos desses modelos podem ser agrupados em famílias caracterizadas por relações de recorrência, que permitem desenvolver formas eficientes de cálculo de densidades de somas aleatórias, como a relação de Panjer. Discute-se uma generalização das classes de Panjer, e aplicações ao estudo de somas aleatórias. A aplicação a dados reais justifica reflexão sobre as leis de Zipf-Mandelbrot, discutindo-se ainda uma "lognormal discreta" e em que sentido esta suscita a construção de extensões das leis de Mandelbrot para fenómenos auto-organizativos.

Investigação parcialmente financiada por FCT/POCTI/FEDER (Projecto VEXTRA).

Older session pages: Previous 11 Oldest