Matías Carrasco: Midiendo distancias a galaxias usando herramientas de Inteligencia Artificial

Matías Carrasco Kind recibió su Licenciatura en Astronomia en la Universidad Católica de Chile, estuvo en el Instituto Max Plack de Astrofísica por mas de 2 años y actualmente esta terminando su Doctorado en la Universidad de Illinois en Urbana Champaign (UIUC) en EEUU donde trabaja en el grupo 'Laboratory for Cosmological data Mining' (LCDM). Para mas información sobre sus intereses de investigación, lista de publicaciones y biografía puedes revisar su pagina web aquí

Actualmente estamos una época de Cosmología de precisión, donde obtener una mapa tridimensional de la distribución de galaxias es fundamental para muchos análisis cosmológicos, que permiten poner restricciones en la densidad de la energía y materia oscura, ayudándonos a entender el origen, formación y evolución del Universo. La forma más directa de medir distancias es mediante el corrimiento al rojo (redshift) de lineas espectrales debido a las velocidades de recesión de las galaxias. Esta técnica es muy precisa pero también muy costosa en términos de tiempo y recursos. Obtener imágenes en distintos filtros es mucho más rápido y directo por lo que es posible obtener fotometría de galaxias mucho mas débiles en cantidades mucho mayores que usando un espectrógrafo. Programas importantes como el Dark Energy Survey (DES) o el Large Synoptic Survey Telescope (LSST) obtendrán fotometría de cientos a miles de millones de galaxias.

Figura 1. Ejemplo simplificado de un árbol binario de predicción dibujado en coordenadas polares. La raíz del árbol esta en el centro, colores individuales indican magnitudes. Cada hoja terminal (triángulos grises) puede hacer una predicción que luego es combinada con predicciones de otros árboles

Se han usado principalmemte dos técnicas para medir el redshift de una galaxia usando su fotometría. La primera y más usada es ajustar, mediante una librería espectral de galaxias, las observaciones que generalmente son tomadas con 5 a 10 filtros de magnitudes. Esto requiere mucha calibración, pero puede resultar en redshift precisos. La segunda técnica es usar una submuestra de galaxias con redshift conocidos (de otros surveys) y entrenar cierto tipo de algoritmos para predecir el redshift de las galaxias que solo tienen fotometría. Los primeros intentos ajustaron polinomios a los datos, pero recientemente nuevas y más sofisticadas técnicas han aparecido, muchas provenientes del campo de inteligencia artificial, donde el algoritmo aprende de lo que observa, buscando patrones poco obvios a simple vista.

Dada una muestra de galaxias de entrenamiento y un buen algoritmo de aprendizaje se pueden obtener resultados muy precisos. En este campo, hemos desarrollado dos nuevas técnicas para obtener redshift fotométricos (y su distribuciones de probabilidad). La primera técnica llamada TPZ (Trees for Photo-Z) utiliza árboles de decisión y bosques aleatorios que consiste en dividir la muestra de entrenamiento recursivamente en función de sus magnitudes o colores hasta formar un árbol el cual contiene una cadena de preguntas y dependiendo las respuestas hace una predicción. Figura 1 muestra uno de estos arboles como ejemplo. La idea es generar cientos de estos arboles que difieren entre sí y cada uno da una respuesta que luego se combinan para trazar un distribución de probabilidades. Esta es una técnica supervisada donde el redshift conocido es utilizado durante el aprendizaje.

Figura 2. (Arriba) Redshift fotométricos vs. redshift espectroscópico para 50,000 galaxias tomadas del CFTHLens survey. La linea roja indica la relación uno a uno que indica que tan precisos son los resultados. En este caso vemos que las predicciones son indistinguiblemente buenas. (Abajo) La distribución de galaxias como función del redshift usando los redshift espectroscópicos (gris) y usando la distribución de probabilidades de los redshift fotométricos. Ambas distribuciones concuerdan casi a la perfección. Esta distribución N(z) es muy importante para análisis topográficos de la masa del Universo, entre otros usos.

La segunda técnica, (que llamamos SOMz), es no supervisada y consiste en generar una mapa en 2D donde cada celda o neurona es “deformada” tratando de imitar la topología del espacio multidimensional de magnitudes, de esta forma, estos mapas agrupan galaxias con propiedades similares. Se generan cientos de estos mapas y se combinan sus predicciones. Es un proceso iterativo que se llama auto-organizacion que es una técnica proveniente del campos de redes neuronales ya que son basadas en el funcionamiento de la comunicación neuronal en el cerebro. La Figura 2 muestra un ejemplo de resultados para 50,000 galaxias del CFTHLens survey donde vemos la precisión alcanzada por estos algoritmos. Ambas técnicas son independientes y pueden ser combinadas para generar redshift fotométricos cada vez más precisos que permitirán un acelerado descubrimiento de nuestro Cosmos.

Links:

Codigo para calcular redshift fotometricos: MLZ (Machine Learning for photo-Z)

http://lcdm.astro.illinois.edu/static/code/mlz/MLZ-1.0/doc/html/index.html

"TPZ : Photometric redshift PDFs and ancillary information by using prediction trees and random forests"
Matias Carrasco Kind, Matias & Robert J. Brunner, 2013
MNRAS, 432, 1483 ArXiv: 1303.7269

"SOMz: photometric redshift PDFs with self organizing maps and random atlas"

Matias Carrasco Kind, Matias & Robert J. Brunner, 2014
MNRAS, 438, 3409 ArXiV:1312.5753

Resumenes (en inglés, después del salto + comentarios & compartir)

TPZ : Photometric redshift PDFs and ancillary information by using prediction trees and random forests

With the growth of large photometric surveys, accurately estimating photometric redshifts, preferably as a probability density function (PDF), and fully understanding the implicit systematic uncertainties in this process, has become increasingly important. In this paper, we present a new, publicly available, parallel, machine learning algorithm that generates photometric redshift PDFs by using prediction trees and random forest techniques, which we have named TPZ.¹ This new algorithm incorporates measurement errors into the calculation while also dealing efficiently with missing values in the data. In addition, our implementation of this algorithm provides supplementary information regarding the data being analysed, including unbiased estimates of the accuracy of the technique without resorting to a validation data set, identification of poor photometric redshift areas within the parameter space occupied by the spectroscopic training data, a quantification of the relative importance of the variables used to construct the PDF, and a robust identification of outliers. This extra information can be used to optimally target new spectroscopic observations and to improve the overall efficacy of the redshift estimation. We have tested TPZ on galaxy samples drawn from the Sloan Digital Sky Survey (SDSS) main galaxy sample and from the Deep Extragalactic Evolutionary Probe-2 (DEEP2) survey, obtaining excellent results in each case. We also have tested our implementation by participating in the PHAT1 project, which is a blind photometric redshift contest, finding that TPZ performs comparable to if not better than other empirical photometric redshift algorithms. Finally, we discuss the various parameters that control the operation of TPZ, the specific limitations of this approach and an application of photometric redshift PDFs.

SOMz: photometric redshift PDFs with self organizing maps and random atlas

In this paper, we explore the applicability of the unsupervised machine learning technique of self-organizing maps (SOM) to estimate galaxy photometric redshift probability density functions (PDFs). This technique takes a spectroscopic training set, and maps the photometric attributes, but not the redshifts, to a two-dimensional surface by using a process of competitive learning where neurons compete to more closely resemble the training data multidimensional space. The key feature of a SOM is that it retains the topology of the input set, revealing correlations between the attributes that are not easily identified. We test three different 2D topological mapping: rectangular, hexagonal and spherical, by using data from the Deep Extragalactic Evolutionary Probe 2 survey. We also explore different implementations and boundary conditions on the map and also introduce the idea of a random atlas, where a large number of different maps are created and their individual predictions are aggregated to produce a more robust photometric redshift PDF. We also introduced a new metric, the I-score, which efficiently incorporates different metrics, making it easier to compare different results (from different parameters or different photometric redshift codes). We find that by using a spherical topology mapping we obtain a better representation of the underlying multidimensional topology, which provides more accurate results that are comparable to other, state-of-the-art machine learning algorithms. Our results illustrate that unsupervised approaches have great potential for many astronomical problems, and in particular for the computation of photometric redshifts.

Lukay: Astrofísica Chilena