Prediccion de Rocas con Machine Learning.pdf

PREDICCION
DE ROCAS CON
MACHINE
LEARNING

Introducción
En las últimas décadas, la aplicación de la inteligencia artificial (IA) en el campo de la geología
ha sido cada vez más relevante. La IA ha permitido mejorar la precisión y rapidez en la
interpretación de datos geológicos, así como en la toma de decisiones en exploración y
producción de recursos naturales. A través de técnicas de aprendizaje automático, las IA
pueden analizar grandes volúmenes de información geológica para identificar patrones y
predecir comportamientos, lo que ha abierto nuevas posibilidades en la exploración y
explotación de recursos. La IA también se utiliza en la modelización geológica, permitiendo la
creación de modelos más precisos y realistas de los procesos geológicos. En resumen, la IA
está revolucionando la forma en que los geólogos trabajan y está abriendo nuevas
oportunidades en la comprensión y explotación de los recursos naturales.

Es bien conocido que en estos tiempos el geólogo ya esta usando equipos de nueva generación que le ayudan a su
proceso de búsqueda de nuevos yacimientos, como uso de drones, equipos mas sofisticados de XRF, entre otros.
En este caso quiero resumir mi experiencia para intentar predecir tipos de rocas a partir de datos tomados por una
pistola XRF (Olympus) en campo, para ello se recopilo información (Bases de datos de geoquímica de rocas, extraída
de diferentes fuentes) como:
1.Geochem: es una base de datos global de geoquímica de rocas mantenida por el Departamento de Ciencias de la
Tierra de la Universidad de Cambridge.
2.EarthChem: es una base de datos integrada de geoquímica, petrología y geocronología mantenida por el Consorcio
de Datos Geo científicos (GEODATA) de Estados Unidos.
3.USGS National Geochemical Database: es una base de datos de geoquímica de rocas y sedimentos mantenida por el
Servicio Geológico de los Estados Unidos.
4.GEOROC: es una base de datos global de geoquímica de rocas y volcanes mantenida por la Universidad de
Heidelberg en Alemania.
Es por ello que se logró consolidar una base de aproximadamente 6000 muestras, las cuales primeramente fueron
analizadas en Qlik para evaluar la información y realizar la analítica de datos.
1.Adquisición de datos

Aquí se explica brevemente el paso a paso que se debe realizar para realizar la predicción de rocas, el software usado
para tal fin fue Rapidminer Studio:
1. Carga los datos: En RapidMiner Studio, carga los datos que deseas utilizar para realizar la predicción. Para hacerlo,
puedes utilizar el operador "Read CSV" si los datos están en un archivo CSV o utilizar otro operador según el
formato de los datos.
2. Preprocesamiento de datos: Una vez que tengas los datos cargados, es posible que necesites realizar algunas tareas
de preprocesamiento para preparar los datos para el modelado. Algunas tareas de preprocesamiento comunes
incluyen la limpieza de datos, la selección de características y la transformación de datos. Puedes utilizar
operadores como "Filter Examples" o "Normalize" para realizar estas tareas.
3. Selección del algoritmo de modelado: Una vez que los datos estén preparados, selecciona el algoritmo de
modelado que deseas utilizar para realizar la predicción. RapidMiner Studio ofrece una amplia variedad de
algoritmos de modelado, desde regresión lineal hasta redes neuronales.
4. Configuración del modelo: Una vez que hayas seleccionado el algoritmo de modelado, configura el modelo con los
parámetros adecuados. Puedes hacer esto utilizando el operador "Model" o "Apply Model". Asegúrate de ajustar
los parámetros del modelo para obtener los mejores resultados de predicción.
5. Realización de la predicción: Una vez que hayas configurado el modelo, puedes utilizar el operador "Apply Model"
para realizar la predicción en los datos de prueba o de validación. También puedes utilizar el operador
"Performance" para evaluar la precisión del modelo.
6. Evaluación del modelo: Una vez que hayas realizado la predicción, evalúa el modelo para determinar su precisión y
rendimiento. Puedes utilizar operadores como "Performance" o "Accuracy" para hacerlo.
7. Optimización del modelo: Si el rendimiento del modelo no es satisfactorio, puedes optimizar el modelo ajustando
los parámetros o utilizando un algoritmo de modelado diferente. Continúa realizando iteraciones hasta que
obtengas los resultados deseados.
2. Procedimientos

El preprocesamiento de datos es una tarea crítica en la preparación de datos para el modelado y las predicciones. En
RapidMiner Studio, puedes realizar el preprocesamiento de datos utilizando una variedad de operadores que te permiten
limpiar, transformar y seleccionar los datos adecuados. Aquí hay algunos operadores de preprocesamiento de datos comunes
que puedes utilizar en RapidMiner Studio:
 Filter Examples: Este operador te permite filtrar filas o columnas de datos basadas en criterios específicos, como eliminar
filas con valores faltantes o eliminar columnas que no sean relevantes para el análisis.
 Imputation: Este operador te permite reemplazar valores faltantes en tus datos con valores estimados utilizando técnicas
de imputación, como la media o la mediana de los datos disponibles.
 Nominal to Numerical: Este operador te permite convertir variables nominales en variables numéricas, lo que te permite
utilizar técnicas de modelado que requieren datos numéricos.
 Binning: Este operador te permite agrupar los datos en intervalos discretos, lo que te permite reducir la complejidad de
los datos y facilitar el modelado.
 Normalize: Este operador te permite escalar los datos para que estén en la misma escala, lo que te permite comparar y
analizar los datos de manera más precisa.
 Feature Selection: Este operador te permite seleccionar las características más relevantes o importantes de los datos, lo
que te permite reducir la dimensionalidad de los datos y mejorar la precisión del modelo.
Para utilizar estos operadores, puedes arrastrarlos desde la paleta de operadores en RapidMiner Studio y configurarlos con
los parámetros adecuados. También puedes combinar varios operadores de preprocesamiento de datos para realizar
múltiples tareas de preprocesamiento en una sola operación. Una vez que hayas realizado el preprocesamiento de datos, los
datos estarán listos para el modelado y las predicciones.
2. Preprocesamiento
de datos

RapidMiner Studio ofrece una amplia variedad de algoritmos de modelado para ayudarte a realizar predicciones
precisas en tus datos.Aquí hay algunos algoritmos de modelado comunes que puedes utilizar en RapidMiner Studio:
1. Regresión lineal: Este algoritmo se utiliza para modelar la relación entre una variable dependiente y una o más
variables independientes mediante una línea recta. Puede ser útil para predecir valores numéricos continuos.
2. Árboles de decisión: Este algoritmo se utiliza para modelar la relación entre variables a través de una
estructura de árbol que se divide en nodos. Puede ser útil para predecir valores numéricos o categóricos.
3. Random Forest: Este algoritmo es una extensión de los árboles de decisión y se utiliza para modelar la relación
entre variables mediante la construcción de múltiples árboles de decisión. Puede ser útil para predecir valores
numéricos o categóricos y es especialmente efectivo en conjuntos de datos grandes.
4. Redes neuronales: Este algoritmo se utiliza para modelar la relación entre variables mediante la simulación de
una red de neuronas. Puede ser útil para predecir valores numéricos o categóricos y es especialmente efectivo
en conjuntos de datos grandes y complejos.
5. Máquinas de vectores de soporte (SVM): Este algoritmo se utiliza para modelar la relación entre variables
mediante la identificación de un hiperplano que divide los datos en diferentes categorías. Puede ser útil para
predecir valores categóricos y es especialmente efectivo en conjuntos de datos pequeños y medianos.
6. Clustering: Este algoritmo se utiliza para agrupar los datos en grupos o clusters en función de su similitud.
Puede ser útil para identificar patrones o tendencias en los datos.
Estos son solo algunos de los algoritmos de modelado disponibles en RapidMiner Studio. Además, RapidMiner
Studio también ofrece una variedad de técnicas de modelado avanzadas, como redes neuronales profundas, análisis
de texto y aprendizaje de refuerzo. Al seleccionar un algoritmo de modelado, es importante elegir uno que sea
adecuado para el tipo de datos y el problema de modelado específico.
3.Algoritmos para
modelado

1. Regresión lineal: es un modelo estadístico que se utiliza para modelar la relación entre una variable dependiente y
una o más variables independientes mediante una línea recta. En RapidMiner Studio, puedes utilizar el operador
"Linear Regression" para realizar regresión lineal en tus datos. El operador ajustará la línea recta a los datos de
entrenamiento y podrás utilizarla para realizar predicciones en los datos de prueba o de validación.
2. Árboles de decisión: son modelos de aprendizaje automático que se utilizan para modelar la relación entre
variables a través de una estructura de árbol que se divide en nodos. En RapidMiner Studio, puedes utilizar el
operador "Decision Tree" para construir un árbol de decisión en tus datos. El operador creará un árbol de decisión
basado en los datos de entrenamiento y podrás utilizarlo para realizar predicciones en los datos de prueba o de
validación.
3. Random Forest: es una técnica de modelado que se utiliza para mejorar la precisión de los árboles de decisión. En
lugar de construir un solo árbol de decisión, la técnica construye múltiples árboles de decisión y combina sus
resultados para obtener una predicción final. En RapidMiner Studio, puedes utilizar el operador "Random Forest"
para construir un modelo de Random Forest en tus datos. El operador creará múltiples árboles de decisión
basados en los datos de entrenamiento y los combinará para producir una predicción final.
4. Redes neuronales: son modelos de aprendizaje automático que simulan la estructura y el comportamiento de las
redes neuronales biológicas. En RapidMiner Studio, puedes utilizar el operador "Neural Net" para construir una red
neuronal en tus datos. El operador simulará una red de neuronas y ajustará los pesos de las conexiones para
optimizar la precisión del modelo. Puedes utilizar la red neuronal para realizar predicciones en los datos de prueba
o de validación.
5. Máquinas de vectores de soporte (SVM): son modelos de aprendizaje automático que se utilizan para clasificar
los datos en diferentes categorías. En RapidMiner Studio, puedes utilizar el operador "Support Vector Machine" para
construir un modelo de SVM en tus datos. El operador identificará un hiperplano que divide los datos en diferentes
categorías y utilizará este hiperplano para clasificar nuevos datos.
6. Clustering: es una técnica de modelado que se utiliza para agrupar los datos en grupos o clusters en función de su
similitud. En RapidMiner Studio, puedes utilizar el operador "k-Means Clustering" para realizar clustering en tus
datos. El operador agrupará los datos en k clusters y te permitirá analizar los patrones y tendencias en cada cluster.
3.Algoritmos para
modelado (detalle)

En este caso pondremos atención al algoritmo SVM (SuportVector Machine):
Para entender cómo funciona SVM, primero debemos comprender algunos conceptos básicos:
• Espacio de características: El espacio de características es un espacio n-dimensional donde n es el número de características o
atributos en los datos. Cada punto en este espacio representa una instancia de los datos y las características se utilizan para
definir su posición en el espacio.
• Hiperplano: Un hiperplano es un plano n-dimensional que divide el espacio de características en dos partes. En SVM, el
hiperplano se utiliza para separar los datos en diferentes categorías.
• Margen: El margen es la distancia perpendicular más corta entre el hiperplano y los puntos de datos más cercanos. En SVM, se
busca el hiperplano que maximice el margen entre las categorías.
En SVM, el objetivo es encontrar el hiperplano óptimo que maximice el margen entre las categorías. Para hacer esto, el algoritmo utiliza un
conjunto de datos de entrenamiento etiquetado que se utiliza para ajustar los parámetros del modelo.
El proceso de entrenamiento de SVM implica los siguientes pasos:
 Transformación de datos: Los datos de entrenamiento se transforman en un espacio de características de mayor dimensión,
donde es más probable que se pueda separar en dos categorías.
 Definición del hiperplano: Se define un hiperplano que separa las dos categorías. El objetivo es encontrar el hiperplano que
maximice el margen entre las dos categorías.
 Identificación del vector de soporte: Los vectores de soporte son los puntos de datos más cercanos al hiperplano. Estos puntos
son importantes porque determinan la posición del hiperplano y el margen.
 Clasificación: Una vez que se ha definido el hiperplano óptimo, se puede utilizar para clasificar nuevos datos. Los nuevos datos se
transforman en el espacio de características y se clasifican según su posición en relación con el hiperplano.
SVM es útil para clasificar datos que no son linealmente separables en el espacio de características. En este caso, se utiliza una
técnica llamada kernel trick para transformar los datos en un espacio de características de mayor dimensión donde es más
probable que se puedan separar en dos categorías.
3. SVM (Support
Vector Machine)

Se realizo la corrida de 8 algoritmos para modelado, ejecutándose hasta 183 modelos para los 4122 datos de geoquímica
obteniéndose con el SVM hasta una precisión de 73.5% +/- 3%, considerándose aceptable considerando el numero de datos
trabajados.
4. Ejecución de
algoritmos

Se muestran los detalles de la evaluación del mejor algoritmo para la predicción de rocas(SVM - Support Vector Machine), también
se muestra el factor que se le asigna a cada atributo.
5.Análisis del mejor
algoritmo

En Rapidminer se puede obtener un simulador donde se colocan los porcentajes de cada atributo para predecir el tipo de roca, en
el caso que se muestra en la figura siguiente los porcentajes son para una riolita.
6. SupportVector
Machine - Simulator

7. SupportVector
Machine - Proceso
A continuación se muestra el proceso completo realizado para obtener la predicción:

8. SupportVector
Machine –
Optimización del
Proceso
Haciendo algunas modificaciones de los hiperparametros se puede lograr la optimización del proceso de prediccion:

Prediccion de Rocas con Machine Learning.pdf

Más contenido relacionado

Similar a Prediccion de Rocas con Machine Learning.pdf

Más de Maribel Rosario Mija Torres

Último

Prediccion de Rocas con Machine Learning.pdf