Resumen y 1. Introducción
Motivación y objetivos de diseño
Trabajos relacionados
Predicción conformal
4.1. Predicción conformal de Mondrian (MCP)
4.2. Métricas de evaluación
Predicción conformal de Mondrian para el Scrubbing de Discos: nuestro enfoque
5.1. Estadísticas del sistema y almacenamiento
5.2. Qué disco limpiar: Predictor de salud del disco
5.3. Cuándo limpiar: Predictor de carga de trabajo
Configuración experimental y 6.1. Conjunto de datos de código abierto de Baidu
6.2. Resultados experimentales
Discusión
7.1. Aspecto de programación óptima
7.2. Métricas de rendimiento y 7.3. Ahorro de energía mediante limpieza selectiva
Conclusión y Referencias
En los centros de datos, un número significativo de unidades no saludables pasan desapercibidas debido a atributos de fallo latentes, lo que resulta en escenarios de fallo-parada. Un enfoque común para mitigar tales escenarios es la limpieza de discos, que consiste en verificar los datos del disco mediante un proceso de escaneo en segundo plano para identificar sectores defectuosos. Sin embargo, este proceso puede consumir energía y causar degradación del rendimiento dependiendo del programa de activación. Este escenario genera preocupaciones en la industria, especialmente a medida que aumentan las capacidades de los discos. Notamos un eslabón perdido al abordar 'qué disco limpiar', 'cuándo limpiar', basado en la frecuencia del ciclo de limpieza mientras se minimiza el impacto en el rendimiento del array de almacenamiento y también se maximiza la fiabilidad. En este artículo, consideramos los siguientes objetivos y enfoques de diseño para abordar este desafío:
\ • ¿Qué disco limpiar? Dependiendo del proceso específico de limpieza, puede degradar temporalmente el rendimiento de la unidad. Para garantizar que la unidad permanezca rápida y receptiva, minimizar la frecuencia de limpieza es crucial. En lugar de realizar la limpieza para todos los discos en el array de almacenamiento, nuestro enfoque se centra en limpiar selectivamente solo los discos que lo requieren, reduciendo así el tiempo total necesario para completar el proceso.
\ • ¿Cuándo limpiar? Podemos optimizar el programa de limpieza de la unidad de disco considerando factores como la carga de trabajo del sistema, la importancia de los datos en la unidad y la disponibilidad de recursos. Este enfoque asegura que la limpieza se realice en los momentos más apropiados, minimizando el impacto en el rendimiento general del sistema.
\
La fiabilidad de los dispositivos de almacenamiento ha sido durante mucho tiempo una preocupación crítica en la industria, y las soluciones existentes a menudo se basan en el análisis de fallos de los sistemas de almacenamiento. Sin embargo, los métodos tradicionales como las pruebas de vida acelerada (Cho et al., 2015) no han demostrado ser indicadores fiables de las tasas de fallo reales en entornos de producción. Los enfoques recientes basados en aprendizaje automático, como series temporales multivariantes (Yu, 2019) y clasificación de series temporales (Ircio et al., 2022), se han centrado en mejorar la precisión del modelo, pero a menudo carecen de una integración profunda del conocimiento del dominio. Además, el enfoque multimodal de (Lu et al., 2020) que utiliza métricas de rendimiento (a nivel de disco y servidor) y la ubicación espacial del disco solo se centra en escenarios de fallo-parada, lo que puede no ser útil para detectar fallos latentes. Un estudio más reciente (Lu et al., 2023) ha abordado este problema investigando fallos grises (unidades de fallo lento) utilizando un modelo de regresión para identificar y analizar fallos lentos a nivel de unidades individuales.
\ Otro factor importante de la limpieza de discos es el costo de implementación y el consumo de energía. (Mi et al., 2008) y (Jiang et al., 2019) abordan la degradación del rendimiento debido a la limpieza y proponen asignar una prioridad más baja al proceso en segundo plano durante el tiempo de inactividad, es decir, cuando la unidad de disco no está activamente involucrada en el procesamiento de datos o realizando otras tareas. (Liu et al., 2010) y (Oprea y Juels, 2010) proponen un método para mitigar el consumo de energía y determinar cuándo limpiar en sistemas con datos económicos, pero requieren diseñar otro método para identificar datos menos críticos. La gestión del espacio de la unidad en caso de reemplazo del disco fallido se discute en (Pˆaris et al., 2010), junto con la reducción de la necesidad de limpieza frecuente. Se propone una limpieza multinivel en (Zhang et al., 2020) utilizando un modelo de Memoria a Corto y Largo Plazo (LSTM) para detectar errores de sector latentes en una configuración de clasificación binaria. Sin embargo, el uso de modelos basados en aprendizaje automático puede tratar los discos saludables y relativamente menos saludables de la misma manera, lo que lleva a una limpieza innecesaria de discos saludables.
\ Según nuestro conocimiento, nuestro trabajo es el primero en adoptar la predicción conformal de Mondrian para asignar una puntuación de salud a cada unidad de disco individual y utilizar las métricas para diseñar un ciclo de limpieza alineado con el tiempo de inactividad del sistema.
\
:::info Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 Deed (Atribución-NoComercial-SinDerivadas 4.0 Internacional).
:::
:::info Autores:
(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (rahuldeo.vishwakarma01@student.csullb.edu);
(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (jinha.hwang01@student.csulb.edu);
(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Université de Technologie de Compiègne, 57 avenue de Landshut, 60203 Compiègne Cedex - Francia (soundouss.messoudi@hds.utc.fr);
(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (ava.hedayatipour@csulb.edu).
:::
\