El escaneo tradicional de discos mejora la integridad de los datos pero consume rendimiento y energía. Este artículo presenta un método de escaneo selectivo e inteligente impulsado por la predicción conformal de Mondrian, asignando puntuaciones de salud a unidades individuales para determinar qué discos escanear y cuándo hacerlo. Al alinear los ciclos de mantenimiento con períodos de inactividad y utilizar modelos predictivos para detectar problemas latentes o de "fallo lento", el enfoque mejora la fiabilidad mientras minimiza el desperdicio de recursos, ofreciendo un camino basado en datos hacia centros de datos más inteligentes y ecológicos.El escaneo tradicional de discos mejora la integridad de los datos pero consume rendimiento y energía. Este artículo presenta un método de escaneo selectivo e inteligente impulsado por la predicción conformal de Mondrian, asignando puntuaciones de salud a unidades individuales para determinar qué discos escanear y cuándo hacerlo. Al alinear los ciclos de mantenimiento con períodos de inactividad y utilizar modelos predictivos para detectar problemas latentes o de "fallo lento", el enfoque mejora la fiabilidad mientras minimiza el desperdicio de recursos, ofreciendo un camino basado en datos hacia centros de datos más inteligentes y ecológicos.

Predicción Conformal de Mondrian para Puntuación de Salud de Discos y Optimización de Depuración

2025/10/07 02:09

Resumen y 1. Introducción

  1. Motivación y objetivos de diseño

  2. Trabajos relacionados

  3. Predicción conformal

    4.1. Predicción conformal de Mondrian (MCP)

    4.2. Métricas de evaluación

  4. Predicción conformal de Mondrian para el Scrubbing de Discos: nuestro enfoque

    5.1. Estadísticas del sistema y almacenamiento

    5.2. Qué disco limpiar: Predictor de salud del disco

    5.3. Cuándo limpiar: Predictor de carga de trabajo

  5. Configuración experimental y 6.1. Conjunto de datos de código abierto de Baidu

    6.2. Resultados experimentales

  6. Discusión

    7.1. Aspecto de programación óptima

    7.2. Métricas de rendimiento y 7.3. Ahorro de energía mediante limpieza selectiva

  7. Conclusión y Referencias

2. Motivación y objetivos de diseño

En los centros de datos, un número significativo de unidades no saludables pasan desapercibidas debido a atributos de fallo latentes, lo que resulta en escenarios de fallo-parada. Un enfoque común para mitigar tales escenarios es la limpieza de discos, que consiste en verificar los datos del disco mediante un proceso de escaneo en segundo plano para identificar sectores defectuosos. Sin embargo, este proceso puede consumir energía y causar degradación del rendimiento dependiendo del programa de activación. Este escenario genera preocupaciones en la industria, especialmente a medida que aumentan las capacidades de los discos. Notamos un eslabón perdido al abordar 'qué disco limpiar', 'cuándo limpiar', basado en la frecuencia del ciclo de limpieza mientras se minimiza el impacto en el rendimiento del array de almacenamiento y también se maximiza la fiabilidad. En este artículo, consideramos los siguientes objetivos y enfoques de diseño para abordar este desafío:

\ • ¿Qué disco limpiar? Dependiendo del proceso específico de limpieza, puede degradar temporalmente el rendimiento de la unidad. Para garantizar que la unidad permanezca rápida y receptiva, minimizar la frecuencia de limpieza es crucial. En lugar de realizar la limpieza para todos los discos en el array de almacenamiento, nuestro enfoque se centra en limpiar selectivamente solo los discos que lo requieren, reduciendo así el tiempo total necesario para completar el proceso.

\ • ¿Cuándo limpiar? Podemos optimizar el programa de limpieza de la unidad de disco considerando factores como la carga de trabajo del sistema, la importancia de los datos en la unidad y la disponibilidad de recursos. Este enfoque asegura que la limpieza se realice en los momentos más apropiados, minimizando el impacto en el rendimiento general del sistema.

\

3. Trabajos relacionados

La fiabilidad de los dispositivos de almacenamiento ha sido durante mucho tiempo una preocupación crítica en la industria, y las soluciones existentes a menudo se basan en el análisis de fallos de los sistemas de almacenamiento. Sin embargo, los métodos tradicionales como las pruebas de vida acelerada (Cho et al., 2015) no han demostrado ser indicadores fiables de las tasas de fallo reales en entornos de producción. Los enfoques recientes basados en aprendizaje automático, como series temporales multivariantes (Yu, 2019) y clasificación de series temporales (Ircio et al., 2022), se han centrado en mejorar la precisión del modelo, pero a menudo carecen de una integración profunda del conocimiento del dominio. Además, el enfoque multimodal de (Lu et al., 2020) que utiliza métricas de rendimiento (a nivel de disco y servidor) y la ubicación espacial del disco solo se centra en escenarios de fallo-parada, lo que puede no ser útil para detectar fallos latentes. Un estudio más reciente (Lu et al., 2023) ha abordado este problema investigando fallos grises (unidades de fallo lento) utilizando un modelo de regresión para identificar y analizar fallos lentos a nivel de unidades individuales.

\ Otro factor importante de la limpieza de discos es el costo de implementación y el consumo de energía. (Mi et al., 2008) y (Jiang et al., 2019) abordan la degradación del rendimiento debido a la limpieza y proponen asignar una prioridad más baja al proceso en segundo plano durante el tiempo de inactividad, es decir, cuando la unidad de disco no está activamente involucrada en el procesamiento de datos o realizando otras tareas. (Liu et al., 2010) y (Oprea y Juels, 2010) proponen un método para mitigar el consumo de energía y determinar cuándo limpiar en sistemas con datos económicos, pero requieren diseñar otro método para identificar datos menos críticos. La gestión del espacio de la unidad en caso de reemplazo del disco fallido se discute en (Pˆaris et al., 2010), junto con la reducción de la necesidad de limpieza frecuente. Se propone una limpieza multinivel en (Zhang et al., 2020) utilizando un modelo de Memoria a Corto y Largo Plazo (LSTM) para detectar errores de sector latentes en una configuración de clasificación binaria. Sin embargo, el uso de modelos basados en aprendizaje automático puede tratar los discos saludables y relativamente menos saludables de la misma manera, lo que lleva a una limpieza innecesaria de discos saludables.

\ Según nuestro conocimiento, nuestro trabajo es el primero en adoptar la predicción conformal de Mondrian para asignar una puntuación de salud a cada unidad de disco individual y utilizar las métricas para diseñar un ciclo de limpieza alineado con el tiempo de inactividad del sistema.

\

:::info Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 Deed (Atribución-NoComercial-SinDerivadas 4.0 Internacional).

:::


:::info Autores:

(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (rahuldeo.vishwakarma01@student.csullb.edu);

(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (jinha.hwang01@student.csulb.edu);

(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Université de Technologie de Compiègne, 57 avenue de Landshut, 60203 Compiègne Cedex - Francia (soundouss.messoudi@hds.utc.fr);

(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, Estados Unidos (ava.hedayatipour@csulb.edu).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate con service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.
Compartir perspectivas

También te puede interesar