Discovery: Problemas de rendimiento. El descubrimiento o interfaz grafica estan lentos (Performance issues)

Version 9
    Share This:

    This document contains official content from the BMC Software Knowledge Base. It is automatically updated when the knowledge article is modified.


    PRODUCT:

    BMC Discovery


    COMPONENT:

    BMC Discovery 11.3


    APPLIES TO:

    BMC Discovery



    PROBLEM:

     

    ¿Cules son los elementos que el eqipo de soporte de BMC necesita para investigar problemas de rendimiento en BMC Discovery?  Tener en cuenta que si solo la interfaz de usuario es lenta, pero el rendimiento de Discovery (es decir, escaneos, sincronización CMDB, etc.) es aceptable es preferible referirse a el articulo 000141956. Si el rendimiento de Discovery es lento, o si tanto Discovery como la interfaz grafica son lentos, use la información presentada a continuación. (For the English version of this article please see 000096875) 

     


    CAUSE:

    Pueden haber multiples causas para este problema


    SOLUTION:

    Los problemas de rendimiento pueden ser difíciles de diagnosticar y solucionar. Para encontrar la causa raíz, es necesario recopilar mucha información lo cual lleva tiempo pero acelera la resolución de problemas de rendimiento.

    Primeros elementos para considerar antes de investigar un problema de rendimiento:

    *  ¿Qué operaciones son demasiado lentas (respuesta interfaz grafica, escaneos, sincronización CMDB, etc.)?
           *  Si se trata de un escan en especifico se recomienda  proporcionar una captura de pantalla de la pgina de Discovery Run.
            * Si se trata de una función de interfaz grafica, como una consulta o un informe es necesario especificar de cual se trata.
    * ¿Cunto tiempo se espera que tome?
    * ¿Cunto tiempo lleva ahora? Si parece estar colgado / atascado, ¿cómo se determinó esto?
    * ¿Fue ms rpido en el pasado? ¿Cunto tiempo tardó entonces?

    Lista corta de elementos para recopilar. Esta lista es un buen comienzo para una investigación bsica de problemas de rendimiento:

    1) Generar y adjuntar en un documento de Word las siguientes capturas de pantalla: 

    * Ir A Administration->Performance y en la pestaña de "Patterns" reordenar dos veces por "Total Execution Time" para obtener los patrones de mayor duración en la parte superior.
    * Ir a Explore-> Data y obtener una captura de pantalla.
    * Ir a Administration->Model Maintenance y obtener una captura de pantalla.
    * Ir a Administration->Discovery Configuration y obtener las capturas de pantalla de las variables que no estn establecidas como valores predeterminados (linea azul).
    * Ir a Administration->Appliance Configuration, navegar hasta el final de la pagina y obtener una captura de pantalla de la lista de recursos.
    * Ir a Administration->Cluster Management y obtener una captura de pantalla.

    2) Enviar información de configuración para cada miembro del clúster:
    # CPU's
    # RAM
    # Swap

    3) Obtener los logs de "Performance" desde la pgina Administration>Appliance support.

    4) Ejecutar el siguiente comando desde la línea de comandos para identificar los archivos ms grandes en la base de datos:
    (El comando se puede ejecutar en cada miembro de un cluster pero hacer esto en el coordinador suele ser suficiente información):

    ls -laSh /usr/tideway/var/tideway.db/data/datadir | head

    NOTA: Si los archivos ms grandes en la base de datos exceden la cantidad de RAM total en el miembro, esto podría estar causando un problema de rendimiento. (Ver el articulo 000145230)

    5) Enviar los resultados obtenidos a el equipo de Soporte de BMC Discovery.

    Lista de elementos adicionales a proporcionar para una investigación ms completa

    NOTA: Se recomienda recolectar todo esto al mismo tiempo. Si esta información no se recopila mientras el problema est ocurriendo, es importante informarle a Soporte cuando se observó el problema.

    1) Ir a Administration>Appliance Support y seleccionar la pestaña "Usage Data Collection" la cual contiene la configuración del clúster / hardware y el volumen de datos. Hacer clic izquierdo en un rea en blanco del campo "Submission Data" (pero no en los cuadros que contienen valores) utilizar CTRL + A para seleccionar todo y  Luego CTRL + C para poder copiar y pegar el contenido en un bloc de notas. Guarde esto como un archivo de texto y envíelo a Soporte.

    2) Envíar una captura de pantalla de la pgina Discovery>Scheduled runs. Esto ayuda a evaluar la actividad de escaneo. Tener en cuenta que esto solo se aplica a un dispositivo de escaneo. Para un consolidador se requiere proporcionar una captura de pantalla de la pgina Discovery > Currently Processing Runs y especificar con qué frecuencia se ejecutan los scans (una vez al día, 24x7, etc.)

    3) Obtener capturas de pantalla de la pgina Administration> Model Maintenance (tanto la pestaña General como la de DDD Removal blackout windows) las cuales contienen parmetros importantes que afectan el tamaño de la base de datos y el uso de memoria.

    4)  Si el problema se observa en un scan en especifico, entonces se requiere ir a la pgina de Discovery Run para ese scan y abrir los reportes de "Discovery Access Finishing Rate" y "End point timings" y obtener una captura de pantalla de la salidas. Estos reportes pueden mostrar si algunas IP problemticas estn extendiendo la longitud del escaneo.

    5) Ejecutar la siguiente consulta (query) para recopilar ms información sobre los nodos de Discovery Access en el dispositivo y envíar el resultado:
         
          SEARCH DiscoveryAccess SHOW end_state PROCESS WITH countUnique(0)

    NOTA: Un número muy grande (es decir, 500K +) de nodos DiscoveryAccess generalmente causan problemas de rendimiento.

    6) Desde la pagina de Administration> Performance hacer lo siguiente

    - Ir a la pestaña de "Engines" mientras se ejecuta un escaneo (o ha finalizado recientemente) y obtener una captura de pantalla de esta pgina.
    - Ir a la pestaña de "Hardware" y obtener una captura de pantalla de las graficas de "Daily Disk Usage Statistics" y "Daily SAR Statistics".
    - Ir a la pestaña de "Datastore" y obtener una captura de pantalla de "Datastore Cache Performance".
    - Ir a la pestaña de "DDD Removal" y obtener una captura de pantalla de "Discovery Access Removal Statistics".
    - Ir a la pagina de la pgina de Administration>Search Management (mientras se ejecuta una consulta o exploración) y obtener una captura de pantalla. Esta pantalla nos permitiria identificar consultas que no pueden finalizar (si es que las hubiera).

    7) Desde la pagina de Administration -> Appliance Support obtener un archivo de logs de la siguiente forma:

     -Seleccionar "Create" y nombrar el archivo
    - En la opción "Logs By Date" seleccionar los logs de User Interface, User Interface errors, Cluster Manager, Discovery, Performance, Model, Reasoning y Others .
    - Seleccionar el intervalo de fechas para cuando ocurre el problema y al menos un día antes.
    - En "Miscellaneous" marcar las casillas de SAR logs y system messages.
    - Ir al final de la pagina y hacer click en "Create".
    - Descargar el archivo y adjuntarlo al caso.

    Otros elementos para recopilar (desde la línea de comando):

    Envíar las versiones de TKU / EDP / SKU instaladas en el dispositivo. Se puede recopilar esta información desde la línea de comandos de la siguiente manera:
    - Abrir una sesión ssh en el dispositivo e iniciar sesión con el usuario "tideway"
    - Ejecutar el comando a continuación el cual solicitar la contraseña del usuario "system".

    tw_pattern_management --list-uploads

    - Copiar y pegar la salida en un archivo de texto o correo electrónico (no captura de pantalla, por favor).Para ms detalles ver KA 000137700.

    Notas sobre los logs solicitados anteriormente:

    Se Puede buscar en el log de system messages (/ var / log / messages *) el valor "oom-killer". Si se detectan invocaciones de oom-killer quiere decir que el dispositivo se quedó sin memoria y se eliminó un proceso (generalmente el modelo).

    Los logs de "performance"  muestran la memoria y la CPU utilizadas por cada proceso. Estos registros contienen la salida de "top –c" que se ejecuta cada diez minutos. Por ejemplo:

    top - 21:30:34 up 794 days, 18:22,  1 user,  load average: 0.00, 0.00, 0.00
    Tasks: 123 total,   1 running, 122 sleeping,   0 stopped,   0 zombie
    Cpu(s):  1.8%us,  0.6%sy,  0.0%ni, 97.5%id,  0.1%wa,  0.0%hi,  0.0%si,  0.0%st
    Mem:   3926060k total,  3788924k used,   137136k free,   211740k buffers
    Swap:  8388600k total,  6076632k used,  2311968k free,  1949916k cached
     
    1: Se pueden revisar las líneas "Mem" y "Swap" para asegurase de que la memoria virtual no esté agotada.

    2: El valor % wa muestra cunto tiempo espera la CPU en I/O. Si est en 20 +%, eso puede ser demasiado alto. Si el I/O es lento y se est utilizando mucho SWAP, el rendimiento ser bajo. Las soluciones para lo anterior serian las siguientes: Agregar ms RAM para que se use menos SWAP y/o Hacer el I/O ms rpido. (Un disco SSD podria mejorar el rendimiento).
    NOTA: Se puede verificar el rendimiento de I/O ejecutando la utilidad "iozone". Consultar https://docs.bmc.com/docs/display/DISCO111/Disk+IO+Performance+Guidelines.

    3: Verificar el "load average" y asegurarse de que el primer valor sea menor que el número de núcleos. En un sistema multinúcleo, el primer valor de "load average" no debe exceder o ser igual al número de núcleos disponibles.
    Por ejemplo, 1.00 es 100% de utilización de CPU en la caja de un solo núcleo. En una caja de doble núcleo, una carga de 2.00 es 100% de utilización de la CPU.

    Se pueden encontar causas raíz típicas de problemas de rendimiento en el siguiente documento: https://docs.bmc.com/docs/display/DISCO111/Factors+affecting+performance

    Otras causas raiz comunes:

    * Una cantidad insuficiente de RAM, lo que hace que el sistema operativo utilice SWAP fuertemente. Para confirmar, consultar el articulo 000145230. El dispositivo generalmente usa la mayor parte de la RAM, pero eso no significa necesariamente que el dispositivo requiera de SWAP.

    * Alta espera de I/O de la CPU: si est constantemente por encima del 20%, el rendimiento se est degradando. El articulo 000145230 puede ayudar en este caso.

    * Dispositivos de I/O lentos. Se ha encontrado que las SSD (unidades de estado sólido) tienen un rendimiento mucho ms rpido que las unidades de disco duro (HDD) tradicionales. Específicamente, algunos han observado grandes mejorias con el sistema de almacenamiento PureStorage Flash Array.

    * Una alta densidad de servidores grandes. Por ejemplo, si tienen muchos servidores grandes de Weblogic que ejecutan ms de 100 procesos de Weblogic, esto activar el patrón de Weblogic ms de 100 veces por servidor. Como resultado, el proceso del modelo puede consumir ms memoria, causando un intercambio intensivo.

    * En algunos casos, el escaneo / consolidación est tratando de llevarse a cabo al mismo tiempo en que la consola de Discovery est tratando de realizar tareas domésticas internas (principalmente, determinar qué DDD se puede quitar y tratar de eliminarlos). El resultado de tal conflicto es típicamente que ni el escaneo ni la limpieza tienen avance. Puede que sea posible poder reducir este conflicto creando DDD removal blackout windows para segregar estas actividades.

    * Se puede obtener un rendimiento de escaneo deficiente si hay muchos / grandes archivos de reasoning transaction files. Para verificar esto, desde la línea de comandos, ejecute estos comandos y envíe los archivos de salida:

    ls -la / usr / tideway / var / persist / razonamiento / engine / queue> /usr/tideway/reasoning_persist.out
    ls -la / usr / tideway / var / persist / consolidation> /usr/tideway/consolidation_persist.out

    * Configuración inconsistente de CPU / memoria / almacenamiento de los miembros de un clúster. En este caso, el clúster es tan lento como el miembro ms lento.

    * La configuración de timeouts de las credenciales pueden tener un valor demasiado alto. La solución sería volver a colocarlos en la configuración de tiempo de espera predeterminada.

    Para problemas de desempeño de consolidación ver el articulo 000171499



     


    Article Number:

    000355255


    Article Type:

    Solutions to a Product Problem



      Looking for additional information?    Search BMC Support  or  Browse Knowledge Articles