LIBRISTO
LIBROAMANTO
obrigatório
Faça parte de uma comunidade de amantes de livros de todo o mundo e tenha acesso a uma série de benefícios. Crie uma conta gratuitamente
0
Correio DHL 7.99 Correio DPD 4.49 Correio MRW 3.99 Ponto DPD 3.99

HPC Observability

Production Monitoring, Profiling, and Site Reliability for Linux Clusters, GPUs, and Parallel Storage at Scale

Língua InglêsInglês
Livro Capa mole
Livro HPC Observability M. Edwards
Código Libristo: 52747456
Editoras Independently published, maio 2026
HPC Observability is a hands-on guide for the engineers and administrators who keep high-performance... Descrição completa
? points 44 b Novo Novo
18.02
Reabastecimento esperado Lançamento 02. 06. 2026

Política de devolução de 30 dias

HPC Observability is a hands-on guide for the engineers and administrators who keep high-performance computing systems running reliably at scale. It brings together the operational knowledge scattered across vendor documentation, conference papers, and forum threads into a practical framework for turning HPC telemetry into actionable insight.

Modern HPC environments - Slurm clusters, GPU-dense AI systems, Lustre and GPFS storage, InfiniBand and Slingshot fabrics - generate more data than any team can manually interpret. The result is wasted node-hours, failed simulations, hidden storage bottlenecks, fabric congestion, and GPU failures that surface only after days of runtime.

This book provides a complete operational approach to HPC observability through a five-layer model covering hardware, operating systems, schedulers, applications, storage, and networks. Readers learn how to build metrics pipelines for clusters from hundreds to tens of thousands of nodes; monitor GPUs with DCGM; profile MPI and OpenMP applications with PAPI and Score-P; diagnose storage and network slowdowns; create useful dashboards and alerts; and run effective incident response and post-mortems.

Drawing on peer-reviewed research and real production experience, the book includes original diagrams, practical workflows, reference material, Prometheus alert examples, and a step-by-step lab environment for learning on a laptop.

Written in the voice of a senior HPC engineer rather than an academic text, HPC Observability assumes readers already understand the fundamentals and focuses instead on the operational realities of running large-scale Linux, AI, and research-computing infrastructure.

Atriz & Poliglota
EWA KASP para
Reproduzir vídeo
Ewa Kasp
A Libristo tem a maior seleção de literatura estrangeira. É por isso que compro os meus livros aqui.

Sobre o livro

Nome completo HPC Observability
Autor M. Edwards
Língua Inglês
Encadernação Livro - Capa mole
Data de emissão 2026
Número de páginas 164
EAN 9798198765443
Código Libristo 52747456
Peso 397
Dimensões 216 x 280 x 9
Ofereça este livro hoje
É fácil
1 Adicione ao carrinho e escolha Entregar como presente ao finalizar a compra 2 Receberá um vale 3 O livro chegará ao endereço do destinatário

Iniciar sessão

Inicie sessão na sua conta. Não tem uma conta Libristo? Crie uma agora!

 
obrigatório
obrigatório

Não tem uma conta? Descubra os benefícios de ter uma conta Libristo!

Com uma conta Libristo, terá tudo sob controlo.

Crie uma conta Libristo
Conselheiro de livros Libroamiko
Olá, sou o Libroamiko, posso ajudar?