LinuxLists.cc - [PATCH 0/3] Add trace event for ghes memory error

2013-08-08 18:29:43

Subject: [PATCH 0/3] Add trace event for ghes memory error

This patch series adds a new trace event for memory errors reported via APEI
generic hardware error source.

- Naveen

Naveen N. Rao (3):
mce: acpi/apei: trace: Include PCIe AER trace event conditionally
mce: acpi/apei: trace: Add trace event for ghes memory error
mce: acpi/apei: trace: Enable ghes memory error trace event

drivers/acpi/apei/cper.c | 21 +++--
drivers/pci/pcie/aer/aerdrv_errprint.c | 1 +
include/trace/events/ras.h | 159 ++++++++++++++++++++++++++++++++-
3 files changed, 175 insertions(+), 6 deletions(-)

--
1.8.3.4

2013-08-08 18:29:55

by Naveen N. Rao

[permalink] [raw]

Subject: [PATCH 1/3] mce: acpi/apei: trace: Include PCIe AER trace event conditionally

Since we'll be adding multiple trace events to ras.h, we need to protect
each block appropriately so that they only get included in the right
places. Update PCIe AER trace event for this purpose.

Signed-off-by: Naveen N. Rao <[email protected]>
---
drivers/pci/pcie/aer/aerdrv_errprint.c | 1 +
include/trace/events/ras.h | 2 +-
2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/drivers/pci/pcie/aer/aerdrv_errprint.c b/drivers/pci/pcie/aer/aerdrv_errprint.c
index 2c7c9f5..4d06859 100644
--- a/drivers/pci/pcie/aer/aerdrv_errprint.c
+++ b/drivers/pci/pcie/aer/aerdrv_errprint.c
@@ -24,6 +24,7 @@
#include "aerdrv.h"

#define CREATE_TRACE_POINTS
+#define TRACE_EVENT_PCIE_AER
#include <trace/events/ras.h>

#define AER_AGENT_RECEIVER 0
diff --git a/include/trace/events/ras.h b/include/trace/events/ras.h
index 88b8783..4a66142 100644
--- a/include/trace/events/ras.h
+++ b/include/trace/events/ras.h
@@ -1,7 +1,7 @@
#undef TRACE_SYSTEM
#define TRACE_SYSTEM ras

-#if !defined(_TRACE_AER_H) || defined(TRACE_HEADER_MULTI_READ)
+#if (!defined(_TRACE_AER_H) || defined(TRACE_HEADER_MULTI_READ)) && defined(TRACE_EVENT_PCIE_AER)
#define _TRACE_AER_H

#include <linux/tracepoint.h>
--
1.8.3.4

2013-08-08 18:30:15

by Naveen N. Rao

[permalink] [raw]

Subject: [PATCH 2/3] mce: acpi/apei: trace: Add trace event for ghes memory error

Add a trace event for memory error event from generic hardware error
source. We expose all members from the generic error status block, the
generic error data and the cper memory error record.

Signed-off-by: Naveen N. Rao <[email protected]>
---
include/trace/events/ras.h | 157 +++++++++++++++++++++++++++++++++++++++++++++
1 file changed, 157 insertions(+)

diff --git a/include/trace/events/ras.h b/include/trace/events/ras.h
index 4a66142..1d8d404 100644
--- a/include/trace/events/ras.h
+++ b/include/trace/events/ras.h
@@ -73,5 +73,162 @@ TRACE_EVENT(aer_event,

#endif /* _TRACE_AER_H */

+#if (!defined(_TRACE_GHES_H) || defined(TRACE_HEADER_MULTI_READ)) && defined(TRACE_EVENT_GHES)
+#define _TRACE_GHES_H
+
+#include <linux/tracepoint.h>
+
+/* Values for generic error status block_status */
+#define estatus_block_status_strs \
+ {BIT(0), "uncorrected error"}, \
+ {BIT(1), "corrected error"}, \
+ {BIT(2), "multiple uncorrected errors"}, \
+ {BIT(3), "multiple corrected errors"}
+
+/* Values for error_severity */
+#define error_severity_strs \
+ {BIT(0), "recoverable"}, \
+ {BIT(1), "fatal"}, \
+ {BIT(2), "corrected"}, \
+ {BIT(3), "info"}
+
+/* Values for generic error data flags */
+#define gdata_flags_strs \
+ {BIT(0), "primary"}, \
+ {BIT(1), "containment warning"}, \
+ {BIT(2), "reset"}, \
+ {BIT(3), "error threshold exceeded"}, \
+ {BIT(4), "resource not accessible"}, \
+ {BIT(5), "latent error"}
+
+/* Values for memory error validation bits */
+#define mem_validation_bits_strs \
+ {BIT(0), "ERROR_STATUS"}, \
+ {BIT(1), "PHYSICAL_ADDRESS"}, \
+ {BIT(2), "PHYSICAL_ADDRESS_MASK"}, \
+ {BIT(3), "NODE"}, \
+ {BIT(4), "CARD"}, \
+ {BIT(5), "MODULE"}, \
+ {BIT(6), "BANK"}, \
+ {BIT(7), "DEVICE"}, \
+ {BIT(8), "ROW"}, \
+ {BIT(9), "COLUMN"}, \
+ {BIT(10), "BIT_POSITION"}, \
+ {BIT(11), "REQUESTOR_ID"}, \
+ {BIT(12), "RESPONDER_ID"}, \
+ {BIT(13), "TARGET_ID"}, \
+ {BIT(14), "ERROR_TYPE"}
+
+/* Values for memory error type */
+#define __show_mem_error_type(type) \
+ __print_symbolic(type, \
+ {0, "unknown"}, \
+ {1, "no error"}, \
+ {2, "single-bit ECC"}, \
+ {3, "multi-bit ECC"}, \
+ {4, "single-symbol chipkill ECC"}, \
+ {5, "multi-symbol chipkill ECC"}, \
+ {6, "master abort"}, \
+ {7, "target abort"}, \
+ {8, "parity error"}, \
+ {9, "watchdog timeout"}, \
+ {10, "invalid address"}, \
+ {11, "mirror broken"}, \
+ {12, "memory sparing"}, \
+ {13, "scrub corrected error"}, \
+ {14, "scrub uncorrected error"})
+
+
+TRACE_EVENT(ghes_platform_memory_event,
+ TP_PROTO(const struct acpi_hest_generic_status *estatus,
+ const struct acpi_hest_generic_data *gdata,
+ const struct cper_sec_mem_err *mem),
+
+ TP_ARGS(estatus, gdata, mem),
+
+ TP_STRUCT__entry(
+ __field( u32, estatus_block_status )
+ __field( u32, estatus_raw_data_offset )
+ __field( u32, estatus_raw_data_length )
+ __field( u32, estatus_data_length )
+ __field( u32, estatus_error_severity )
+ __array( u8, gdata_section_type, 16 )
+ __field( u32, gdata_error_severity )
+ __field( u16, gdata_revision )
+ __field( u8, gdata_validation_bits )
+ __field( u8, gdata_flags )
+ __field( u32, gdata_error_data_length )
+ __array( u8, gdata_fru_id, 16 )
+ __array( u8, gdata_fru_text, 20 )
+ __field( u64, mem_validation_bits )
+ __field( u64, mem_error_status )
+ __field( u64, mem_physical_addr )
+ __field( u64, mem_physical_addr_mask )
+ __field( u16, mem_node )
+ __field( u16, mem_card )
+ __field( u16, mem_module )
+ __field( u16, mem_bank )
+ __field( u16, mem_device )
+ __field( u16, mem_row )
+ __field( u16, mem_column )
+ __field( u16, mem_bit_pos )
+ __field( u64, mem_requestor_id )
+ __field( u64, mem_responder_id )
+ __field( u64, mem_target_id )
+ __field( u8, mem_error_type )
+ ),
+
+ TP_fast_assign(
+ __entry->estatus_block_status = estatus->block_status;
+ __entry->estatus_raw_data_offset = estatus->raw_data_offset;
+ __entry->estatus_raw_data_length = estatus->raw_data_length;
+ __entry->estatus_data_length = estatus->data_length;
+ __entry->estatus_error_severity = estatus->error_severity;
+ memcpy(&__entry->gdata_section_type, &gdata->section_type, 16);
+ __entry->gdata_error_severity = gdata->error_severity;
+ __entry->gdata_revision = gdata->revision;
+ __entry->gdata_validation_bits = gdata->validation_bits;
+ __entry->gdata_flags = gdata->flags;
+ __entry->gdata_error_data_length = gdata->error_data_length;
+ memcpy(&__entry->gdata_fru_id, &gdata->fru_id, 16);
+ memcpy(&__entry->gdata_fru_text, &gdata->fru_text, 20);
+ __entry->mem_validation_bits = mem->validation_bits;
+ __entry->mem_error_status = mem->error_status;
+ __entry->mem_physical_addr = mem->physical_addr;
+ __entry->mem_physical_addr_mask = mem->physical_addr_mask;
+ __entry->mem_node = mem->node;
+ __entry->mem_card = mem->card;
+ __entry->mem_module = mem->module;
+ __entry->mem_bank = mem->bank;
+ __entry->mem_device = mem->device;
+ __entry->mem_row = mem->row;
+ __entry->mem_column = mem->column;
+ __entry->mem_bit_pos = mem->bit_pos;
+ __entry->mem_requestor_id = mem->requestor_id;
+ __entry->mem_responder_id = mem->responder_id;
+ __entry->mem_target_id = mem->target_id;
+ __entry->mem_error_type = mem->error_type;
+ ),
+
+ TP_printk("%s, event status: %s; generic data entry severity: %s, flags: %s, fru: %.20s, memory error section: validation bits: %s, error status: 0x%016llx, physical addr: 0x%016llx, physical addr mask: 0x%016llx, node: %d, card: %d, module: %d, bank: %d, device: %d, row: %d, column: %d, bit position: %d, requestor id: 0x%016llx, responder id: 0x%016llx, target id: 0x%016llx, error type: %s",
+ __print_flags(__entry->estatus_error_severity, "|", error_severity_strs),
+ __print_flags(__entry->estatus_block_status & 0x0f, "|", estatus_block_status_strs),
+ __print_flags(__entry->gdata_error_severity, "|", error_severity_strs),
+ __entry->gdata_flags ?
+ __print_flags(__entry->gdata_flags, "|", gdata_flags_strs) : "(null)",
+ (__entry->gdata_validation_bits & CPER_SEC_VALID_FRU_TEXT) ?
+ (char *)__entry->gdata_fru_text : "(null)",
+ __entry->mem_validation_bits ?
+ __print_flags(__entry->mem_validation_bits, "|", mem_validation_bits_strs) : "(null)",
+ __entry->mem_error_status, __entry->mem_physical_addr, __entry->mem_physical_addr_mask,
+ __entry->mem_node, __entry->mem_card, __entry->mem_module, __entry->mem_bank,
+ __entry->mem_device, __entry->mem_row, __entry->mem_column, __entry->mem_bit_pos,
+ __entry->mem_requestor_id, __entry->mem_responder_id, __entry->mem_target_id,
+ __show_mem_error_type(__entry->mem_error_type)
+ )
+);
+
+#endif /* _TRACE_GHES_H */
+
/* This part must be outside protection */
#include <trace/define_trace.h>
--
1.8.3.4

2013-08-08 18:30:23

by Naveen N. Rao

[permalink] [raw]

Subject: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Enable memory error trace event in cper.c

Signed-off-by: Naveen N. Rao <[email protected]>
---
drivers/acpi/apei/cper.c | 21 ++++++++++++++++-----
1 file changed, 16 insertions(+), 5 deletions(-)

diff --git a/drivers/acpi/apei/cper.c b/drivers/acpi/apei/cper.c
index 33dc6a0..19a9c0b 100644
--- a/drivers/acpi/apei/cper.c
+++ b/drivers/acpi/apei/cper.c
@@ -32,6 +32,10 @@
#include <linux/pci.h>
#include <linux/aer.h>

+#define CREATE_TRACE_POINTS
+#define TRACE_EVENT_GHES
+#include <trace/events/ras.h>
+
/*
* CPER record ID need to be unique even after reboot, because record
* ID is used as index for ERST storage, while CPER records from
@@ -193,8 +197,13 @@ static const char *cper_mem_err_type_strs[] = {
"scrub uncorrected error",
};

-static void cper_print_mem(const char *pfx, const struct cper_sec_mem_err *mem)
+static void cper_print_mem(const char *pfx,
+ const struct acpi_hest_generic_status *estatus,
+ const struct acpi_hest_generic_data *gdata,
+ const struct cper_sec_mem_err *mem)
{
+ trace_ghes_platform_memory_event(estatus, gdata, mem);
+
if (mem->validation_bits & CPER_MEM_VALID_ERROR_STATUS)
printk("%s""error_status: 0x%016llx\n", pfx, mem->error_status);
if (mem->validation_bits & CPER_MEM_VALID_PHYSICAL_ADDRESS)
@@ -292,8 +301,10 @@ static const char *apei_estatus_section_flag_strs[] = {
"latent error",
};

-static void apei_estatus_print_section(
- const char *pfx, const struct acpi_hest_generic_data *gdata, int sec_no)
+static void apei_estatus_print_section(const char *pfx,
+ const struct acpi_hest_generic_status *estatus,
+ const struct acpi_hest_generic_data *gdata,
+ int sec_no)
{
uuid_le *sec_type = (uuid_le *)gdata->section_type;
__u16 severity;
@@ -320,7 +331,7 @@ static void apei_estatus_print_section(
struct cper_sec_mem_err *mem_err = (void *)(gdata + 1);
printk("%s""section_type: memory error\n", pfx);
if (gdata->error_data_length >= sizeof(*mem_err))
- cper_print_mem(pfx, mem_err);
+ cper_print_mem(pfx, estatus, gdata, mem_err);
else
goto err_section_too_small;
} else if (!uuid_le_cmp(*sec_type, CPER_SEC_PCIE)) {
@@ -355,7 +366,7 @@ void apei_estatus_print(const char *pfx,
gdata = (struct acpi_hest_generic_data *)(estatus + 1);
while (data_len > sizeof(*gdata)) {
gedata_len = gdata->error_data_length;
- apei_estatus_print_section(pfx, gdata, sec_no);
+ apei_estatus_print_section(pfx, estatus, gdata, sec_no);
data_len -= gedata_len + sizeof(*gdata);
gdata = (void *)(gdata + 1) + gedata_len;
sec_no++;
--
1.8.3.4

2013-08-08 19:17:36

Subject: [PATCH 0/3] Add trace event for ghes memory error

Subject: [PATCH 1/3] mce: acpi/apei: trace: Include PCIe AER trace event conditionally

Subject: [PATCH 2/3] mce: acpi/apei: trace: Add trace event for ghes memory error

Subject: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 2/3] mce: acpi/apei: trace: Add trace event for ghes memory error

Subject: Re: [PATCH 1/3] mce: acpi/apei: trace: Include PCIe AER trace event conditionally

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 2/3] mce: acpi/apei: trace: Add trace event for ghes memory error

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 1/3] mce: acpi/apei: trace: Include PCIe AER trace event conditionally

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 1/3] mce: acpi/apei: trace: Include PCIe AER trace event conditionally

Subject: Re: [PATCH 1/3] mce: acpi/apei: trace: Include PCIe AER trace event conditionally

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: RE: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event

Subject: Re: [PATCH 3/3] mce: acpi/apei: trace: Enable ghes memory error trace event