Hi Minchan,

[auto build [also build [cannot apply to next-20170803]
[if your patch
url: # save make ARCH=x86_64

All warnings
mm/debug.c: >> mm/debug.c:102: >> mm/debug.c:102: mm/debug.c:102:
vim +102 mm/debug.c

82742a3a5 Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 7a82ca0d6 Andrew Morton 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin dc6c9a35b Kirill A. Shutemov 31c9afa6d Sasha Levin 846383359 Konstantin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin b8eceeb99 Vlastimil Babka 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin dc6c9a35b Kirill A. Shutemov 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 846383359 Konstantin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin fd2fc6e1f Nadav Amit b8eceeb99 Vlastimil Babka 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin 31c9afa6d Sasha Levin
:::::: The code :::::: 7a82ca0d643726
:::::: TO: Andrew :::::: CC: Linus
---
0-DAY kernel test infrastructure https://github.com/0day-ci/linux/commits/Nadav-Amit/mm-migrate-prevent-racy-access-to-tlb_flush_pending/20170802-205715
nfig-a0-08032207 (attached as .config)
(Debian 4.4.7-8) 4.4.7
the attached .config to linux build tree
(new ones prefixed by >>):
In function 'dump_mm':
warning: format '%#lx' expects type 'long unsigned int', but argument 40 has type 'int'
warning: format '%p' expects type 'void *', but argument 41 has type 'long unsigned int'
warning: too many arguments for format
2014-10-09 99
2014-10-09 100 void dump_mm(const struct mm_struct *mm)
2014-10-09 101 {
2014-10-09 @102 pr_emerg("mm %p mmap %p seqnum %d task_size %lu\n"
2014-10-09 103 #ifdef CONFIG_MMU
2014-10-09 104 "get_unmapped_area %p\n"
2014-10-09 105 #endif
2014-10-09 106 "mmap_base %lu mmap_legacy_base %lu highest_vm_end %lu\n"
2015-02-11 107 "pgd %p mm_users %d mm_count %d nr_ptes %lu nr_pmds %lu map_count %d\n"
2014-10-09 108 "hiwater_rss %lx hiwater_vm %lx total_vm %lx locked_vm %lx\n"
Khlebnikov 2016-01-14 109 "pinned_vm %lx data_vm %lx exec_vm %lx stack_vm %lx\n"
2014-10-09 110 "start_code %lx end_code %lx start_data %lx end_data %lx\n"
2014-10-09 111 "start_brk %lx brk %lx start_stack %lx\n"
2014-10-09 112 "arg_start %lx arg_end %lx env_start %lx env_end %lx\n"
2014-10-09 113 "binfmt %p flags %lx core_state %p\n"
2014-10-09 114 #ifdef CONFIG_AIO
2014-10-09 115 "ioctx_table %p\n"
2014-10-09 116 #endif
2014-10-09 117 #ifdef CONFIG_MEMCG
2014-10-09 118 "owner %p "
2014-10-09 119 #endif
2014-10-09 120 "exe_file %p\n"
2014-10-09 121 #ifdef CONFIG_MMU_NOTIFIER
2014-10-09 122 "mmu_notifier_mm %p\n"
2014-10-09 123 #endif
2014-10-09 124 #ifdef CONFIG_NUMA_BALANCING
2014-10-09 125 "numa_next_scan %lu numa_scan_offset %lu numa_scan_seq %d\n"
2014-10-09 126 #endif
2014-10-09 127 #if defined(CONFIG_NUMA_BALANCING) || defined(CONFIG_COMPACTION)
2014-10-09 128 "tlb_flush_pending %d\n"
2014-10-09 129 #endif
2016-03-15 130 "def_flags: %#lx(%pGv)\n",
2014-10-09 131
2014-10-09 132 mm, mm->mmap, mm->vmacache_seqnum, mm->task_size,
2014-10-09 133 #ifdef CONFIG_MMU
2014-10-09 134 mm->get_unmapped_area,
2014-10-09 135 #endif
2014-10-09 136 mm->mmap_base, mm->mmap_legacy_base, mm->highest_vm_end,
2014-10-09 137 mm->pgd, atomic_read(&mm->mm_users),
2014-10-09 138 atomic_read(&mm->mm_count),
2014-10-09 139 atomic_long_read((atomic_long_t *)&mm->nr_ptes),
2015-02-11 140 mm_nr_pmds((struct mm_struct *)mm),
2014-10-09 141 mm->map_count,
2014-10-09 142 mm->hiwater_rss, mm->hiwater_vm, mm->total_vm, mm->locked_vm,
Khlebnikov 2016-01-14 143 mm->pinned_vm, mm->data_vm, mm->exec_vm, mm->stack_vm,
2014-10-09 144 mm->start_code, mm->end_code, mm->start_data, mm->end_data,
2014-10-09 145 mm->start_brk, mm->brk, mm->start_stack,
2014-10-09 146 mm->arg_start, mm->arg_end, mm->env_start, mm->env_end,
2014-10-09 147 mm->binfmt, mm->flags, mm->core_state,
2014-10-09 148 #ifdef CONFIG_AIO
2014-10-09 149 mm->ioctx_table,
2014-10-09 150 #endif
2014-10-09 151 #ifdef CONFIG_MEMCG
2014-10-09 152 mm->owner,
2014-10-09 153 #endif
2014-10-09 154 mm->exe_file,
2014-10-09 155 #ifdef CONFIG_MMU_NOTIFIER
2014-10-09 156 mm->mmu_notifier_mm,
2014-10-09 157 #endif
2014-10-09 158 #ifdef CONFIG_NUMA_BALANCING
2014-10-09 159 mm->numa_next_scan, mm->numa_scan_offset, mm->numa_scan_seq,
2014-10-09 160 #endif
2017-08-01 161 atomic_read(&mm->tlb_flush_pending),
2016-03-15 162 mm->def_flags, &mm->def_flags
2014-10-09 163 );
2014-10-09 164 }
2014-10-09 165
at line 102 was first introduced by commit
1d0727ce472ae4f3a05a9ce5f7 mm/debug.c: use pr_emerg()
Morton <[email protected]>
Torvalds <[email protected]>
Open Source Technology Center
ts.01.org/pipermail/kbuild-all">https://lists.01.org/pipermail/kbuild-all Intel Corporation

Attachments:

(No filename) (6.45 kB)
.config.gz (22.26 kB)
Download all attachments

2017-08-08 01:20:38

Hi Peter,

On Fri, Aug 11, 2017 at 03:30:20PM +0200, Peter Zijlstra wrote:
> On Tue, Aug 01, 2017 at 05:08:17PM -0700, Nadav Amit wrote:
> > void tlb_finish_mmu(struct mmu_gather *tlb,
> > unsigned long start, unsigned long end)
> > {
> > - arch_tlb_finish_mmu(tlb, start, end);
> > + /*
> > + * If there are parallel threads are doing PTE changes on same range
> > + * under non-exclusive lock(e.g., mmap_sem read-side) but defer TLB
> > + * flush by batching, a thread has stable TLB entry can fail to flush
> > + * the TLB by observing pte_none|!pte_dirty, for example so flush TLB
> > + * forcefully if we detect parallel PTE batching threads.
> > + */
> > + bool force = mm_tlb_flush_nested(tlb->mm);
> > +
> > + arch_tlb_finish_mmu(tlb, start, end, force);
> > }
>
> I don't understand the comment nor the ordering. What guarantees we see
> the increment if we need to?

How about this about commenting part?

>From 05f06fd6aba14447a9ca2df8b810fbcf9a58e14b Mon Sep 17 00:00:00 2001
From: Minchan Kim <[email protected]>
Date: Mon, 14 Aug 2017 10:16:56 +0900
Subject: [PATCH] mm: add describable comment for TLB batch race

[1] is a rather subtle/complicated bug so that it's hard to
understand it with limited code comment.

This patch adds a sequence diagaram to explain the problem
more easily, I hope.

[1] 99baac21e458, mm: fix MADV_[FREE|DONTNEED] TLB flush miss problem

Cc: Peter Zijlstra <[email protected]>
Cc: Nadav Amit <[email protected]>
Cc: Mel Gorman <[email protected]>
Signed-off-by: Minchan Kim <[email protected]>
---
mm/memory.c | 25 +++++++++++++++++++++++++
1 file changed, 25 insertions(+)

diff --git a/mm/memory.c b/mm/memory.c
index bcbe56f52163..f571b0eb9816 100644
--- a/mm/memory.c
+++ b/mm/memory.c
@@ -413,12 +413,37 @@ void tlb_gather_mmu(struct mmu_gather *tlb, struct mm_struct *mm,
void tlb_finish_mmu(struct mmu_gather *tlb,
unsigned long start, unsigned long end)
{
+
+
/*
* If there are parallel threads are doing PTE changes on same range
* under non-exclusive lock(e.g., mmap_sem read-side) but defer TLB
* flush by batching, a thread has stable TLB entry can fail to flush
* the TLB by observing pte_none|!pte_dirty, for example so flush TLB
* forcefully if we detect parallel PTE batching threads.
+ *
+ * Example: MADV_DONTNEED stale TLB problem on same range
+ *
+ * CPU 0 CPU 1
+ * *a = 1;
+ * MADV_DONTNEED
+ * MADV_DONTNEED tlb_gather_mmu
+ * tlb_gather_mmu
+ * down_read(mmap_sem) down_read(mmap_sem)
+ * pte_lock
+ * pte_get_and_clear
+ * tlb_remove_tlb_entry
+ * pte_unlock
+ * pte_lock
+ * found out the pte is none
+ * pte_unlock
+ * tlb_finish_mmu doesn't flush
+ *
+ * Access the address with stale TLB
+ * *a = 2;ie, success without segfault
+ * tlb_finish_mmu flush on range
+ * but it is too late.
+ *
*/
bool force = mm_tlb_flush_nested(tlb->mm);

--
2.7.4