LinuxLists.cc - [BUG] wireless : cpu stuck for 61s

2008-07-29 05:56:26

Subject: [BUG] wireless : cpu stuck for 61s

While set my wlan0 to ad-hoc mode and then set the essid to something,
this bug triggered.

I suspect it's related to debugfs or mutex? But I'm not sure.

Jul 29 13:01:46 darkstar kernel: [ 8033.736493] BUG: soft lockup - CPU#0 stuck for 61s! [events/0:9]
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] Modules linked in: radeonfb fb_ddc i2c_algo_bit snd_seq_dummy snd_seq_oss snd_seq_midi_event snd_seq snd_seq_device snd_pcm_oss snd_mixer_oss rfcomm l2cap bluetooth vfat fuse rtc_cmos rtc_core psmouse intel_agp pl2303 rtc_lib ath5k e100 i2c_i801 serio_raw usbserial agpgart 3c59x mii snd_hda_intel snd_pcm mac80211 snd_timer snd_page_alloc cfg80211 snd_hwdep snd soundcore thermal processor button thermal_sys evdev sg
Jul 29 13:01:46 darkstar kernel: [ 8033.736493]
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] Pid: 9, comm: events/0 Tainted: G W (2.6.26-smp #3)
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] EIP: 0060:[<c0450bc3>] EFLAGS: 00000246 CPU: 0
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] EIP is at mutex_lock_nested+0x1b3/0x280
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] EAX: 00000000 EBX: f7bf5284 ECX: f7c7e000 EDX: f7bf52a8
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] ESI: f7bf5288 EDI: 00000246 EBP: f7c7fedc ESP: f7c7fe9c
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] DS: 007b ES: 007b FS: 00d8 GS: 0000 SS: 0068
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] CR0: 8005003b CR2: b800c5ac CR3: 36e71000 CR4: 000006d0
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] DR6: ffff0ff0 DR7: 00000400
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c02375a6>] ? debugfs_create_file+0x46/0x210
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c02375a6>] ? debugfs_create_file+0x46/0x210
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c02375a6>] debugfs_create_file+0x46/0x210
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c02377f1>] debugfs_create_dir+0x21/0x30
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<f8901f6d>] ieee80211_sta_debugfs_add+0x2d/0x150 [mac80211]
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<f88eba89>] sta_info_debugfs_add_work+0x89/0x130 [mac80211]
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<f890a170>] ? rate_control_pid_add_sta_debugfs+0x0/0x30 [mac80211]
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c01394c6>] run_workqueue+0x156/0x1d0
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c0139472>] ? run_workqueue+0x102/0x1d0
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<f88eba00>] ? sta_info_debugfs_add_work+0x0/0x130 [mac80211]
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c0139f18>] worker_thread+0x88/0xe0
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c013cd20>] ? autoremove_wake_function+0x0/0x40
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c0139e90>] ? worker_thread+0x0/0xe0
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c013ca32>] kthread+0x42/0x70
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c013c9f0>] ? kthread+0x0/0x70
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c0104993>] kernel_thread_helper+0x7/0x14
Jul 29 13:01:46 darkstar kernel: [ 8033.736493] =======================
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] BUG: soft lockup - CPU#0 stuck for 61s! [events/0:9]
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] Modules linked in: radeonfb fb_ddc i2c_algo_bit snd_seq_dummy snd_seq_oss snd_seq_midi_event snd_seq snd_seq_device snd_pcm_oss snd_mixer_oss rfcomm l2cap bluetooth vfat fuse rtc_cmos rtc_core psmouse intel_agp pl2303 rtc_lib ath5k e100 i2c_i801 serio_raw usbserial agpgart 3c59x mii snd_hda_intel snd_pcm mac80211 snd_timer snd_page_alloc cfg80211 snd_hwdep snd soundcore thermal processor button thermal_sys evdev sg
Jul 29 13:02:51 darkstar kernel: [ 8099.234898]
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] Pid: 9, comm: events/0 Tainted: G W (2.6.26-smp #3)
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] EIP: 0060:[<c0450bc3>] EFLAGS: 00000246 CPU: 0
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] EIP is at mutex_lock_nested+0x1b3/0x280
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] EAX: 00000000 EBX: f7bf5284 ECX: f7c7e000 EDX: f7bf52a8
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] ESI: f7bf5288 EDI: 00000246 EBP: f7c7fedc ESP: f7c7fe9c
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] DS: 007b ES: 007b FS: 00d8 GS: 0000 SS: 0068
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] CR0: 8005003b CR2: b800c5ac CR3: 36e71000 CR4: 000006d0
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] DR6: ffff0ff0 DR7: 00000400
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c02375a6>] ? debugfs_create_file+0x46/0x210
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c02375a6>] ? debugfs_create_file+0x46/0x210
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c02375a6>] debugfs_create_file+0x46/0x210
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c02377f1>] debugfs_create_dir+0x21/0x30
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<f8901f6d>] ieee80211_sta_debugfs_add+0x2d/0x150 [mac80211]
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<f88eba89>] sta_info_debugfs_add_work+0x89/0x130 [mac80211]
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<f890a170>] ? rate_control_pid_add_sta_debugfs+0x0/0x30 [mac80211]
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c01394c6>] run_workqueue+0x156/0x1d0
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c0139472>] ? run_workqueue+0x102/0x1d0
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<f88eba00>] ? sta_info_debugfs_add_work+0x0/0x130 [mac80211]
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c0139f18>] worker_thread+0x88/0xe0
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c013cd20>] ? autoremove_wake_function+0x0/0x40
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c0139e90>] ? worker_thread+0x0/0xe0
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c013ca32>] kthread+0x42/0x70
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c013c9f0>] ? kthread+0x0/0x70
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] [<c0104993>] kernel_thread_helper+0x7/0x14
Jul 29 13:02:51 darkstar kernel: [ 8099.234898] =======================

2008-07-31 02:06:35

On Wed, Jul 30, 2008 at 5:08 PM, Andrew Morton
<[email protected]> wrote:
> On Tue, 29 Jul 2008 14:32:04 +0200 Johannes Berg <[email protected]> wrote:
>
>> On Tue, 2008-07-29 at 13:57 +0800, Dave Young wrote:
>> > While set my wlan0 to ad-hoc mode and then set the essid to something,
>> > this bug triggered.
>> >
>> > I suspect it's related to debugfs or mutex? But I'm not sure.
>> >
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] BUG: soft lockup - CPU#0 stuck for 61s! [events/0:9]
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493]
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] Pid: 9, comm: events/0 Tainted: G W (2.6.26-smp #3)
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] EIP: 0060:[<c0450bc3>] EFLAGS: 00000246 CPU: 0
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] EIP is at mutex_lock_nested+0x1b3/0x280
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] EAX: 00000000 EBX: f7bf5284 ECX: f7c7e000 EDX: f7bf52a8
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] ESI: f7bf5288 EDI: 00000246 EBP: f7c7fedc ESP: f7c7fe9c
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] DS: 007b ES: 007b FS: 00d8 GS: 0000 SS: 0068
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] CR0: 8005003b CR2: b800c5ac CR3: 36e71000 CR4: 000006d0
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] DR6: ffff0ff0 DR7: 00000400
>> > Jul 29 13:01:46 darkstar kernel: [ 8033.736493] [<c02375a6>] ? debugfs_create_file+0x46/0x210
>>
>> It looks like it's getting stuck on
>> mutex_lock(&parent->d_inode->i_mutex);
>>
>> inside debugfs_create_by_name, but I have no idea why that would happen.
>>
>
> Dave, please try sysrq-W or sysrq-T during that 60 seconds, see if we
> can find another task which is holding onto that lock.
>
>

Andrew, the keyboard doesn't response after the bug triggered.

So I just keep sysrq-W / sysrq-T every several seconds after I set the
wlan0 interface.
Attached please see the long log file.

--
Regards
dave

Attachments:

(No filename) (2.05 kB)
syslog.txt (530.48 kB)
Download all attachments

2008-07-31 09:15:32

by Pekka Enberg

[permalink] [raw]

Subject: Re: [BUG] wireless : cpu stuck for 61s

Hi Andrew,

On Wed, 30 Jul 2008, Andrew Morton wrote:
> > Ok here it is.
> > BTW, I run "klogd -c 7" after boot
>
> The sysrq output is still missing lots of stuff. I guess we broke it.
>
> >
> > This time I get a kmalloc poison overwritten:
> >
>
> argh, that stuff hurts my brain. None of the numbers seem to make any
> sense for a 4k allocation :( Pekka, do you have time to decrypt this?

Sure. Here goes:

On Wed, 30 Jul 2008, Andrew Morton wrote:
> <fixes wordwrapping, cleans stuff up>
>
> =============================================================================
> BUG kmalloc-4096: Poison overwritten
> -----------------------------------------------------------------------------
>
> INFO: 0xf6f3a080-0xf6f3a0ef. First byte 0x80 instead of 0x6b

That's POISON_FREE ("0x6b") overwritten which means use-after-free for
the range of 0xf6f3a080 - 0xf6f3a0ef (112 bytes). The rest of the
object is okay but the SLUB debugging code only dumps the first 128 bytes
of the object which is why we don't see the full corruption.

2.6.27-rc1 should dump the full object so I'm assuming this is pre -rc1?

> INFO: Allocated in dev_alloc_skb+0x1c/0x30 age=3642 cpu=0 pid=0
> INFO: Freed in skb_release_data+0x57/0x80 age=3146 cpu=0 pid=2398

So the corrupted object was free'd by skb_release_data() so we need to
look for a driver or the networking stack calling that function too early.

> INFO: Slab 0xc1c05440 objects=7 used=3 fp=0xf6f3a060 flags=0x400020c3
> INFO: Object 0xf6f3a060 @offset=8288 fp=0xf6f39030
>
> Bytes b4 0xf6f3a050: 5e 09 00 00 57 c9 05 00 5a 5a 5a 5a 5a 5a 5a 5a ^...W?..ZZZZZZZZ

The object starts here (the poison values for first 32 bytes are okay):

> Object 0xf6f3a060: 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b kkkkkkkkkkkkkkkk
> Object 0xf6f3a070: 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b kkkkkkkkkkkkkkkk

And here are the first 96 bytes of the corruption:

> Object 0xf6f3a080: 80 00 00 00 ff ff ff ff ff ff 00 17 7b 00 46 40 ....??????..{.F@
> Object 0xf6f3a090: 00 17 7b 00 46 40 30 09 81 21 08 7a 21 00 00 00 ..{.F@0..!.z!...
> Object 0xf6f3a0a0: 64 00 21 04 00 07 00 00 00 00 00 00 00 01 08 82 d.!.............
> Object 0xf6f3a0b0: 84 8b 0c 12 96 18 24 03 01 01 05 04 00 02 00 00 ......$.........
> Object 0xf6f3a0c0: 07 06 43 4e 20 01 0d 14 2a 01 00 32 04 30 48 60 ..CN....*..2.0H`
> Object 0xf6f3a0d0: 6c dd 18 00 17 7b 01 04 00 00 00 01 00 00 00 10 l?...{..........

But I think that's just the payload of a SKB?

> Redzone 0xf6f3b060: bb bb bb bb ????

The red-zone has SLUB_RED_INACTIVE ("0xbb") which reinforces
use-after-free.

> Padding 0xf6f3b088: 5a 5a 5a 5a 5a 5a 5a 5a ZZZZZZZZ
> Pid: 0, comm: swapper Tainted: G W 2.6.26-smp #2
> [<c0180f5d>] print_trailer+0xad/0xf0
> [<c018103b>] check_bytes_and_report+0x9b/0xc0
> [<c018145e>] check_object+0x19e/0x1e0
> [<c01821a4>] __slab_alloc+0x454/0x4f0
> [<c01834d6>] __kmalloc_track_caller+0xe6/0xf0
> [<c03dd1ec>] ? dev_alloc_skb+0x1c/0x30
> [<c03dd1ec>] ? dev_alloc_skb+0x1c/0x30
> [<c03dce79>] __alloc_skb+0x49/0x100
> [<c03dd1ec>] dev_alloc_skb+0x1c/0x30
> [<f8a58599>] ath5k_rxbuf_setup+0x39/0x200 [ath5k]
> [<f8a5a697>] ath5k_tasklet_rx+0x127/0x5c0 [ath5k]
> [<c014969a>] ? print_lock_contention_bug+0x1a/0xe0
> [<c012eafc>] tasklet_action+0x4c/0xc0
> [<c012e463>] __do_softirq+0x93/0x120
> [<c012e547>] do_softirq+0x57/0x60
> [<c012ea29>] irq_exit+0x69/0x80
> [<c0106b55>] do_IRQ+0x45/0x80
> [<c010a5d0>] ? mwait_idle+0x0/0x50
> [<c0104752>] common_interrupt+0x2e/0x34
> [<c010a5d0>] ? mwait_idle+0x0/0x50
> [<c010a609>] ? mwait_idle+0x39/0x50
> [<c01026e0>] cpu_idle+0x60/0xd0
> [<c043c8ce>] rest_init+0x4e/0x60
> =======================
> FIX kmalloc-4096: Restoring 0xf6f3a080-0xf6f3a0ef=0x6b
>
> FIX kmalloc-4096: Marking all objects used
> [<c0243b4f>] ? security_file_permission+0xf/0x20
> [<c019436f>] sys_select+0x3f/0x190
> [<c01878e9>] ? fput+0x19/0x20
> [<c0103dbf>] ? restore_nocheck+0x12/0x15
> [<c014b06d>] ? trace_hardirqs_on+0xbd/0x140
> [<c0103d5e>] syscall_call+0x7/0xb
> =======================
>
> Dave, could you please remind us which net driver was in use here?

There's ath5k in the stack trace but that, of course, doesn't
automatically mean it's at fault here. It could have been just the poor
bastard who was the next to allocate 4 KB with kmalloc() noticing the
corruption.

Hope this helps!

Pekka

2008-07-31 03:01:07

by Dave Young

[permalink] [raw]

Subject: Re: [BUG] wireless : cpu stuck for 61s

T24gVGh1LCBKdWwgMzEsIDIwMDggYXQgMTA6NTYgQU0sIEFuZHJldyBNb3J0b24KPGFrcG1AbGlu
dXgtZm91bmRhdGlvbi5vcmc+IHdyb3RlOgo+IE9uIFRodSwgMzEgSnVsIDIwMDggMTA6MDY6MzEg
KzA4MDAgIkRhdmUgWW91bmciIDxoaWRhdmUuZGFya3N0YXJAZ21haWwuY29tPiB3cm90ZToKPgo+
Pgo+PiBPayBoZXJlIGl0IGlzLgo+PiBCVFcsIEkgcnVuICJrbG9nZCAtYyA3IiBhZnRlciBib290
Cj4KPiBUaGUgc3lzcnEgb3V0cHV0IGlzIHN0aWxsIG1pc3NpbmcgbG90cyBvZiBzdHVmZi4gIEkg
Z3Vlc3Mgd2UgYnJva2UgaXQuCj4KPj4KPj4gVGhpcyB0aW1lIEkgZ2V0IGEga21hbGxvYyBwb2lz
b24gb3ZlcndyaXR0ZW46Cj4+Cj4KPiA8Zml4ZXMgd29yZHdyYXBwaW5nLCBjbGVhbnMgc3R1ZmYg
dXA+CgpUaGFua3MsIHNvcnJ5IGZvciB0aGF0IGNhdXNlZCBieSB3ZWJtYWlsLgoKPgo+ID09PT09
PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09PT09
PT09PT09PT09PT09PT09Cj4gQlVHIGttYWxsb2MtNDA5NjogUG9pc29uIG92ZXJ3cml0dGVuCj4g
LS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0t
LS0tLS0tLS0tLS0tLS0tLS0tLS0KPgo+IElORk86IDB4ZjZmM2EwODAtMHhmNmYzYTBlZi4gRmly
c3QgYnl0ZSAweDgwIGluc3RlYWQgb2YgMHg2Ygo+IElORk86IEFsbG9jYXRlZCBpbiBkZXZfYWxs
b2Nfc2tiKzB4MWMvMHgzMCBhZ2U9MzY0MiBjcHU9MCBwaWQ9MAo+IElORk86IEZyZWVkIGluIHNr
Yl9yZWxlYXNlX2RhdGErMHg1Ny8weDgwIGFnZT0zMTQ2IGNwdT0wIHBpZD0yMzk4Cj4gSU5GTzog
U2xhYiAweGMxYzA1NDQwIG9iamVjdHM9NyB1c2VkPTMgZnA9MHhmNmYzYTA2MCBmbGFncz0weDQw
MDAyMGMzCj4gSU5GTzogT2JqZWN0IDB4ZjZmM2EwNjAgQG9mZnNldD04Mjg4IGZwPTB4ZjZmMzkw
MzAKPgo+IEJ5dGVzIGI0IDB4ZjZmM2EwNTA6ICA1ZSAwOSAwMCAwMCA1NyBjOSAwNSAwMCA1YSA1
YSA1YSA1YSA1YSA1YSA1YSA1YSBeLi4uV8OJLi5aWlpaWlpaWgo+IE9iamVjdCAweGY2ZjNhMDYw
OiAgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIga2tra2tr
a2tra2tra2trawo+IE9iamVjdCAweGY2ZjNhMDcwOiAgNmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIg
NmIgNmIgNmIgNmIgNmIgNmIgNmIgNmIga2tra2tra2tra2tra2trawo+IE9iamVjdCAweGY2ZjNh
MDgwOiAgODAgMDAgMDAgMDAgZmYgZmYgZmYgZmYgZmYgZmYgMDAgMTcgN2IgMDAgNDYgNDAgLi4u
LsO/w7/Dv8O/w7/Dvy4uey5GQAo+IE9iamVjdCAweGY2ZjNhMDkwOiAgMDAgMTcgN2IgMDAgNDYg
NDAgMzAgMDkgODEgMjEgMDggN2EgMjEgMDAgMDAgMDAgLi57LkZAMC4uIS56IS4uLgo+IE9iamVj
dCAweGY2ZjNhMGEwOiAgNjQgMDAgMjEgMDQgMDAgMDcgMDAgMDAgMDAgMDAgMDAgMDAgMDAgMDEg
MDggODIgZC4hLi4uLi4uLi4uLi4uLgo+IE9iamVjdCAweGY2ZjNhMGIwOiAgODQgOGIgMGMgMTIg
OTYgMTggMjQgMDMgMDEgMDEgMDUgMDQgMDAgMDIgMDAgMDAgLi4uLi4uJC4uLi4uLi4uLgo+IE9i
amVjdCAweGY2ZjNhMGMwOiAgMDcgMDYgNDMgNGUgMjAgMDEgMGQgMTQgMmEgMDEgMDAgMzIgMDQg
MzAgNDggNjAgLi5DTi4uLi4qLi4yLjBIYAo+IE9iamVjdCAweGY2ZjNhMGQwOiAgNmMgZGQgMTgg
MDAgMTcgN2IgMDEgMDQgMDAgMDAgMDAgMDEgMDAgMDAgMDAgMTAgbMOdLi4uey4uLi4uLi4uLi4K
PiBSZWR6b25lIDB4ZjZmM2IwNjA6ICBiYiBiYiBiYiBiYiAgICAgICAgICAgICAgICAgICAgICAg
ICAgICAgICAgICAgICDCu8K7wrvCuwo+IFBhZGRpbmcgMHhmNmYzYjA4ODogIDVhIDVhIDVhIDVh
IDVhIDVhIDVhIDVhICAgICAgICAgICAgICAgICAgICAgICAgIFpaWlpaWlpaCj4gUGlkOiAwLCBj
b21tOiBzd2FwcGVyIFRhaW50ZWQ6IEcgICAgICAgIFcgMi42LjI2LXNtcCAjMgo+IFs8YzAxODBm
NWQ+XSBwcmludF90cmFpbGVyKzB4YWQvMHhmMAo+IFs8YzAxODEwM2I+XSBjaGVja19ieXRlc19h
bmRfcmVwb3J0KzB4OWIvMHhjMAo+IFs8YzAxODE0NWU+XSBjaGVja19vYmplY3QrMHgxOWUvMHgx
ZTAKPiBbPGMwMTgyMWE0Pl0gX19zbGFiX2FsbG9jKzB4NDU0LzB4NGYwCj4gWzxjMDE4MzRkNj5d
IF9fa21hbGxvY190cmFja19jYWxsZXIrMHhlNi8weGYwCj4gWzxjMDNkZDFlYz5dID8gZGV2X2Fs
bG9jX3NrYisweDFjLzB4MzAKPiBbPGMwM2RkMWVjPl0gPyBkZXZfYWxsb2Nfc2tiKzB4MWMvMHgz
MAo+IFs8YzAzZGNlNzk+XSBfX2FsbG9jX3NrYisweDQ5LzB4MTAwCj4gWzxjMDNkZDFlYz5dIGRl
dl9hbGxvY19za2IrMHgxYy8weDMwCj4gWzxmOGE1ODU5OT5dIGF0aDVrX3J4YnVmX3NldHVwKzB4
MzkvMHgyMDAgW2F0aDVrXQo+IFs8ZjhhNWE2OTc+XSBhdGg1a190YXNrbGV0X3J4KzB4MTI3LzB4
NWMwIFthdGg1a10KPiBbPGMwMTQ5NjlhPl0gPyBwcmludF9sb2NrX2NvbnRlbnRpb25fYnVnKzB4
MWEvMHhlMAo+IFs8YzAxMmVhZmM+XSB0YXNrbGV0X2FjdGlvbisweDRjLzB4YzAKPiBbPGMwMTJl
NDYzPl0gX19kb19zb2Z0aXJxKzB4OTMvMHgxMjAKPiBbPGMwMTJlNTQ3Pl0gZG9fc29mdGlycSsw
eDU3LzB4NjAKPiBbPGMwMTJlYTI5Pl0gaXJxX2V4aXQrMHg2OS8weDgwCj4gWzxjMDEwNmI1NT5d
IGRvX0lSUSsweDQ1LzB4ODAKPiBbPGMwMTBhNWQwPl0gPyBtd2FpdF9pZGxlKzB4MC8weDUwCj4g
WzxjMDEwNDc1Mj5dIGNvbW1vbl9pbnRlcnJ1cHQrMHgyZS8weDM0Cj4gWzxjMDEwYTVkMD5dID8g
bXdhaXRfaWRsZSsweDAvMHg1MAo+IFs8YzAxMGE2MDk+XSA/IG13YWl0X2lkbGUrMHgzOS8weDUw
Cj4gWzxjMDEwMjZlMD5dIGNwdV9pZGxlKzB4NjAvMHhkMAo+IFs8YzA0M2M4Y2U+XSByZXN0X2lu
aXQrMHg0ZS8weDYwCj4gPT09PT09PT09PT09PT09PT09PT09PT0KPiBGSVgga21hbGxvYy00MDk2
OiBSZXN0b3JpbmcgMHhmNmYzYTA4MC0weGY2ZjNhMGVmPTB4NmIKPgo+IEZJWCBrbWFsbG9jLTQw
OTY6IE1hcmtpbmcgYWxsIG9iamVjdHMgdXNlZAo+IFs8YzAyNDNiNGY+XSA/IHNlY3VyaXR5X2Zp
bGVfcGVybWlzc2lvbisweGYvMHgyMAo+IFs8YzAxOTQzNmY+XSBzeXNfc2VsZWN0KzB4M2YvMHgx
OTAKPiBbPGMwMTg3OGU5Pl0gPyBmcHV0KzB4MTkvMHgyMAo+IFs8YzAxMDNkYmY+XSA/IHJlc3Rv
cmVfbm9jaGVjaysweDEyLzB4MTUKPiBbPGMwMTRiMDZkPl0gPyB0cmFjZV9oYXJkaXJxc19vbisw
eGJkLzB4MTQwCj4gWzxjMDEwM2Q1ZT5dIHN5c2NhbGxfY2FsbCsweDcvMHhiCj4gPT09PT09PT09
PT09PT09PT09PT09PT0KPgo+IGFyZ2gsIHRoYXQgc3R1ZmYgaHVydHMgbXkgYnJhaW4uICBOb25l
IG9mIHRoZSBudW1iZXJzIHNlZW0gdG8gbWFrZSBhbnkKPiBzZW5zZSBmb3IgYSA0ayBhbGxvY2F0
aW9uIDooIFBla2thLCBkbyB5b3UgaGF2ZSB0aW1lIHRvIGRlY3J5cHQgdGhpcz8KPgo+IERhdmUs
IGNvdWxkIHlvdSBwbGVhc2UgcmVtaW5kIHVzIHdoaWNoIG5ldCBkcml2ZXIgd2FzIGluIHVzZSBo
ZXJlPwo+Cj4KCkl0J3MgdGhlIGF0aDVrCgotLSAKUmVnYXJkcwpkYXZlCg==

2008-07-29 12:32:07

On Tue, Aug 05, 2008 at 09:29:26AM +0800, Dave Young wrote:
> With the patch I cann't reproduce the bug with 27-rc1 now.
>
> > [<c02375a6>] ? debugfs_create_file+0x46/0x210
> > [<c02375a6>] ? debugfs_create_file+0x46/0x210
> > [<c02375a6>] debugfs_create_file+0x46/0x210
> > [<c02377f1>] debugfs_create_dir+0x21/0x30
> > [<f8901f6d>] ieee80211_sta_debugfs_add+0x2d/0x150 [mac80211]
> > [<f88eba89>] sta_info_debugfs_add_work+0x89/0x130 [mac80211]
> > [<f890a170>] ? rate_control_pid_add_sta_debugfs+0x0/0x30 [mac80211]

I wonder if there were two separate problems here. I looked into
this with some detail yesterday and agree with Johannes that the above
trace is on locking the parent directory's i_mutex, but I too couldn't
see any problems with sta_info_debugfs_add_work. Other stuff could also
modify the directory with or without rtnl_lock, but not in a way that
to my untrained eyes would lead to deadlock.

Or is the trace just wrong?

--
Bob Copeland %% http://www.bobcopeland.com