LinuxLists.cc - [PATCH v2 0/7] convert most filesystems to pin_user_pages

2022-08-31 04:21:27

Subject: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

This is v2. Changes since v1 are:

* Incorporated feedback from Al Viro and Jan Kara: this approach now
pins both bvecs (ITER_BVEC) and user pages (user_backed_iter()) with
FOLL_PIN.

* Incorporated David Hildenbrand's feedback: Rewrote pin_user_pages()
documentation and added a WARN_ON_ONCE() to somewhat enforce the rule
that this new function is only intended for use on file-backed pages.

* Added a tiny new patch to fix up the release_pages() number of pages
argument, so as to avoid a lot of impedance-matching checks in
subsequent patches.

v1 is here:

https://lore.kernel.org/all/[email protected]/

Original cover letter still applies, here it is for convenience:

This converts the iomap core and bio_release_pages() to
pin_user_pages_fast(), also referred to as FOLL_PIN here.

The conversion is temporarily guarded by
CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO. In the future (not part of this
series), when we are certain that all filesystems have converted their
Direct IO paths to FOLL_PIN, then we can do the final step, which is to
get rid of CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO and search-and-replace
the dio_w_*() functions with their final names (see bvec.h changes).

I'd like to get this part committed at some point, because it seems to
work well already. And this will help get the remaining items, below,
converted.

Status: although many filesystems have been converted, some remain to be
investigated. These include (you can recreate this list by grepping for
iov_iter_get_pages):

cephfs
cifs
9P
RDS
net/core: datagram.c, skmsg.c
net/tls
fs/splice.c

Testing: this passes some light LTP and xfstest runs and fio and a few
other things like that, on my local x86_64 test machine, both with and
without CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO being set.

Conflicts: Logan, the iov_iter parts of this will conflict with your
[PATCH v9 2/8] iov_iter: introduce iov_iter_get_pages_[alloc_]flags(),
but I think it's easy to resolve.

John Hubbard (7):
mm: change release_pages() to use unsigned long for npages
mm/gup: introduce pin_user_page()
block: add dio_w_*() wrappers for pin, unpin user pages
iov_iter: new iov_iter_pin_pages*() routines
block, bio, fs: convert most filesystems to pin_user_pages_fast()
NFS: direct-io: convert to FOLL_PIN pages
fuse: convert direct IO paths to use FOLL_PIN

block/Kconfig | 24 +++++++++++++
block/bio.c | 27 +++++++-------
block/blk-map.c | 7 ++--
fs/direct-io.c | 40 ++++++++++-----------
fs/fuse/dev.c | 11 ++++--
fs/fuse/file.c | 32 +++++++++++------
fs/fuse/fuse_i.h | 1 +
fs/iomap/direct-io.c | 2 +-
fs/nfs/direct.c | 22 ++++++------
include/linux/bvec.h | 37 +++++++++++++++++++
include/linux/mm.h | 3 +-
include/linux/uio.h | 4 +++
lib/iov_iter.c | 86 ++++++++++++++++++++++++++++++++++++++++----
mm/gup.c | 50 ++++++++++++++++++++++++++
mm/swap.c | 6 ++--
15 files changed, 282 insertions(+), 70 deletions(-)

base-commit: dcf8e5633e2e69ad60b730ab5905608b756a032f
--
2.37.2

2022-08-31 04:21:34

by John Hubbard

[permalink] [raw]

Subject: [PATCH v2 6/7] NFS: direct-io: convert to FOLL_PIN pages

Convert the NFS Direct IO layer to use pin_user_pages_fast() and
unpin_user_page(), instead of get_user_pages_fast() and put_page().

The user of pin_user_pages_fast() depends upon:

1) CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO, and

2) User-space-backed pages: user_backed_iter(i) == true

Signed-off-by: John Hubbard <[email protected]>
---
fs/nfs/direct.c | 22 ++++++++++++----------
1 file changed, 12 insertions(+), 10 deletions(-)

diff --git a/fs/nfs/direct.c b/fs/nfs/direct.c
index 1707f46b1335..71b794f39ee2 100644
--- a/fs/nfs/direct.c
+++ b/fs/nfs/direct.c
@@ -142,11 +142,13 @@ int nfs_swap_rw(struct kiocb *iocb, struct iov_iter *iter)
return 0;
}

-static void nfs_direct_release_pages(struct page **pages, unsigned int npages)
+static void nfs_direct_release_pages(struct iov_iter *iter, struct page **pages,
+ unsigned int npages)
{
- unsigned int i;
- for (i = 0; i < npages; i++)
- put_page(pages[i]);
+ if (user_backed_iter(iter) || iov_iter_is_bvec(iter))
+ dio_w_unpin_user_pages(pages, npages);
+ else
+ release_pages(pages, npages);
}

void nfs_init_cinfo_from_dreq(struct nfs_commit_info *cinfo,
@@ -332,11 +334,11 @@ static ssize_t nfs_direct_read_schedule_iovec(struct nfs_direct_req *dreq,
size_t pgbase;
unsigned npages, i;

- result = iov_iter_get_pages_alloc2(iter, &pagevec,
+ result = dio_w_iov_iter_pin_pages_alloc(iter, &pagevec,
rsize, &pgbase);
if (result < 0)
break;
-
+
bytes = result;
npages = (result + pgbase + PAGE_SIZE - 1) / PAGE_SIZE;
for (i = 0; i < npages; i++) {
@@ -362,7 +364,7 @@ static ssize_t nfs_direct_read_schedule_iovec(struct nfs_direct_req *dreq,
pos += req_len;
dreq->bytes_left -= req_len;
}
- nfs_direct_release_pages(pagevec, npages);
+ nfs_direct_release_pages(iter, pagevec, npages);
kvfree(pagevec);
if (result < 0)
break;
@@ -791,8 +793,8 @@ static ssize_t nfs_direct_write_schedule_iovec(struct nfs_direct_req *dreq,
size_t pgbase;
unsigned npages, i;

- result = iov_iter_get_pages_alloc2(iter, &pagevec,
- wsize, &pgbase);
+ result = dio_w_iov_iter_pin_pages_alloc(iter, &pagevec,
+ wsize, &pgbase);
if (result < 0)
break;

@@ -829,7 +831,7 @@ static ssize_t nfs_direct_write_schedule_iovec(struct nfs_direct_req *dreq,
pos += req_len;
dreq->bytes_left -= req_len;
}
- nfs_direct_release_pages(pagevec, npages);
+ nfs_direct_release_pages(iter, pagevec, npages);
kvfree(pagevec);
if (result < 0)
break;
--
2.37.2

2022-08-31 04:21:40

by John Hubbard

[permalink] [raw]

Subject: [PATCH v2 7/7] fuse: convert direct IO paths to use FOLL_PIN

Convert the fuse filesystem to use pin_user_pages_fast() and
unpin_user_page(), instead of get_user_pages_fast() and put_page().

The user of pin_user_pages_fast() depends upon:

1) CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO, and

2) User-space-backed pages or ITER_BVEC pages.

Signed-off-by: John Hubbard <[email protected]>
---
fs/fuse/dev.c | 11 +++++++++--
fs/fuse/file.c | 32 +++++++++++++++++++++-----------
fs/fuse/fuse_i.h | 1 +
3 files changed, 31 insertions(+), 13 deletions(-)

diff --git a/fs/fuse/dev.c b/fs/fuse/dev.c
index 51897427a534..5de98a7a45b1 100644
--- a/fs/fuse/dev.c
+++ b/fs/fuse/dev.c
@@ -675,7 +675,12 @@ static void fuse_copy_finish(struct fuse_copy_state *cs)
flush_dcache_page(cs->pg);
set_page_dirty_lock(cs->pg);
}
- put_page(cs->pg);
+ if (!cs->pipebufs &&
+ (user_backed_iter(cs->iter) || iov_iter_is_bvec(cs->iter)))
+ dio_w_unpin_user_page(cs->pg);
+
+ else
+ put_page(cs->pg);
}
cs->pg = NULL;
}
@@ -730,7 +735,9 @@ static int fuse_copy_fill(struct fuse_copy_state *cs)
}
} else {
size_t off;
- err = iov_iter_get_pages2(cs->iter, &page, PAGE_SIZE, 1, &off);
+
+ err = dio_w_iov_iter_pin_pages(cs->iter, &page, PAGE_SIZE, 1,
+ &off);
if (err < 0)
return err;
BUG_ON(!err);
diff --git a/fs/fuse/file.c b/fs/fuse/file.c
index 1a3afd469e3a..01da38928d0b 100644
--- a/fs/fuse/file.c
+++ b/fs/fuse/file.c
@@ -625,14 +625,19 @@ void fuse_read_args_fill(struct fuse_io_args *ia, struct file *file, loff_t pos,
}

static void fuse_release_user_pages(struct fuse_args_pages *ap,
- bool should_dirty)
+ bool should_dirty, bool is_user_or_bvec)
{
unsigned int i;

- for (i = 0; i < ap->num_pages; i++) {
- if (should_dirty)
- set_page_dirty_lock(ap->pages[i]);
- put_page(ap->pages[i]);
+ if (is_user_or_bvec) {
+ dio_w_unpin_user_pages_dirty_lock(ap->pages, ap->num_pages,
+ should_dirty);
+ } else {
+ for (i = 0; i < ap->num_pages; i++) {
+ if (should_dirty)
+ set_page_dirty_lock(ap->pages[i]);
+ put_page(ap->pages[i]);
+ }
}
}

@@ -733,7 +738,7 @@ static void fuse_aio_complete_req(struct fuse_mount *fm, struct fuse_args *args,
struct fuse_io_priv *io = ia->io;
ssize_t pos = -1;

- fuse_release_user_pages(&ia->ap, io->should_dirty);
+ fuse_release_user_pages(&ia->ap, io->should_dirty, io->is_user_or_bvec);

if (err) {
/* Nothing */
@@ -1414,10 +1419,10 @@ static int fuse_get_user_pages(struct fuse_args_pages *ap, struct iov_iter *ii,
while (nbytes < *nbytesp && ap->num_pages < max_pages) {
unsigned npages;
size_t start;
- ret = iov_iter_get_pages2(ii, &ap->pages[ap->num_pages],
- *nbytesp - nbytes,
- max_pages - ap->num_pages,
- &start);
+ ret = dio_w_iov_iter_pin_pages(ii, &ap->pages[ap->num_pages],
+ *nbytesp - nbytes,
+ max_pages - ap->num_pages,
+ &start);
if (ret < 0)
break;

@@ -1483,6 +1488,10 @@ ssize_t fuse_direct_io(struct fuse_io_priv *io, struct iov_iter *iter,
fl_owner_t owner = current->files;
size_t nbytes = min(count, nmax);

+ /* For use in fuse_release_user_pages(): */
+ io->is_user_or_bvec = user_backed_iter(iter) ||
+ iov_iter_is_bvec(iter);
+
err = fuse_get_user_pages(&ia->ap, iter, &nbytes, write,
max_pages);
if (err && !nbytes)
@@ -1498,7 +1507,8 @@ ssize_t fuse_direct_io(struct fuse_io_priv *io, struct iov_iter *iter,
}

if (!io->async || nres < 0) {
- fuse_release_user_pages(&ia->ap, io->should_dirty);
+ fuse_release_user_pages(&ia->ap, io->should_dirty,
+ io->is_user_or_bvec);
fuse_io_free(ia);
}
ia = NULL;
diff --git a/fs/fuse/fuse_i.h b/fs/fuse/fuse_i.h
index 488b460e046f..6ee7f72e29eb 100644
--- a/fs/fuse/fuse_i.h
+++ b/fs/fuse/fuse_i.h
@@ -290,6 +290,7 @@ struct fuse_io_priv {
struct kiocb *iocb;
struct completion *done;
bool blocking;
+ bool is_user_or_bvec;
};

#define FUSE_IO_PRIV_SYNC(i) \
--
2.37.2

2022-08-31 04:21:48

by John Hubbard

[permalink] [raw]

Subject: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Provide two new wrapper routines that are intended for user space pages
only:

iov_iter_pin_pages()
iov_iter_pin_pages_alloc()

Internally, these routines call pin_user_pages_fast(), instead of
get_user_pages_fast(), for user_backed_iter(i) and iov_iter_bvec(i)
cases.

As always, callers must use unpin_user_pages() or a suitable FOLL_PIN
variant, to release the pages, if they actually were acquired via
pin_user_pages_fast().

This is a prerequisite to converting bio/block layers over to use
pin_user_pages_fast().

Signed-off-by: John Hubbard <[email protected]>
---
include/linux/uio.h | 4 +++
lib/iov_iter.c | 86 +++++++++++++++++++++++++++++++++++++++++----
2 files changed, 84 insertions(+), 6 deletions(-)

diff --git a/include/linux/uio.h b/include/linux/uio.h
index 5896af36199c..e26908e443d1 100644
--- a/include/linux/uio.h
+++ b/include/linux/uio.h
@@ -251,6 +251,10 @@ ssize_t iov_iter_get_pages2(struct iov_iter *i, struct page **pages,
size_t maxsize, unsigned maxpages, size_t *start);
ssize_t iov_iter_get_pages_alloc2(struct iov_iter *i, struct page ***pages,
size_t maxsize, size_t *start);
+ssize_t iov_iter_pin_pages(struct iov_iter *i, struct page **pages,
+ size_t maxsize, unsigned int maxpages, size_t *start);
+ssize_t iov_iter_pin_pages_alloc(struct iov_iter *i, struct page ***pages,
+ size_t maxsize, size_t *start);
int iov_iter_npages(const struct iov_iter *i, int maxpages);
void iov_iter_restore(struct iov_iter *i, struct iov_iter_state *state);

diff --git a/lib/iov_iter.c b/lib/iov_iter.c
index 4b7fce72e3e5..c63ce0eadfcb 100644
--- a/lib/iov_iter.c
+++ b/lib/iov_iter.c
@@ -1425,9 +1425,31 @@ static struct page *first_bvec_segment(const struct iov_iter *i,
return page;
}

+enum pages_alloc_internal_flags {
+ USE_FOLL_GET,
+ MAYBE_USE_FOLL_PIN
+};
+
+/*
+ * Pins pages, either via get_page(), or via pin_user_page*(). The caller is
+ * responsible for tracking which pinning mechanism was used here, and releasing
+ * pages via the appropriate call: put_page() or unpin_user_page().
+ *
+ * The way to figure that out is:
+ *
+ * a) If how_to_pin == FOLL_GET, then this routine will always pin via
+ * get_page().
+ *
+ * b) If how_to_pin == MAYBE_USE_FOLL_PIN, then this routine will pin via
+ * pin_user_page*() for either user_backed_iter(i) cases, or
+ * iov_iter_is_bvec(i) cases. However, for the other cases (pipe,
+ * xarray), pages will be pinned via get_page().
+ */
static ssize_t __iov_iter_get_pages_alloc(struct iov_iter *i,
struct page ***pages, size_t maxsize,
- unsigned int maxpages, size_t *start)
+ unsigned int maxpages, size_t *start,
+ enum pages_alloc_internal_flags how_to_pin)
+
{
unsigned int n;

@@ -1454,7 +1476,12 @@ static ssize_t __iov_iter_get_pages_alloc(struct iov_iter *i,
n = want_pages_array(pages, maxsize, *start, maxpages);
if (!n)
return -ENOMEM;
- res = get_user_pages_fast(addr, n, gup_flags, *pages);
+
+ if (how_to_pin == MAYBE_USE_FOLL_PIN)
+ res = pin_user_pages_fast(addr, n, gup_flags, *pages);
+ else
+ res = get_user_pages_fast(addr, n, gup_flags, *pages);
+
if (unlikely(res <= 0))
return res;
maxsize = min_t(size_t, maxsize, res * PAGE_SIZE - *start);
@@ -1470,8 +1497,13 @@ static ssize_t __iov_iter_get_pages_alloc(struct iov_iter *i,
if (!n)
return -ENOMEM;
p = *pages;
- for (int k = 0; k < n; k++)
- get_page(p[k] = page + k);
+ for (int k = 0; k < n; k++) {
+ p[k] = page + k;
+ if (how_to_pin == MAYBE_USE_FOLL_PIN)
+ pin_user_page(p[k]);
+ else
+ get_page(p[k]);
+ }
maxsize = min_t(size_t, maxsize, n * PAGE_SIZE - *start);
i->count -= maxsize;
i->iov_offset += maxsize;
@@ -1497,10 +1529,29 @@ ssize_t iov_iter_get_pages2(struct iov_iter *i,
return 0;
BUG_ON(!pages);

- return __iov_iter_get_pages_alloc(i, &pages, maxsize, maxpages, start);
+ return __iov_iter_get_pages_alloc(i, &pages, maxsize, maxpages, start,
+ USE_FOLL_GET);
}
EXPORT_SYMBOL(iov_iter_get_pages2);

+/*
+ * A FOLL_PIN variant that calls pin_user_pages_fast() instead of
+ * get_user_pages_fast().
+ */
+ssize_t iov_iter_pin_pages(struct iov_iter *i,
+ struct page **pages, size_t maxsize, unsigned int maxpages,
+ size_t *start)
+{
+ if (!maxpages)
+ return 0;
+ if (WARN_ON_ONCE(!pages))
+ return -EINVAL;
+
+ return __iov_iter_get_pages_alloc(i, &pages, maxsize, maxpages, start,
+ MAYBE_USE_FOLL_PIN);
+}
+EXPORT_SYMBOL(iov_iter_pin_pages);
+
ssize_t iov_iter_get_pages_alloc2(struct iov_iter *i,
struct page ***pages, size_t maxsize,
size_t *start)
@@ -1509,7 +1560,8 @@ ssize_t iov_iter_get_pages_alloc2(struct iov_iter *i,

*pages = NULL;

- len = __iov_iter_get_pages_alloc(i, pages, maxsize, ~0U, start);
+ len = __iov_iter_get_pages_alloc(i, pages, maxsize, ~0U, start,
+ USE_FOLL_GET);
if (len <= 0) {
kvfree(*pages);
*pages = NULL;
@@ -1518,6 +1570,28 @@ ssize_t iov_iter_get_pages_alloc2(struct iov_iter *i,
}
EXPORT_SYMBOL(iov_iter_get_pages_alloc2);

+/*
+ * A FOLL_PIN variant that calls pin_user_pages_fast() instead of
+ * get_user_pages_fast().
+ */
+ssize_t iov_iter_pin_pages_alloc(struct iov_iter *i,
+ struct page ***pages, size_t maxsize,
+ size_t *start)
+{
+ ssize_t len;
+
+ *pages = NULL;
+
+ len = __iov_iter_get_pages_alloc(i, pages, maxsize, ~0U, start,
+ MAYBE_USE_FOLL_PIN);
+ if (len <= 0) {
+ kvfree(*pages);
+ *pages = NULL;
+ }
+ return len;
+}
+EXPORT_SYMBOL(iov_iter_pin_pages_alloc);
+
size_t csum_and_copy_from_iter(void *addr, size_t bytes, __wsum *csum,
struct iov_iter *i)
{
--
2.37.2

2022-08-31 10:45:15

by Miklos Szeredi

[permalink] [raw]

Subject: Re: [PATCH v2 7/7] fuse: convert direct IO paths to use FOLL_PIN

On Wed, 31 Aug 2022 at 06:19, John Hubbard <[email protected]> wrote:
>
> Convert the fuse filesystem to use pin_user_pages_fast() and
> unpin_user_page(), instead of get_user_pages_fast() and put_page().
>
> The user of pin_user_pages_fast() depends upon:
>
> 1) CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO, and
>
> 2) User-space-backed pages or ITER_BVEC pages.
>
> Signed-off-by: John Hubbard <[email protected]>
> ---
> fs/fuse/dev.c | 11 +++++++++--
> fs/fuse/file.c | 32 +++++++++++++++++++++-----------
> fs/fuse/fuse_i.h | 1 +
> 3 files changed, 31 insertions(+), 13 deletions(-)
>
> diff --git a/fs/fuse/dev.c b/fs/fuse/dev.c
> index 51897427a534..5de98a7a45b1 100644
> --- a/fs/fuse/dev.c
> +++ b/fs/fuse/dev.c
> @@ -675,7 +675,12 @@ static void fuse_copy_finish(struct fuse_copy_state *cs)
> flush_dcache_page(cs->pg);
> set_page_dirty_lock(cs->pg);
> }
> - put_page(cs->pg);
> + if (!cs->pipebufs &&
> + (user_backed_iter(cs->iter) || iov_iter_is_bvec(cs->iter)))
> + dio_w_unpin_user_page(cs->pg);
> +
> + else
> + put_page(cs->pg);

Why not move the logic into a helper and pass a "bool pinned" argument?

> }
> cs->pg = NULL;
> }
> @@ -730,7 +735,9 @@ static int fuse_copy_fill(struct fuse_copy_state *cs)
> }
> } else {
> size_t off;
> - err = iov_iter_get_pages2(cs->iter, &page, PAGE_SIZE, 1, &off);
> +
> + err = dio_w_iov_iter_pin_pages(cs->iter, &page, PAGE_SIZE, 1,
> + &off);
> if (err < 0)
> return err;
> BUG_ON(!err);
> diff --git a/fs/fuse/file.c b/fs/fuse/file.c
> index 1a3afd469e3a..01da38928d0b 100644
> --- a/fs/fuse/file.c
> +++ b/fs/fuse/file.c
> @@ -625,14 +625,19 @@ void fuse_read_args_fill(struct fuse_io_args *ia, struct file *file, loff_t pos,
> }
>
> static void fuse_release_user_pages(struct fuse_args_pages *ap,
> - bool should_dirty)
> + bool should_dirty, bool is_user_or_bvec)
> {
> unsigned int i;
>
> - for (i = 0; i < ap->num_pages; i++) {
> - if (should_dirty)
> - set_page_dirty_lock(ap->pages[i]);
> - put_page(ap->pages[i]);
> + if (is_user_or_bvec) {
> + dio_w_unpin_user_pages_dirty_lock(ap->pages, ap->num_pages,
> + should_dirty);
> + } else {
> + for (i = 0; i < ap->num_pages; i++) {
> + if (should_dirty)
> + set_page_dirty_lock(ap->pages[i]);
> + put_page(ap->pages[i]);
> + }

Same here.

> }
> }
>
> @@ -733,7 +738,7 @@ static void fuse_aio_complete_req(struct fuse_mount *fm, struct fuse_args *args,
> struct fuse_io_priv *io = ia->io;
> ssize_t pos = -1;
>
> - fuse_release_user_pages(&ia->ap, io->should_dirty);
> + fuse_release_user_pages(&ia->ap, io->should_dirty, io->is_user_or_bvec);
>
> if (err) {
> /* Nothing */
> @@ -1414,10 +1419,10 @@ static int fuse_get_user_pages(struct fuse_args_pages *ap, struct iov_iter *ii,
> while (nbytes < *nbytesp && ap->num_pages < max_pages) {
> unsigned npages;
> size_t start;
> - ret = iov_iter_get_pages2(ii, &ap->pages[ap->num_pages],
> - *nbytesp - nbytes,
> - max_pages - ap->num_pages,
> - &start);
> + ret = dio_w_iov_iter_pin_pages(ii, &ap->pages[ap->num_pages],
> + *nbytesp - nbytes,
> + max_pages - ap->num_pages,
> + &start);
> if (ret < 0)
> break;
>
> @@ -1483,6 +1488,10 @@ ssize_t fuse_direct_io(struct fuse_io_priv *io, struct iov_iter *iter,
> fl_owner_t owner = current->files;
> size_t nbytes = min(count, nmax);
>
> + /* For use in fuse_release_user_pages(): */
> + io->is_user_or_bvec = user_backed_iter(iter) ||
> + iov_iter_is_bvec(iter);
> +

How about io->is_pinned? And a iov_iter_is_pinned() helper?

Thanks,
Miklos

2022-09-01 00:46:26

by Al Viro

[permalink] [raw]

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

On Tue, Aug 30, 2022 at 09:18:40PM -0700, John Hubbard wrote:
> Provide two new wrapper routines that are intended for user space pages
> only:
>
> iov_iter_pin_pages()
> iov_iter_pin_pages_alloc()
>
> Internally, these routines call pin_user_pages_fast(), instead of
> get_user_pages_fast(), for user_backed_iter(i) and iov_iter_bvec(i)
> cases.
>
> As always, callers must use unpin_user_pages() or a suitable FOLL_PIN
> variant, to release the pages, if they actually were acquired via
> pin_user_pages_fast().
>
> This is a prerequisite to converting bio/block layers over to use
> pin_user_pages_fast().

What of ITER_PIPE (splice from O_DIRECT fd to a to pipe, for filesystem
that uses generic_file_splice_read())?

2022-09-01 01:38:02

by John Hubbard

[permalink] [raw]

Subject: Re: [PATCH v2 7/7] fuse: convert direct IO paths to use FOLL_PIN

On 8/31/22 03:37, Miklos Szeredi wrote:

Hi Miklos,

Thanks for looking at this, I'll accept all of these suggestions.

> On Wed, 31 Aug 2022 at 06:19, John Hubbard <[email protected]> wrote:
>>
>> Convert the fuse filesystem to use pin_user_pages_fast() and
>> unpin_user_page(), instead of get_user_pages_fast() and put_page().
>>
>> The user of pin_user_pages_fast() depends upon:
>>
>> 1) CONFIG_BLK_USE_PIN_USER_PAGES_FOR_DIO, and
>>
>> 2) User-space-backed pages or ITER_BVEC pages.
>>
>> Signed-off-by: John Hubbard <[email protected]>
>> ---
>> fs/fuse/dev.c | 11 +++++++++--
>> fs/fuse/file.c | 32 +++++++++++++++++++++-----------
>> fs/fuse/fuse_i.h | 1 +
>> 3 files changed, 31 insertions(+), 13 deletions(-)
>>
>> diff --git a/fs/fuse/dev.c b/fs/fuse/dev.c
>> index 51897427a534..5de98a7a45b1 100644
>> --- a/fs/fuse/dev.c
>> +++ b/fs/fuse/dev.c
>> @@ -675,7 +675,12 @@ static void fuse_copy_finish(struct fuse_copy_state *cs)
>> flush_dcache_page(cs->pg);
>> set_page_dirty_lock(cs->pg);
>> }
>> - put_page(cs->pg);
>> + if (!cs->pipebufs &&
>> + (user_backed_iter(cs->iter) || iov_iter_is_bvec(cs->iter)))
>> + dio_w_unpin_user_page(cs->pg);
>> +
>> + else
>> + put_page(cs->pg);
>
> Why not move the logic into a helper and pass a "bool pinned" argument?

OK, will do.

It's not yet clear from the discussion in the other thread with Jan and Al [1],
if I'll end up keeping this check:

user_backed_iter(cs->iter) || iov_iter_is_bvec(cs->iter)

...but if it stays, then the helper is a good idea.

>
>> }
>> cs->pg = NULL;
>> }
>> @@ -730,7 +735,9 @@ static int fuse_copy_fill(struct fuse_copy_state *cs)
>> }
>> } else {
>> size_t off;
>> - err = iov_iter_get_pages2(cs->iter, &page, PAGE_SIZE, 1, &off);
>> +
>> + err = dio_w_iov_iter_pin_pages(cs->iter, &page, PAGE_SIZE, 1,
>> + &off);
>> if (err < 0)
>> return err;
>> BUG_ON(!err);
>> diff --git a/fs/fuse/file.c b/fs/fuse/file.c
>> index 1a3afd469e3a..01da38928d0b 100644
>> --- a/fs/fuse/file.c
>> +++ b/fs/fuse/file.c
>> @@ -625,14 +625,19 @@ void fuse_read_args_fill(struct fuse_io_args *ia, struct file *file, loff_t pos,
>> }
>>
>> static void fuse_release_user_pages(struct fuse_args_pages *ap,
>> - bool should_dirty)
>> + bool should_dirty, bool is_user_or_bvec)
>> {
>> unsigned int i;
>>
>> - for (i = 0; i < ap->num_pages; i++) {
>> - if (should_dirty)
>> - set_page_dirty_lock(ap->pages[i]);
>> - put_page(ap->pages[i]);
>> + if (is_user_or_bvec) {
>> + dio_w_unpin_user_pages_dirty_lock(ap->pages, ap->num_pages,
>> + should_dirty);
>> + } else {
>> + for (i = 0; i < ap->num_pages; i++) {
>> + if (should_dirty)
>> + set_page_dirty_lock(ap->pages[i]);
>> + put_page(ap->pages[i]);
>> + }
>
> Same here.

Yes. Definitely belongs in a helper function. I was thinking, "don't
go that far, because the code will eventually get deleted anyway", but
you are right. :)

>
>> }
>> }
>>
>> @@ -733,7 +738,7 @@ static void fuse_aio_complete_req(struct fuse_mount *fm, struct fuse_args *args,
>> struct fuse_io_priv *io = ia->io;
>> ssize_t pos = -1;
>>
>> - fuse_release_user_pages(&ia->ap, io->should_dirty);
>> + fuse_release_user_pages(&ia->ap, io->should_dirty, io->is_user_or_bvec);
>>
>> if (err) {
>> /* Nothing */
>> @@ -1414,10 +1419,10 @@ static int fuse_get_user_pages(struct fuse_args_pages *ap, struct iov_iter *ii,
>> while (nbytes < *nbytesp && ap->num_pages < max_pages) {
>> unsigned npages;
>> size_t start;
>> - ret = iov_iter_get_pages2(ii, &ap->pages[ap->num_pages],
>> - *nbytesp - nbytes,
>> - max_pages - ap->num_pages,
>> - &start);
>> + ret = dio_w_iov_iter_pin_pages(ii, &ap->pages[ap->num_pages],
>> + *nbytesp - nbytes,
>> + max_pages - ap->num_pages,
>> + &start);
>> if (ret < 0)
>> break;
>>
>> @@ -1483,6 +1488,10 @@ ssize_t fuse_direct_io(struct fuse_io_priv *io, struct iov_iter *iter,
>> fl_owner_t owner = current->files;
>> size_t nbytes = min(count, nmax);
>>
>> + /* For use in fuse_release_user_pages(): */
>> + io->is_user_or_bvec = user_backed_iter(iter) ||
>> + iov_iter_is_bvec(iter);
>> +
>
> How about io->is_pinned? And a iov_iter_is_pinned() helper?

Agreed, is_pinned is a better name, and the helper (if we end up needing
that logic) also sounds good.

[1] https://lore.kernel.org/r/20220831094349.boln4jjajkdtykx3@quack3

thanks,

--
John Hubbard
NVIDIA

2022-09-01 02:08:22

by John Hubbard

[permalink] [raw]

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

On 8/31/22 17:42, Al Viro wrote:
> On Tue, Aug 30, 2022 at 09:18:40PM -0700, John Hubbard wrote:
>> Provide two new wrapper routines that are intended for user space pages
>> only:
>>
>> iov_iter_pin_pages()
>> iov_iter_pin_pages_alloc()
>>
>> Internally, these routines call pin_user_pages_fast(), instead of
>> get_user_pages_fast(), for user_backed_iter(i) and iov_iter_bvec(i)
>> cases.
>>
>> As always, callers must use unpin_user_pages() or a suitable FOLL_PIN
>> variant, to release the pages, if they actually were acquired via
>> pin_user_pages_fast().
>>
>> This is a prerequisite to converting bio/block layers over to use
>> pin_user_pages_fast().
>
> What of ITER_PIPE (splice from O_DIRECT fd to a to pipe, for filesystem
> that uses generic_file_splice_read())?

Yes. And it turns out that I sent this v2 just a little too early: it
does not include Jan Kara's latest idea [1] of including ITER_PIPE and
ITER_XARRAY. That should fix this up.

[1] https://lore.kernel.org/r/20220831094349.boln4jjajkdtykx3@quack3

thanks,

--
John Hubbard
NVIDIA

2022-09-06 06:45:58

Subject: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

Subject: [PATCH v2 6/7] NFS: direct-io: convert to FOLL_PIN pages

Subject: [PATCH v2 7/7] fuse: convert direct IO paths to use FOLL_PIN

Subject: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 7/7] fuse: convert direct IO paths to use FOLL_PIN

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 7/7] fuse: convert direct IO paths to use FOLL_PIN

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 6/7] NFS: direct-io: convert to FOLL_PIN pages

Subject: Re: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

Subject: Re: [PATCH v2 6/7] NFS: direct-io: convert to FOLL_PIN pages

Subject: Re: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

Subject: Re: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 0/7] convert most filesystems to pin_user_pages_fast()

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines

Subject: Re: [PATCH v2 4/7] iov_iter: new iov_iter_pin_pages*() routines