fs/f2fs/node.c at master · tjh.dev/kernel

tjh.dev / kernel
fork
Linux kernel mirror (for testing) git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git
kernel os linux
fork
kernel / fs / f2fs / node.c
at master 3567 lines 89 kB view raw
wrap content
   1// SPDX-License-Identifier: GPL-2.0
   2/*
   3 * fs/f2fs/node.c
   4 *
   5 * Copyright (c) 2012 Samsung Electronics Co., Ltd.
   6 *             http://www.samsung.com/
   7 */
   8#include <linux/fs.h>
   9#include <linux/f2fs_fs.h>
  10#include <linux/mpage.h>
  11#include <linux/sched/mm.h>
  12#include <linux/blkdev.h>
  13#include <linux/folio_batch.h>
  14#include <linux/swap.h>
  15
  16#include "f2fs.h"
  17#include "node.h"
  18#include "segment.h"
  19#include "xattr.h"
  20#include "iostat.h"
  21#include <trace/events/f2fs.h>
  22
  23#define on_f2fs_build_free_nids(nm_i) mutex_is_locked(&(nm_i)->build_lock)
  24
  25static struct kmem_cache *nat_entry_slab;
  26static struct kmem_cache *free_nid_slab;
  27static struct kmem_cache *nat_entry_set_slab;
  28static struct kmem_cache *fsync_node_entry_slab;
  29
  30static inline bool is_invalid_nid(struct f2fs_sb_info *sbi, nid_t nid)
  31{
  32	return nid < F2FS_ROOT_INO(sbi) || nid >= NM_I(sbi)->max_nid;
  33}
  34
  35/*
  36 * Check whether the given nid is within node id range.
  37 */
  38int f2fs_check_nid_range(struct f2fs_sb_info *sbi, nid_t nid)
  39{
  40	if (unlikely(is_invalid_nid(sbi, nid))) {
  41		set_sbi_flag(sbi, SBI_NEED_FSCK);
  42		f2fs_warn(sbi, "%s: out-of-range nid=%x, run fsck to fix.",
  43			  __func__, nid);
  44		f2fs_handle_error(sbi, ERROR_CORRUPTED_INODE);
  45		return -EFSCORRUPTED;
  46	}
  47	return 0;
  48}
  49
  50bool f2fs_available_free_memory(struct f2fs_sb_info *sbi, int type)
  51{
  52	struct f2fs_nm_info *nm_i = NM_I(sbi);
  53	struct discard_cmd_control *dcc = SM_I(sbi)->dcc_info;
  54	struct sysinfo val;
  55	unsigned long avail_ram;
  56	unsigned long mem_size = 0;
  57	bool res = false;
  58
  59	if (!nm_i)
  60		return true;
  61
  62	si_meminfo(&val);
  63
  64	/* only uses low memory */
  65	avail_ram = val.totalram - val.totalhigh;
  66
  67	/*
  68	 * give 25%, 25%, 50%, 50%, 25%, 25% memory for each components respectively
  69	 */
  70	if (type == FREE_NIDS) {
  71		mem_size = (nm_i->nid_cnt[FREE_NID] *
  72				sizeof(struct free_nid)) >> PAGE_SHIFT;
  73		res = mem_size < ((avail_ram * nm_i->ram_thresh / 100) >> 2);
  74	} else if (type == NAT_ENTRIES) {
  75		mem_size = (nm_i->nat_cnt[TOTAL_NAT] *
  76				sizeof(struct nat_entry)) >> PAGE_SHIFT;
  77		res = mem_size < ((avail_ram * nm_i->ram_thresh / 100) >> 2);
  78		if (excess_cached_nats(sbi))
  79			res = false;
  80	} else if (type == DIRTY_DENTS) {
  81		if (bdi_wb_dirty_exceeded(sbi->sb->s_bdi))
  82			return false;
  83		mem_size = get_pages(sbi, F2FS_DIRTY_DENTS);
  84		res = mem_size < ((avail_ram * nm_i->ram_thresh / 100) >> 1);
  85	} else if (type == INO_ENTRIES) {
  86		int i;
  87
  88		for (i = 0; i < MAX_INO_ENTRY; i++)
  89			mem_size += sbi->im[i].ino_num *
  90						sizeof(struct ino_entry);
  91		mem_size >>= PAGE_SHIFT;
  92		res = mem_size < ((avail_ram * nm_i->ram_thresh / 100) >> 1);
  93	} else if (type == READ_EXTENT_CACHE || type == AGE_EXTENT_CACHE) {
  94		enum extent_type etype = type == READ_EXTENT_CACHE ?
  95						EX_READ : EX_BLOCK_AGE;
  96		struct extent_tree_info *eti = &sbi->extent_tree[etype];
  97
  98		mem_size = (atomic_read(&eti->total_ext_tree) *
  99				sizeof(struct extent_tree) +
 100				atomic_read(&eti->total_ext_node) *
 101				sizeof(struct extent_node)) >> PAGE_SHIFT;
 102		res = mem_size < ((avail_ram * nm_i->ram_thresh / 100) >> 2);
 103	} else if (type == DISCARD_CACHE) {
 104		mem_size = (atomic_read(&dcc->discard_cmd_cnt) *
 105				sizeof(struct discard_cmd)) >> PAGE_SHIFT;
 106		res = mem_size < (avail_ram * nm_i->ram_thresh / 100);
 107	} else if (type == COMPRESS_PAGE) {
 108#ifdef CONFIG_F2FS_FS_COMPRESSION
 109		unsigned long free_ram = val.freeram;
 110
 111		/*
 112		 * free memory is lower than watermark or cached page count
 113		 * exceed threshold, deny caching compress page.
 114		 */
 115		res = (free_ram > avail_ram * sbi->compress_watermark / 100) &&
 116			(COMPRESS_MAPPING(sbi)->nrpages <
 117			 free_ram * sbi->compress_percent / 100);
 118#else
 119		res = false;
 120#endif
 121	} else {
 122		if (!bdi_wb_dirty_exceeded(sbi->sb->s_bdi))
 123			return true;
 124	}
 125	return res;
 126}
 127
 128static void clear_node_folio_dirty(struct folio *folio)
 129{
 130	if (folio_test_dirty(folio)) {
 131		f2fs_clear_page_cache_dirty_tag(folio);
 132		folio_clear_dirty_for_io(folio);
 133		dec_page_count(F2FS_F_SB(folio), F2FS_DIRTY_NODES);
 134	}
 135	folio_clear_uptodate(folio);
 136}
 137
 138static struct folio *get_current_nat_folio(struct f2fs_sb_info *sbi, nid_t nid)
 139{
 140	return f2fs_get_meta_folio_retry(sbi, current_nat_addr(sbi, nid));
 141}
 142
 143static struct folio *get_next_nat_folio(struct f2fs_sb_info *sbi, nid_t nid)
 144{
 145	struct folio *src_folio;
 146	struct folio *dst_folio;
 147	pgoff_t dst_off;
 148	void *src_addr;
 149	void *dst_addr;
 150	struct f2fs_nm_info *nm_i = NM_I(sbi);
 151
 152	dst_off = next_nat_addr(sbi, current_nat_addr(sbi, nid));
 153
 154	/* get current nat block page with lock */
 155	src_folio = get_current_nat_folio(sbi, nid);
 156	if (IS_ERR(src_folio))
 157		return src_folio;
 158	dst_folio = f2fs_grab_meta_folio(sbi, dst_off);
 159	f2fs_bug_on(sbi, folio_test_dirty(src_folio));
 160
 161	src_addr = folio_address(src_folio);
 162	dst_addr = folio_address(dst_folio);
 163	memcpy(dst_addr, src_addr, PAGE_SIZE);
 164	folio_mark_dirty(dst_folio);
 165	f2fs_folio_put(src_folio, true);
 166
 167	set_to_next_nat(nm_i, nid);
 168
 169	return dst_folio;
 170}
 171
 172static struct nat_entry *__alloc_nat_entry(struct f2fs_sb_info *sbi,
 173						nid_t nid, bool no_fail)
 174{
 175	struct nat_entry *new;
 176
 177	new = f2fs_kmem_cache_alloc(nat_entry_slab,
 178					GFP_F2FS_ZERO, no_fail, sbi);
 179	if (new) {
 180		nat_set_nid(new, nid);
 181		nat_reset_flag(new);
 182	}
 183	return new;
 184}
 185
 186static void __free_nat_entry(struct nat_entry *e)
 187{
 188	kmem_cache_free(nat_entry_slab, e);
 189}
 190
 191/* must be locked by nat_tree_lock */
 192static struct nat_entry *__init_nat_entry(struct f2fs_nm_info *nm_i,
 193	struct nat_entry *ne, struct f2fs_nat_entry *raw_ne, bool no_fail, bool init_dirty)
 194{
 195	if (no_fail)
 196		f2fs_radix_tree_insert(&nm_i->nat_root, nat_get_nid(ne), ne);
 197	else if (radix_tree_insert(&nm_i->nat_root, nat_get_nid(ne), ne))
 198		return NULL;
 199
 200	if (raw_ne)
 201		node_info_from_raw_nat(&ne->ni, raw_ne);
 202
 203	if (init_dirty) {
 204		INIT_LIST_HEAD(&ne->list);
 205		nm_i->nat_cnt[TOTAL_NAT]++;
 206		return ne;
 207	}
 208
 209	spin_lock(&nm_i->nat_list_lock);
 210	list_add_tail(&ne->list, &nm_i->nat_entries);
 211	spin_unlock(&nm_i->nat_list_lock);
 212
 213	nm_i->nat_cnt[TOTAL_NAT]++;
 214	nm_i->nat_cnt[RECLAIMABLE_NAT]++;
 215	return ne;
 216}
 217
 218static struct nat_entry *__lookup_nat_cache(struct f2fs_nm_info *nm_i, nid_t n, bool for_dirty)
 219{
 220	struct nat_entry *ne;
 221
 222	ne = radix_tree_lookup(&nm_i->nat_root, n);
 223
 224	/*
 225	 * for recent accessed nat entry which will not be dirtied soon
 226	 * later, move it to tail of lru list.
 227	 */
 228	if (ne && !get_nat_flag(ne, IS_DIRTY) && !for_dirty) {
 229		spin_lock(&nm_i->nat_list_lock);
 230		if (!list_empty(&ne->list))
 231			list_move_tail(&ne->list, &nm_i->nat_entries);
 232		spin_unlock(&nm_i->nat_list_lock);
 233	}
 234
 235	return ne;
 236}
 237
 238static unsigned int __gang_lookup_nat_cache(struct f2fs_nm_info *nm_i,
 239		nid_t start, unsigned int nr, struct nat_entry **ep)
 240{
 241	return radix_tree_gang_lookup(&nm_i->nat_root, (void **)ep, start, nr);
 242}
 243
 244static void __del_from_nat_cache(struct f2fs_nm_info *nm_i, struct nat_entry *e)
 245{
 246	radix_tree_delete(&nm_i->nat_root, nat_get_nid(e));
 247	nm_i->nat_cnt[TOTAL_NAT]--;
 248	nm_i->nat_cnt[RECLAIMABLE_NAT]--;
 249	__free_nat_entry(e);
 250}
 251
 252static struct nat_entry_set *__grab_nat_entry_set(struct f2fs_nm_info *nm_i,
 253							struct nat_entry *ne)
 254{
 255	nid_t set = NAT_BLOCK_OFFSET(ne->ni.nid);
 256	struct nat_entry_set *head;
 257
 258	head = radix_tree_lookup(&nm_i->nat_set_root, set);
 259	if (!head) {
 260		head = f2fs_kmem_cache_alloc(nat_entry_set_slab,
 261						GFP_NOFS, true, NULL);
 262
 263		INIT_LIST_HEAD(&head->entry_list);
 264		INIT_LIST_HEAD(&head->set_list);
 265		head->set = set;
 266		head->entry_cnt = 0;
 267		f2fs_radix_tree_insert(&nm_i->nat_set_root, set, head);
 268	}
 269	return head;
 270}
 271
 272static void __set_nat_cache_dirty(struct f2fs_nm_info *nm_i,
 273		struct nat_entry *ne, bool init_dirty)
 274{
 275	struct nat_entry_set *head;
 276	bool new_ne = nat_get_blkaddr(ne) == NEW_ADDR;
 277
 278	if (!new_ne)
 279		head = __grab_nat_entry_set(nm_i, ne);
 280
 281	/*
 282	 * update entry_cnt in below condition:
 283	 * 1. update NEW_ADDR to valid block address;
 284	 * 2. update old block address to new one;
 285	 */
 286	if (!new_ne && (get_nat_flag(ne, IS_PREALLOC) ||
 287				!get_nat_flag(ne, IS_DIRTY)))
 288		head->entry_cnt++;
 289
 290	set_nat_flag(ne, IS_PREALLOC, new_ne);
 291
 292	if (get_nat_flag(ne, IS_DIRTY))
 293		goto refresh_list;
 294
 295	nm_i->nat_cnt[DIRTY_NAT]++;
 296	if (!init_dirty)
 297		nm_i->nat_cnt[RECLAIMABLE_NAT]--;
 298	set_nat_flag(ne, IS_DIRTY, true);
 299refresh_list:
 300	spin_lock(&nm_i->nat_list_lock);
 301	if (new_ne)
 302		list_del_init(&ne->list);
 303	else
 304		list_move_tail(&ne->list, &head->entry_list);
 305	spin_unlock(&nm_i->nat_list_lock);
 306}
 307
 308static void __clear_nat_cache_dirty(struct f2fs_nm_info *nm_i,
 309		struct nat_entry_set *set, struct nat_entry *ne)
 310{
 311	spin_lock(&nm_i->nat_list_lock);
 312	list_move_tail(&ne->list, &nm_i->nat_entries);
 313	spin_unlock(&nm_i->nat_list_lock);
 314
 315	set_nat_flag(ne, IS_DIRTY, false);
 316	set->entry_cnt--;
 317	nm_i->nat_cnt[DIRTY_NAT]--;
 318	nm_i->nat_cnt[RECLAIMABLE_NAT]++;
 319}
 320
 321static unsigned int __gang_lookup_nat_set(struct f2fs_nm_info *nm_i,
 322		nid_t start, unsigned int nr, struct nat_entry_set **ep)
 323{
 324	return radix_tree_gang_lookup(&nm_i->nat_set_root, (void **)ep,
 325							start, nr);
 326}
 327
 328bool f2fs_in_warm_node_list(struct folio *folio)
 329{
 330	return is_node_folio(folio) && IS_DNODE(folio) && is_cold_node(folio);
 331}
 332
 333void f2fs_init_fsync_node_info(struct f2fs_sb_info *sbi)
 334{
 335	spin_lock_init(&sbi->fsync_node_lock);
 336	INIT_LIST_HEAD(&sbi->fsync_node_list);
 337	sbi->fsync_seg_id = 0;
 338	sbi->fsync_node_num = 0;
 339}
 340
 341static unsigned int f2fs_add_fsync_node_entry(struct f2fs_sb_info *sbi,
 342		struct folio *folio)
 343{
 344	struct fsync_node_entry *fn;
 345	unsigned long flags;
 346	unsigned int seq_id;
 347
 348	fn = f2fs_kmem_cache_alloc(fsync_node_entry_slab,
 349					GFP_NOFS, true, NULL);
 350
 351	folio_get(folio);
 352	fn->folio = folio;
 353	INIT_LIST_HEAD(&fn->list);
 354
 355	spin_lock_irqsave(&sbi->fsync_node_lock, flags);
 356	list_add_tail(&fn->list, &sbi->fsync_node_list);
 357	fn->seq_id = sbi->fsync_seg_id++;
 358	seq_id = fn->seq_id;
 359	sbi->fsync_node_num++;
 360	spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
 361
 362	return seq_id;
 363}
 364
 365void f2fs_del_fsync_node_entry(struct f2fs_sb_info *sbi, struct folio *folio)
 366{
 367	struct fsync_node_entry *fn;
 368	unsigned long flags;
 369
 370	spin_lock_irqsave(&sbi->fsync_node_lock, flags);
 371	list_for_each_entry(fn, &sbi->fsync_node_list, list) {
 372		if (fn->folio == folio) {
 373			list_del(&fn->list);
 374			sbi->fsync_node_num--;
 375			spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
 376			kmem_cache_free(fsync_node_entry_slab, fn);
 377			folio_put(folio);
 378			return;
 379		}
 380	}
 381	spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
 382	f2fs_bug_on(sbi, 1);
 383}
 384
 385void f2fs_reset_fsync_node_info(struct f2fs_sb_info *sbi)
 386{
 387	unsigned long flags;
 388
 389	spin_lock_irqsave(&sbi->fsync_node_lock, flags);
 390	sbi->fsync_seg_id = 0;
 391	spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
 392}
 393
 394bool f2fs_need_dentry_mark(struct f2fs_sb_info *sbi, nid_t nid)
 395{
 396	struct f2fs_nm_info *nm_i = NM_I(sbi);
 397	struct nat_entry *e;
 398	bool need = false;
 399
 400	f2fs_down_read(&nm_i->nat_tree_lock);
 401	e = __lookup_nat_cache(nm_i, nid, false);
 402	if (e) {
 403		if (!get_nat_flag(e, IS_CHECKPOINTED) &&
 404				!get_nat_flag(e, HAS_FSYNCED_INODE))
 405			need = true;
 406	}
 407	f2fs_up_read(&nm_i->nat_tree_lock);
 408	return need;
 409}
 410
 411bool f2fs_is_checkpointed_node(struct f2fs_sb_info *sbi, nid_t nid)
 412{
 413	struct f2fs_nm_info *nm_i = NM_I(sbi);
 414	struct nat_entry *e;
 415	bool is_cp = true;
 416
 417	f2fs_down_read(&nm_i->nat_tree_lock);
 418	e = __lookup_nat_cache(nm_i, nid, false);
 419	if (e && !get_nat_flag(e, IS_CHECKPOINTED))
 420		is_cp = false;
 421	f2fs_up_read(&nm_i->nat_tree_lock);
 422	return is_cp;
 423}
 424
 425bool f2fs_need_inode_block_update(struct f2fs_sb_info *sbi, nid_t ino)
 426{
 427	struct f2fs_nm_info *nm_i = NM_I(sbi);
 428	struct nat_entry *e;
 429	bool need_update = true;
 430	struct f2fs_lock_context lc;
 431
 432	f2fs_down_read_trace(&sbi->node_write, &lc);
 433	f2fs_down_read(&nm_i->nat_tree_lock);
 434	e = __lookup_nat_cache(nm_i, ino, false);
 435	if (e && get_nat_flag(e, HAS_LAST_FSYNC) &&
 436			(get_nat_flag(e, IS_CHECKPOINTED) ||
 437			 get_nat_flag(e, HAS_FSYNCED_INODE)))
 438		need_update = false;
 439	f2fs_up_read(&nm_i->nat_tree_lock);
 440	f2fs_up_read_trace(&sbi->node_write, &lc);
 441	return need_update;
 442}
 443
 444/* must be locked by nat_tree_lock */
 445static void cache_nat_entry(struct f2fs_sb_info *sbi, nid_t nid,
 446						struct f2fs_nat_entry *ne)
 447{
 448	struct f2fs_nm_info *nm_i = NM_I(sbi);
 449	struct nat_entry *new, *e;
 450
 451	/* Let's mitigate lock contention of nat_tree_lock during checkpoint */
 452	if (f2fs_rwsem_is_locked(&sbi->cp_global_sem))
 453		return;
 454
 455	new = __alloc_nat_entry(sbi, nid, false);
 456	if (!new)
 457		return;
 458
 459	f2fs_down_write(&nm_i->nat_tree_lock);
 460	e = __lookup_nat_cache(nm_i, nid, false);
 461	if (!e)
 462		e = __init_nat_entry(nm_i, new, ne, false, false);
 463	else
 464		f2fs_bug_on(sbi, nat_get_ino(e) != le32_to_cpu(ne->ino) ||
 465				nat_get_blkaddr(e) !=
 466					le32_to_cpu(ne->block_addr) ||
 467				nat_get_version(e) != ne->version);
 468	f2fs_up_write(&nm_i->nat_tree_lock);
 469	if (e != new)
 470		__free_nat_entry(new);
 471}
 472
 473static void set_node_addr(struct f2fs_sb_info *sbi, struct node_info *ni,
 474			block_t new_blkaddr, bool fsync_done)
 475{
 476	struct f2fs_nm_info *nm_i = NM_I(sbi);
 477	struct nat_entry *e;
 478	struct nat_entry *new = __alloc_nat_entry(sbi, ni->nid, true);
 479	bool init_dirty = false;
 480
 481	f2fs_down_write(&nm_i->nat_tree_lock);
 482	e = __lookup_nat_cache(nm_i, ni->nid, true);
 483	if (!e) {
 484		init_dirty = true;
 485		e = __init_nat_entry(nm_i, new, NULL, true, true);
 486		copy_node_info(&e->ni, ni);
 487		f2fs_bug_on(sbi, ni->blk_addr == NEW_ADDR);
 488	} else if (new_blkaddr == NEW_ADDR) {
 489		/*
 490		 * when nid is reallocated,
 491		 * previous nat entry can be remained in nat cache.
 492		 * So, reinitialize it with new information.
 493		 */
 494		copy_node_info(&e->ni, ni);
 495		f2fs_bug_on(sbi, ni->blk_addr != NULL_ADDR);
 496	}
 497	/* let's free early to reduce memory consumption */
 498	if (e != new)
 499		__free_nat_entry(new);
 500
 501	/* sanity check */
 502	f2fs_bug_on(sbi, nat_get_blkaddr(e) != ni->blk_addr);
 503	f2fs_bug_on(sbi, nat_get_blkaddr(e) == NULL_ADDR &&
 504			new_blkaddr == NULL_ADDR);
 505	f2fs_bug_on(sbi, nat_get_blkaddr(e) == NEW_ADDR &&
 506			new_blkaddr == NEW_ADDR);
 507	f2fs_bug_on(sbi, __is_valid_data_blkaddr(nat_get_blkaddr(e)) &&
 508			new_blkaddr == NEW_ADDR);
 509
 510	/* increment version no as node is removed */
 511	if (nat_get_blkaddr(e) != NEW_ADDR && new_blkaddr == NULL_ADDR) {
 512		unsigned char version = nat_get_version(e);
 513
 514		nat_set_version(e, inc_node_version(version));
 515	}
 516
 517	/* change address */
 518	nat_set_blkaddr(e, new_blkaddr);
 519	if (!__is_valid_data_blkaddr(new_blkaddr))
 520		set_nat_flag(e, IS_CHECKPOINTED, false);
 521	__set_nat_cache_dirty(nm_i, e, init_dirty);
 522
 523	/* update fsync_mark if its inode nat entry is still alive */
 524	if (ni->nid != ni->ino)
 525		e = __lookup_nat_cache(nm_i, ni->ino, false);
 526	if (e) {
 527		if (fsync_done && ni->nid == ni->ino)
 528			set_nat_flag(e, HAS_FSYNCED_INODE, true);
 529		set_nat_flag(e, HAS_LAST_FSYNC, fsync_done);
 530	}
 531	f2fs_up_write(&nm_i->nat_tree_lock);
 532}
 533
 534int f2fs_try_to_free_nats(struct f2fs_sb_info *sbi, int nr_shrink)
 535{
 536	struct f2fs_nm_info *nm_i = NM_I(sbi);
 537	int nr = nr_shrink;
 538
 539	if (!f2fs_down_write_trylock(&nm_i->nat_tree_lock))
 540		return 0;
 541
 542	spin_lock(&nm_i->nat_list_lock);
 543	while (nr_shrink) {
 544		struct nat_entry *ne;
 545
 546		if (list_empty(&nm_i->nat_entries))
 547			break;
 548
 549		ne = list_first_entry(&nm_i->nat_entries,
 550					struct nat_entry, list);
 551		list_del(&ne->list);
 552		spin_unlock(&nm_i->nat_list_lock);
 553
 554		__del_from_nat_cache(nm_i, ne);
 555		nr_shrink--;
 556
 557		spin_lock(&nm_i->nat_list_lock);
 558	}
 559	spin_unlock(&nm_i->nat_list_lock);
 560
 561	f2fs_up_write(&nm_i->nat_tree_lock);
 562	return nr - nr_shrink;
 563}
 564
 565int f2fs_get_node_info(struct f2fs_sb_info *sbi, nid_t nid,
 566				struct node_info *ni, bool checkpoint_context)
 567{
 568	struct f2fs_nm_info *nm_i = NM_I(sbi);
 569	struct curseg_info *curseg = CURSEG_I(sbi, CURSEG_HOT_DATA);
 570	struct f2fs_journal *journal = curseg->journal;
 571	nid_t start_nid = START_NID(nid);
 572	struct f2fs_nat_block *nat_blk;
 573	struct folio *folio = NULL;
 574	struct f2fs_nat_entry ne;
 575	struct nat_entry *e;
 576	pgoff_t index;
 577	int i;
 578	bool need_cache = true;
 579
 580	ni->flag = 0;
 581	ni->nid = nid;
 582retry:
 583	/* Check nat cache */
 584	f2fs_down_read(&nm_i->nat_tree_lock);
 585	e = __lookup_nat_cache(nm_i, nid, false);
 586	if (e) {
 587		ni->ino = nat_get_ino(e);
 588		ni->blk_addr = nat_get_blkaddr(e);
 589		ni->version = nat_get_version(e);
 590		f2fs_up_read(&nm_i->nat_tree_lock);
 591		if (IS_ENABLED(CONFIG_F2FS_CHECK_FS)) {
 592			need_cache = false;
 593			goto sanity_check;
 594		}
 595		return 0;
 596	}
 597
 598	/*
 599	 * Check current segment summary by trying to grab journal_rwsem first.
 600	 * This sem is on the critical path on the checkpoint requiring the above
 601	 * nat_tree_lock. Therefore, we should retry, if we failed to grab here
 602	 * while not bothering checkpoint.
 603	 */
 604	if (!f2fs_rwsem_is_locked(&sbi->cp_global_sem) || checkpoint_context) {
 605		down_read(&curseg->journal_rwsem);
 606	} else if (f2fs_rwsem_is_contended(&nm_i->nat_tree_lock) ||
 607				!down_read_trylock(&curseg->journal_rwsem)) {
 608		f2fs_up_read(&nm_i->nat_tree_lock);
 609		goto retry;
 610	}
 611
 612	i = f2fs_lookup_journal_in_cursum(sbi, journal, NAT_JOURNAL, nid, 0);
 613	if (i >= 0) {
 614		ne = nat_in_journal(journal, i);
 615		node_info_from_raw_nat(ni, &ne);
 616	}
 617	up_read(&curseg->journal_rwsem);
 618	if (i >= 0) {
 619		f2fs_up_read(&nm_i->nat_tree_lock);
 620		goto sanity_check;
 621	}
 622
 623	/* Fill node_info from nat page */
 624	index = current_nat_addr(sbi, nid);
 625	f2fs_up_read(&nm_i->nat_tree_lock);
 626
 627	folio = f2fs_get_meta_folio(sbi, index);
 628	if (IS_ERR(folio))
 629		return PTR_ERR(folio);
 630
 631	nat_blk = folio_address(folio);
 632	ne = nat_blk->entries[nid - start_nid];
 633	node_info_from_raw_nat(ni, &ne);
 634	f2fs_folio_put(folio, true);
 635sanity_check:
 636	if (__is_valid_data_blkaddr(ni->blk_addr) &&
 637		!f2fs_is_valid_blkaddr(sbi, ni->blk_addr,
 638					DATA_GENERIC_ENHANCE)) {
 639		set_sbi_flag(sbi, SBI_NEED_FSCK);
 640		f2fs_err_ratelimited(sbi,
 641			"f2fs_get_node_info of %pS: inconsistent nat entry, "
 642			"ino:%u, nid:%u, blkaddr:%u, ver:%u, flag:%u",
 643			__builtin_return_address(0),
 644			ni->ino, ni->nid, ni->blk_addr, ni->version, ni->flag);
 645		f2fs_handle_error(sbi, ERROR_INCONSISTENT_NAT);
 646		return -EFSCORRUPTED;
 647	}
 648
 649	if (unlikely(f2fs_quota_file(sbi, ni->nid) &&
 650		!__is_valid_data_blkaddr(ni->blk_addr))) {
 651		set_sbi_flag(sbi, SBI_NEED_FSCK);
 652		f2fs_err_ratelimited(sbi,
 653			"f2fs_get_node_info of %pS: inconsistent nat entry from qf_ino, "
 654			"ino:%u, nid:%u, blkaddr:%u, ver:%u, flag:%u",
 655			__builtin_return_address(0),
 656			ni->ino, ni->nid, ni->blk_addr, ni->version, ni->flag);
 657		f2fs_handle_error(sbi, ERROR_INCONSISTENT_NAT);
 658	}
 659
 660	/* cache nat entry */
 661	if (need_cache)
 662		cache_nat_entry(sbi, nid, &ne);
 663	return 0;
 664}
 665
 666/*
 667 * readahead MAX_RA_NODE number of node pages.
 668 */
 669static void f2fs_ra_node_pages(struct folio *parent, int start, int n)
 670{
 671	struct f2fs_sb_info *sbi = F2FS_F_SB(parent);
 672	struct blk_plug plug;
 673	int i, end;
 674	nid_t nid;
 675
 676	blk_start_plug(&plug);
 677
 678	/* Then, try readahead for siblings of the desired node */
 679	end = start + n;
 680	end = min(end, (int)NIDS_PER_BLOCK);
 681	for (i = start; i < end; i++) {
 682		nid = get_nid(parent, i, false);
 683		f2fs_ra_node_page(sbi, nid);
 684	}
 685
 686	blk_finish_plug(&plug);
 687}
 688
 689pgoff_t f2fs_get_next_page_offset(struct dnode_of_data *dn, pgoff_t pgofs)
 690{
 691	const long direct_index = ADDRS_PER_INODE(dn->inode);
 692	const long direct_blks = ADDRS_PER_BLOCK(dn->inode);
 693	const long indirect_blks = ADDRS_PER_BLOCK(dn->inode) * NIDS_PER_BLOCK;
 694	unsigned int skipped_unit = ADDRS_PER_BLOCK(dn->inode);
 695	int cur_level = dn->cur_level;
 696	int max_level = dn->max_level;
 697	pgoff_t base = 0;
 698
 699	if (!dn->max_level)
 700		return pgofs + 1;
 701
 702	while (max_level-- > cur_level)
 703		skipped_unit *= NIDS_PER_BLOCK;
 704
 705	switch (dn->max_level) {
 706	case 3:
 707		base += 2 * indirect_blks;
 708		fallthrough;
 709	case 2:
 710		base += 2 * direct_blks;
 711		fallthrough;
 712	case 1:
 713		base += direct_index;
 714		break;
 715	default:
 716		f2fs_bug_on(F2FS_I_SB(dn->inode), 1);
 717	}
 718
 719	return ((pgofs - base) / skipped_unit + 1) * skipped_unit + base;
 720}
 721
 722/*
 723 * The maximum depth is four.
 724 * Offset[0] will have raw inode offset.
 725 */
 726static int get_node_path(struct inode *inode, long block,
 727				int offset[4], unsigned int noffset[4])
 728{
 729	const long direct_index = ADDRS_PER_INODE(inode);
 730	const long direct_blks = ADDRS_PER_BLOCK(inode);
 731	const long dptrs_per_blk = NIDS_PER_BLOCK;
 732	const long indirect_blks = ADDRS_PER_BLOCK(inode) * NIDS_PER_BLOCK;
 733	const long dindirect_blks = indirect_blks * NIDS_PER_BLOCK;
 734	int n = 0;
 735	int level = 0;
 736
 737	noffset[0] = 0;
 738
 739	if (block < direct_index) {
 740		offset[n] = block;
 741		goto got;
 742	}
 743	block -= direct_index;
 744	if (block < direct_blks) {
 745		offset[n++] = NODE_DIR1_BLOCK;
 746		noffset[n] = 1;
 747		offset[n] = block;
 748		level = 1;
 749		goto got;
 750	}
 751	block -= direct_blks;
 752	if (block < direct_blks) {
 753		offset[n++] = NODE_DIR2_BLOCK;
 754		noffset[n] = 2;
 755		offset[n] = block;
 756		level = 1;
 757		goto got;
 758	}
 759	block -= direct_blks;
 760	if (block < indirect_blks) {
 761		offset[n++] = NODE_IND1_BLOCK;
 762		noffset[n] = 3;
 763		offset[n++] = block / direct_blks;
 764		noffset[n] = 4 + offset[n - 1];
 765		offset[n] = block % direct_blks;
 766		level = 2;
 767		goto got;
 768	}
 769	block -= indirect_blks;
 770	if (block < indirect_blks) {
 771		offset[n++] = NODE_IND2_BLOCK;
 772		noffset[n] = 4 + dptrs_per_blk;
 773		offset[n++] = block / direct_blks;
 774		noffset[n] = 5 + dptrs_per_blk + offset[n - 1];
 775		offset[n] = block % direct_blks;
 776		level = 2;
 777		goto got;
 778	}
 779	block -= indirect_blks;
 780	if (block < dindirect_blks) {
 781		offset[n++] = NODE_DIND_BLOCK;
 782		noffset[n] = 5 + (dptrs_per_blk * 2);
 783		offset[n++] = block / indirect_blks;
 784		noffset[n] = 6 + (dptrs_per_blk * 2) +
 785			      offset[n - 1] * (dptrs_per_blk + 1);
 786		offset[n++] = (block / direct_blks) % dptrs_per_blk;
 787		noffset[n] = 7 + (dptrs_per_blk * 2) +
 788			      offset[n - 2] * (dptrs_per_blk + 1) +
 789			      offset[n - 1];
 790		offset[n] = block % direct_blks;
 791		level = 3;
 792		goto got;
 793	} else {
 794		return -E2BIG;
 795	}
 796got:
 797	return level;
 798}
 799
 800static struct folio *f2fs_get_node_folio_ra(struct folio *parent, int start);
 801
 802/*
 803 * Caller should call f2fs_put_dnode(dn).
 804 * Also, it should grab and release a rwsem by calling f2fs_lock_op() and
 805 * f2fs_unlock_op() only if mode is set with ALLOC_NODE.
 806 */
 807int f2fs_get_dnode_of_data(struct dnode_of_data *dn, pgoff_t index, int mode)
 808{
 809	struct f2fs_sb_info *sbi = F2FS_I_SB(dn->inode);
 810	struct folio *nfolio[4];
 811	struct folio *parent = NULL;
 812	int offset[4];
 813	unsigned int noffset[4];
 814	nid_t nids[4];
 815	int level, i = 0;
 816	int err = 0;
 817
 818	level = get_node_path(dn->inode, index, offset, noffset);
 819	if (level < 0)
 820		return level;
 821
 822	nids[0] = dn->inode->i_ino;
 823
 824	if (!dn->inode_folio) {
 825		nfolio[0] = f2fs_get_inode_folio(sbi, nids[0]);
 826		if (IS_ERR(nfolio[0]))
 827			return PTR_ERR(nfolio[0]);
 828	} else {
 829		nfolio[0] = dn->inode_folio;
 830	}
 831
 832	/* if inline_data is set, should not report any block indices */
 833	if (f2fs_has_inline_data(dn->inode) && index) {
 834		err = -ENOENT;
 835		f2fs_folio_put(nfolio[0], true);
 836		goto release_out;
 837	}
 838
 839	parent = nfolio[0];
 840	if (level != 0)
 841		nids[1] = get_nid(parent, offset[0], true);
 842	dn->inode_folio = nfolio[0];
 843	dn->inode_folio_locked = true;
 844
 845	/* get indirect or direct nodes */
 846	for (i = 1; i <= level; i++) {
 847		bool done = false;
 848
 849		if (nids[i] && nids[i] == dn->inode->i_ino) {
 850			err = -EFSCORRUPTED;
 851			f2fs_err_ratelimited(sbi,
 852				"inode mapping table is corrupted, run fsck to fix it, "
 853				"ino:%llu, nid:%u, level:%d, offset:%d",
 854				dn->inode->i_ino, nids[i], level, offset[level]);
 855			set_sbi_flag(sbi, SBI_NEED_FSCK);
 856			goto release_pages;
 857		}
 858
 859		if (!nids[i] && mode == ALLOC_NODE) {
 860			/* alloc new node */
 861			if (!f2fs_alloc_nid(sbi, &(nids[i]))) {
 862				err = -ENOSPC;
 863				goto release_pages;
 864			}
 865
 866			dn->nid = nids[i];
 867			nfolio[i] = f2fs_new_node_folio(dn, noffset[i]);
 868			if (IS_ERR(nfolio[i])) {
 869				f2fs_alloc_nid_failed(sbi, nids[i]);
 870				err = PTR_ERR(nfolio[i]);
 871				goto release_pages;
 872			}
 873
 874			set_nid(parent, offset[i - 1], nids[i], i == 1);
 875			f2fs_alloc_nid_done(sbi, nids[i]);
 876			done = true;
 877		} else if (mode == LOOKUP_NODE_RA && i == level && level > 1) {
 878			nfolio[i] = f2fs_get_node_folio_ra(parent, offset[i - 1]);
 879			if (IS_ERR(nfolio[i])) {
 880				err = PTR_ERR(nfolio[i]);
 881				goto release_pages;
 882			}
 883			done = true;
 884		}
 885		if (i == 1) {
 886			dn->inode_folio_locked = false;
 887			folio_unlock(parent);
 888		} else {
 889			f2fs_folio_put(parent, true);
 890		}
 891
 892		if (!done) {
 893			nfolio[i] = f2fs_get_node_folio(sbi, nids[i],
 894						NODE_TYPE_NON_INODE);
 895			if (IS_ERR(nfolio[i])) {
 896				err = PTR_ERR(nfolio[i]);
 897				f2fs_folio_put(nfolio[0], false);
 898				goto release_out;
 899			}
 900		}
 901		if (i < level) {
 902			parent = nfolio[i];
 903			nids[i + 1] = get_nid(parent, offset[i], false);
 904		}
 905	}
 906	dn->nid = nids[level];
 907	dn->ofs_in_node = offset[level];
 908	dn->node_folio = nfolio[level];
 909	dn->data_blkaddr = f2fs_data_blkaddr(dn);
 910
 911	if (is_inode_flag_set(dn->inode, FI_COMPRESSED_FILE) &&
 912					f2fs_sb_has_readonly(sbi)) {
 913		unsigned int cluster_size = F2FS_I(dn->inode)->i_cluster_size;
 914		unsigned int ofs_in_node = dn->ofs_in_node;
 915		pgoff_t fofs = index;
 916		unsigned int c_len;
 917		block_t blkaddr;
 918
 919		/* should align fofs and ofs_in_node to cluster_size */
 920		if (fofs % cluster_size) {
 921			fofs = round_down(fofs, cluster_size);
 922			ofs_in_node = round_down(ofs_in_node, cluster_size);
 923		}
 924
 925		c_len = f2fs_cluster_blocks_are_contiguous(dn, ofs_in_node);
 926		if (!c_len)
 927			goto out;
 928
 929		blkaddr = data_blkaddr(dn->inode, dn->node_folio, ofs_in_node);
 930		if (blkaddr == COMPRESS_ADDR)
 931			blkaddr = data_blkaddr(dn->inode, dn->node_folio,
 932						ofs_in_node + 1);
 933
 934		f2fs_update_read_extent_tree_range_compressed(dn->inode,
 935					fofs, blkaddr, cluster_size, c_len);
 936	}
 937out:
 938	return 0;
 939
 940release_pages:
 941	f2fs_folio_put(parent, true);
 942	if (i > 1)
 943		f2fs_folio_put(nfolio[0], false);
 944release_out:
 945	dn->inode_folio = NULL;
 946	dn->node_folio = NULL;
 947	if (err == -ENOENT) {
 948		dn->cur_level = i;
 949		dn->max_level = level;
 950		dn->ofs_in_node = offset[level];
 951	}
 952	return err;
 953}
 954
 955static int truncate_node(struct dnode_of_data *dn)
 956{
 957	struct f2fs_sb_info *sbi = F2FS_I_SB(dn->inode);
 958	struct node_info ni;
 959	int err;
 960	pgoff_t index;
 961
 962	err = f2fs_get_node_info(sbi, dn->nid, &ni, false);
 963	if (err)
 964		return err;
 965
 966	if (ni.blk_addr != NEW_ADDR &&
 967		!f2fs_is_valid_blkaddr(sbi, ni.blk_addr, DATA_GENERIC_ENHANCE)) {
 968		f2fs_err_ratelimited(sbi,
 969			"nat entry is corrupted, run fsck to fix it, ino:%u, "
 970			"nid:%u, blkaddr:%u", ni.ino, ni.nid, ni.blk_addr);
 971		set_sbi_flag(sbi, SBI_NEED_FSCK);
 972		f2fs_handle_error(sbi, ERROR_INCONSISTENT_NAT);
 973		return -EFSCORRUPTED;
 974	}
 975
 976	/* Deallocate node address */
 977	f2fs_invalidate_blocks(sbi, ni.blk_addr, 1);
 978	dec_valid_node_count(sbi, dn->inode, dn->nid == dn->inode->i_ino);
 979	set_node_addr(sbi, &ni, NULL_ADDR, false);
 980
 981	if (dn->nid == dn->inode->i_ino) {
 982		f2fs_remove_orphan_inode(sbi, dn->nid);
 983		dec_valid_inode_count(sbi);
 984		f2fs_inode_synced(dn->inode);
 985	}
 986
 987	clear_node_folio_dirty(dn->node_folio);
 988	set_sbi_flag(sbi, SBI_IS_DIRTY);
 989
 990	index = dn->node_folio->index;
 991	f2fs_folio_put(dn->node_folio, true);
 992
 993	invalidate_mapping_pages(NODE_MAPPING(sbi),
 994			index, index);
 995
 996	dn->node_folio = NULL;
 997	trace_f2fs_truncate_node(dn->inode, dn->nid, ni.blk_addr);
 998
 999	return 0;
1000}
1001
1002static int truncate_dnode(struct dnode_of_data *dn)
1003{
1004	struct f2fs_sb_info *sbi = F2FS_I_SB(dn->inode);
1005	struct folio *folio;
1006	int err;
1007
1008	if (dn->nid == 0)
1009		return 1;
1010
1011	/* get direct node */
1012	folio = f2fs_get_node_folio(sbi, dn->nid, NODE_TYPE_NON_INODE);
1013	if (PTR_ERR(folio) == -ENOENT)
1014		return 1;
1015	else if (IS_ERR(folio))
1016		return PTR_ERR(folio);
1017
1018	if (IS_INODE(folio) || ino_of_node(folio) != dn->inode->i_ino) {
1019		f2fs_err(sbi, "incorrect node reference, ino: %llu, nid: %u, ino_of_node: %u",
1020				dn->inode->i_ino, dn->nid, ino_of_node(folio));
1021		set_sbi_flag(sbi, SBI_NEED_FSCK);
1022		f2fs_handle_error(sbi, ERROR_INVALID_NODE_REFERENCE);
1023		f2fs_folio_put(folio, true);
1024		return -EFSCORRUPTED;
1025	}
1026
1027	/* Make dnode_of_data for parameter */
1028	dn->node_folio = folio;
1029	dn->ofs_in_node = 0;
1030	f2fs_truncate_data_blocks_range(dn, ADDRS_PER_BLOCK(dn->inode));
1031	err = truncate_node(dn);
1032	if (err) {
1033		f2fs_folio_put(folio, true);
1034		return err;
1035	}
1036
1037	return 1;
1038}
1039
1040static int truncate_nodes(struct dnode_of_data *dn, unsigned int nofs,
1041						int ofs, int depth)
1042{
1043	struct dnode_of_data rdn = *dn;
1044	struct folio *folio;
1045	struct f2fs_node *rn;
1046	nid_t child_nid;
1047	unsigned int child_nofs;
1048	int freed = 0;
1049	int i, ret;
1050
1051	if (dn->nid == 0)
1052		return NIDS_PER_BLOCK + 1;
1053
1054	trace_f2fs_truncate_nodes_enter(dn->inode, dn->nid, dn->data_blkaddr);
1055
1056	folio = f2fs_get_node_folio(F2FS_I_SB(dn->inode), dn->nid,
1057						NODE_TYPE_NON_INODE);
1058	if (IS_ERR(folio)) {
1059		trace_f2fs_truncate_nodes_exit(dn->inode, PTR_ERR(folio));
1060		return PTR_ERR(folio);
1061	}
1062
1063	f2fs_ra_node_pages(folio, ofs, NIDS_PER_BLOCK);
1064
1065	rn = F2FS_NODE(folio);
1066	if (depth < 3) {
1067		for (i = ofs; i < NIDS_PER_BLOCK; i++, freed++) {
1068			child_nid = le32_to_cpu(rn->in.nid[i]);
1069			if (child_nid == 0)
1070				continue;
1071			rdn.nid = child_nid;
1072			ret = truncate_dnode(&rdn);
1073			if (ret < 0)
1074				goto out_err;
1075			if (set_nid(folio, i, 0, false))
1076				dn->node_changed = true;
1077		}
1078	} else {
1079		child_nofs = nofs + ofs * (NIDS_PER_BLOCK + 1) + 1;
1080		for (i = ofs; i < NIDS_PER_BLOCK; i++) {
1081			child_nid = le32_to_cpu(rn->in.nid[i]);
1082			if (child_nid == 0) {
1083				child_nofs += NIDS_PER_BLOCK + 1;
1084				continue;
1085			}
1086			rdn.nid = child_nid;
1087			ret = truncate_nodes(&rdn, child_nofs, 0, depth - 1);
1088			if (ret == (NIDS_PER_BLOCK + 1)) {
1089				if (set_nid(folio, i, 0, false))
1090					dn->node_changed = true;
1091				child_nofs += ret;
1092			} else if (ret < 0 && ret != -ENOENT) {
1093				goto out_err;
1094			}
1095		}
1096		freed = child_nofs;
1097	}
1098
1099	if (!ofs) {
1100		/* remove current indirect node */
1101		dn->node_folio = folio;
1102		ret = truncate_node(dn);
1103		if (ret)
1104			goto out_err;
1105		freed++;
1106	} else {
1107		f2fs_folio_put(folio, true);
1108	}
1109	trace_f2fs_truncate_nodes_exit(dn->inode, freed);
1110	return freed;
1111
1112out_err:
1113	f2fs_folio_put(folio, true);
1114	trace_f2fs_truncate_nodes_exit(dn->inode, ret);
1115	return ret;
1116}
1117
1118static int truncate_partial_nodes(struct dnode_of_data *dn,
1119			int *offset, int depth)
1120{
1121	struct folio *folios[2];
1122	nid_t nid[3];
1123	nid_t child_nid;
1124	int err = 0;
1125	int i;
1126	int idx = depth - 2;
1127
1128	nid[0] = get_nid(dn->inode_folio, offset[0], true);
1129	if (!nid[0])
1130		return 0;
1131
1132	/* get indirect nodes in the path */
1133	for (i = 0; i < idx + 1; i++) {
1134		/* reference count'll be increased */
1135		folios[i] = f2fs_get_node_folio(F2FS_I_SB(dn->inode), nid[i],
1136							NODE_TYPE_NON_INODE);
1137		if (IS_ERR(folios[i])) {
1138			err = PTR_ERR(folios[i]);
1139			idx = i - 1;
1140			goto fail;
1141		}
1142		nid[i + 1] = get_nid(folios[i], offset[i + 1], false);
1143	}
1144
1145	f2fs_ra_node_pages(folios[idx], offset[idx + 1], NIDS_PER_BLOCK);
1146
1147	/* free direct nodes linked to a partial indirect node */
1148	for (i = offset[idx + 1]; i < NIDS_PER_BLOCK; i++) {
1149		child_nid = get_nid(folios[idx], i, false);
1150		if (!child_nid)
1151			continue;
1152		dn->nid = child_nid;
1153		err = truncate_dnode(dn);
1154		if (err < 0)
1155			goto fail;
1156		if (set_nid(folios[idx], i, 0, false))
1157			dn->node_changed = true;
1158	}
1159
1160	if (offset[idx + 1] == 0) {
1161		dn->node_folio = folios[idx];
1162		dn->nid = nid[idx];
1163		err = truncate_node(dn);
1164		if (err)
1165			goto fail;
1166	} else {
1167		f2fs_folio_put(folios[idx], true);
1168	}
1169	offset[idx]++;
1170	offset[idx + 1] = 0;
1171	idx--;
1172fail:
1173	for (i = idx; i >= 0; i--)
1174		f2fs_folio_put(folios[i], true);
1175
1176	trace_f2fs_truncate_partial_nodes(dn->inode, nid, depth, err);
1177
1178	return err;
1179}
1180
1181/*
1182 * All the block addresses of data and nodes should be nullified.
1183 */
1184int f2fs_truncate_inode_blocks(struct inode *inode, pgoff_t from)
1185{
1186	struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
1187	int err = 0, cont = 1;
1188	int level, offset[4], noffset[4];
1189	unsigned int nofs = 0;
1190	struct dnode_of_data dn;
1191	struct folio *folio;
1192
1193	trace_f2fs_truncate_inode_blocks_enter(inode, from);
1194
1195	level = get_node_path(inode, from, offset, noffset);
1196	if (level <= 0) {
1197		if (!level) {
1198			level = -EFSCORRUPTED;
1199			f2fs_err(sbi, "%s: inode ino=%llx has corrupted node block, from:%lu addrs:%u",
1200					__func__, inode->i_ino,
1201					from, ADDRS_PER_INODE(inode));
1202			set_sbi_flag(sbi, SBI_NEED_FSCK);
1203		}
1204		trace_f2fs_truncate_inode_blocks_exit(inode, level);
1205		return level;
1206	}
1207
1208	folio = f2fs_get_inode_folio(sbi, inode->i_ino);
1209	if (IS_ERR(folio)) {
1210		trace_f2fs_truncate_inode_blocks_exit(inode, PTR_ERR(folio));
1211		return PTR_ERR(folio);
1212	}
1213
1214	set_new_dnode(&dn, inode, folio, NULL, 0);
1215	folio_unlock(folio);
1216
1217	switch (level) {
1218	case 0:
1219	case 1:
1220		nofs = noffset[1];
1221		break;
1222	case 2:
1223		nofs = noffset[1];
1224		if (!offset[level - 1])
1225			goto skip_partial;
1226		err = truncate_partial_nodes(&dn, offset, level);
1227		if (err < 0 && err != -ENOENT)
1228			goto fail;
1229		nofs += 1 + NIDS_PER_BLOCK;
1230		break;
1231	case 3:
1232		nofs = 5 + 2 * NIDS_PER_BLOCK;
1233		if (!offset[level - 1])
1234			goto skip_partial;
1235		err = truncate_partial_nodes(&dn, offset, level);
1236		if (err < 0 && err != -ENOENT)
1237			goto fail;
1238		break;
1239	default:
1240		BUG();
1241	}
1242
1243skip_partial:
1244	while (cont) {
1245		dn.nid = get_nid(folio, offset[0], true);
1246		switch (offset[0]) {
1247		case NODE_DIR1_BLOCK:
1248		case NODE_DIR2_BLOCK:
1249			err = truncate_dnode(&dn);
1250			break;
1251
1252		case NODE_IND1_BLOCK:
1253		case NODE_IND2_BLOCK:
1254			err = truncate_nodes(&dn, nofs, offset[1], 2);
1255			break;
1256
1257		case NODE_DIND_BLOCK:
1258			err = truncate_nodes(&dn, nofs, offset[1], 3);
1259			cont = 0;
1260			break;
1261
1262		default:
1263			BUG();
1264		}
1265		if (err == -ENOENT) {
1266			set_sbi_flag(F2FS_F_SB(folio), SBI_NEED_FSCK);
1267			f2fs_handle_error(sbi, ERROR_INVALID_BLKADDR);
1268			f2fs_err_ratelimited(sbi,
1269				"truncate node fail, ino:%llu, nid:%u, "
1270				"offset[0]:%d, offset[1]:%d, nofs:%d",
1271				inode->i_ino, dn.nid, offset[0],
1272				offset[1], nofs);
1273			err = 0;
1274		}
1275		if (err < 0)
1276			goto fail;
1277		if (offset[1] == 0 && get_nid(folio, offset[0], true)) {
1278			folio_lock(folio);
1279			BUG_ON(!is_node_folio(folio));
1280			set_nid(folio, offset[0], 0, true);
1281			folio_unlock(folio);
1282		}
1283		offset[1] = 0;
1284		offset[0]++;
1285		nofs += err;
1286	}
1287fail:
1288	f2fs_folio_put(folio, false);
1289	trace_f2fs_truncate_inode_blocks_exit(inode, err);
1290	return err > 0 ? 0 : err;
1291}
1292
1293/* caller must lock inode page */
1294int f2fs_truncate_xattr_node(struct inode *inode)
1295{
1296	struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
1297	nid_t nid = F2FS_I(inode)->i_xattr_nid;
1298	struct dnode_of_data dn;
1299	struct folio *nfolio;
1300	int err;
1301
1302	if (!nid)
1303		return 0;
1304
1305	nfolio = f2fs_get_xnode_folio(sbi, nid);
1306	if (IS_ERR(nfolio))
1307		return PTR_ERR(nfolio);
1308
1309	set_new_dnode(&dn, inode, NULL, nfolio, nid);
1310	err = truncate_node(&dn);
1311	if (err) {
1312		f2fs_folio_put(nfolio, true);
1313		return err;
1314	}
1315
1316	f2fs_i_xnid_write(inode, 0);
1317
1318	return 0;
1319}
1320
1321/*
1322 * Caller should grab and release a rwsem by calling f2fs_lock_op() and
1323 * f2fs_unlock_op().
1324 */
1325int f2fs_remove_inode_page(struct inode *inode)
1326{
1327	struct dnode_of_data dn;
1328	int err;
1329
1330	set_new_dnode(&dn, inode, NULL, NULL, inode->i_ino);
1331	err = f2fs_get_dnode_of_data(&dn, 0, LOOKUP_NODE);
1332	if (err)
1333		return err;
1334
1335	err = f2fs_truncate_xattr_node(inode);
1336	if (err) {
1337		f2fs_put_dnode(&dn);
1338		return err;
1339	}
1340
1341	/* remove potential inline_data blocks */
1342	if (!IS_DEVICE_ALIASING(inode) &&
1343	    (S_ISREG(inode->i_mode) || S_ISDIR(inode->i_mode) ||
1344	     S_ISLNK(inode->i_mode)))
1345		f2fs_truncate_data_blocks_range(&dn, 1);
1346
1347	/* 0 is possible, after f2fs_new_inode() has failed */
1348	if (unlikely(f2fs_cp_error(F2FS_I_SB(inode)))) {
1349		f2fs_put_dnode(&dn);
1350		return -EIO;
1351	}
1352
1353	if (unlikely(inode->i_blocks != 0 && inode->i_blocks != 8)) {
1354		f2fs_warn(F2FS_I_SB(inode),
1355			"f2fs_remove_inode_page: inconsistent i_blocks, ino:%llu, iblocks:%llu",
1356			inode->i_ino, (unsigned long long)inode->i_blocks);
1357		set_sbi_flag(F2FS_I_SB(inode), SBI_NEED_FSCK);
1358	}
1359
1360	/* will put inode & node pages */
1361	err = truncate_node(&dn);
1362	if (err) {
1363		f2fs_put_dnode(&dn);
1364		return err;
1365	}
1366	return 0;
1367}
1368
1369struct folio *f2fs_new_inode_folio(struct inode *inode)
1370{
1371	struct dnode_of_data dn;
1372
1373	/* allocate inode page for new inode */
1374	set_new_dnode(&dn, inode, NULL, NULL, inode->i_ino);
1375
1376	/* caller should f2fs_folio_put(folio, true); */
1377	return f2fs_new_node_folio(&dn, 0);
1378}
1379
1380struct folio *f2fs_new_node_folio(struct dnode_of_data *dn, unsigned int ofs)
1381{
1382	struct f2fs_sb_info *sbi = F2FS_I_SB(dn->inode);
1383	struct node_info new_ni;
1384	struct folio *folio;
1385	int err;
1386
1387	if (unlikely(is_inode_flag_set(dn->inode, FI_NO_ALLOC)))
1388		return ERR_PTR(-EPERM);
1389
1390	folio = f2fs_grab_cache_folio(NODE_MAPPING(sbi), dn->nid, false);
1391	if (IS_ERR(folio))
1392		return folio;
1393
1394	if (unlikely((err = inc_valid_node_count(sbi, dn->inode, !ofs))))
1395		goto fail;
1396
1397#ifdef CONFIG_F2FS_CHECK_FS
1398	err = f2fs_get_node_info(sbi, dn->nid, &new_ni, false);
1399	if (err) {
1400		dec_valid_node_count(sbi, dn->inode, !ofs);
1401		goto fail;
1402	}
1403	if (unlikely(new_ni.blk_addr != NULL_ADDR)) {
1404		err = -EFSCORRUPTED;
1405		dec_valid_node_count(sbi, dn->inode, !ofs);
1406		set_sbi_flag(sbi, SBI_NEED_FSCK);
1407		f2fs_warn_ratelimited(sbi,
1408			"f2fs_new_node_folio: inconsistent nat entry, "
1409			"ino:%u, nid:%u, blkaddr:%u, ver:%u, flag:%u",
1410			new_ni.ino, new_ni.nid, new_ni.blk_addr,
1411			new_ni.version, new_ni.flag);
1412		f2fs_handle_error(sbi, ERROR_INCONSISTENT_NAT);
1413		goto fail;
1414	}
1415#endif
1416	new_ni.nid = dn->nid;
1417	new_ni.ino = dn->inode->i_ino;
1418	new_ni.blk_addr = NULL_ADDR;
1419	new_ni.flag = 0;
1420	new_ni.version = 0;
1421	set_node_addr(sbi, &new_ni, NEW_ADDR, false);
1422
1423	f2fs_folio_wait_writeback(folio, NODE, true, true);
1424	fill_node_footer(folio, dn->nid, dn->inode->i_ino, ofs, true);
1425	set_cold_node(folio, S_ISDIR(dn->inode->i_mode));
1426	if (!folio_test_uptodate(folio))
1427		folio_mark_uptodate(folio);
1428	if (folio_mark_dirty(folio))
1429		dn->node_changed = true;
1430
1431	if (f2fs_has_xattr_block(ofs))
1432		f2fs_i_xnid_write(dn->inode, dn->nid);
1433
1434	if (ofs == 0)
1435		inc_valid_inode_count(sbi);
1436	return folio;
1437fail:
1438	clear_node_folio_dirty(folio);
1439	f2fs_folio_put(folio, true);
1440	return ERR_PTR(err);
1441}
1442
1443/*
1444 * Caller should do after getting the following values.
1445 * 0: f2fs_folio_put(folio, false)
1446 * LOCKED_PAGE or error: f2fs_folio_put(folio, true)
1447 */
1448static int read_node_folio(struct folio *folio, blk_opf_t op_flags)
1449{
1450	struct f2fs_sb_info *sbi = F2FS_F_SB(folio);
1451	struct node_info ni;
1452	struct f2fs_io_info fio = {
1453		.sbi = sbi,
1454		.type = NODE,
1455		.op = REQ_OP_READ,
1456		.op_flags = op_flags,
1457		.folio = folio,
1458		.encrypted_page = NULL,
1459	};
1460	int err;
1461
1462	if (folio_test_uptodate(folio)) {
1463		if (!f2fs_inode_chksum_verify(sbi, folio)) {
1464			folio_clear_uptodate(folio);
1465			return -EFSBADCRC;
1466		}
1467		return LOCKED_PAGE;
1468	}
1469
1470	err = f2fs_get_node_info(sbi, folio->index, &ni, false);
1471	if (err)
1472		return err;
1473
1474	/* NEW_ADDR can be seen, after cp_error drops some dirty node pages */
1475	if (unlikely(ni.blk_addr == NULL_ADDR || ni.blk_addr == NEW_ADDR)) {
1476		folio_clear_uptodate(folio);
1477		return -ENOENT;
1478	}
1479
1480	fio.new_blkaddr = fio.old_blkaddr = ni.blk_addr;
1481
1482	err = f2fs_submit_page_bio(&fio);
1483
1484	if (!err)
1485		f2fs_update_iostat(sbi, NULL, FS_NODE_READ_IO, F2FS_BLKSIZE);
1486
1487	return err;
1488}
1489
1490/*
1491 * Readahead a node page
1492 */
1493void f2fs_ra_node_page(struct f2fs_sb_info *sbi, nid_t nid)
1494{
1495	struct folio *afolio;
1496	int err;
1497
1498	if (!nid)
1499		return;
1500	if (f2fs_check_nid_range(sbi, nid))
1501		return;
1502
1503	afolio = xa_load(&NODE_MAPPING(sbi)->i_pages, nid);
1504	if (afolio)
1505		return;
1506
1507	afolio = f2fs_grab_cache_folio(NODE_MAPPING(sbi), nid, false);
1508	if (IS_ERR(afolio))
1509		return;
1510
1511	err = read_node_folio(afolio, REQ_RAHEAD);
1512	f2fs_folio_put(afolio, err ? true : false);
1513}
1514
1515int f2fs_sanity_check_node_footer(struct f2fs_sb_info *sbi,
1516					struct folio *folio, pgoff_t nid,
1517					enum node_type ntype, bool in_irq)
1518{
1519	bool is_inode, is_xnode;
1520
1521	if (unlikely(nid != nid_of_node(folio)))
1522		goto out_err;
1523
1524	is_inode = IS_INODE(folio);
1525	is_xnode = f2fs_has_xattr_block(ofs_of_node(folio));
1526
1527	switch (ntype) {
1528	case NODE_TYPE_REGULAR:
1529		if (is_inode && is_xnode)
1530			goto out_err;
1531		break;
1532	case NODE_TYPE_INODE:
1533		if (!is_inode || is_xnode)
1534			goto out_err;
1535		break;
1536	case NODE_TYPE_XATTR:
1537		if (is_inode || !is_xnode)
1538			goto out_err;
1539		break;
1540	case NODE_TYPE_NON_INODE:
1541		if (is_inode)
1542			goto out_err;
1543		break;
1544	default:
1545		break;
1546	}
1547	if (time_to_inject(sbi, FAULT_INCONSISTENT_FOOTER))
1548		goto out_err;
1549	return 0;
1550out_err:
1551	set_sbi_flag(sbi, SBI_NEED_FSCK);
1552	f2fs_warn_ratelimited(sbi, "inconsistent node block, node_type:%d, nid:%lu, "
1553		"node_footer[nid:%u,ino:%u,ofs:%u,cpver:%llu,blkaddr:%u]",
1554		ntype, nid, nid_of_node(folio), ino_of_node(folio),
1555		ofs_of_node(folio), cpver_of_node(folio),
1556		next_blkaddr_of_node(folio));
1557
1558	f2fs_handle_error(sbi, ERROR_INCONSISTENT_FOOTER);
1559	return -EFSCORRUPTED;
1560}
1561
1562static struct folio *__get_node_folio(struct f2fs_sb_info *sbi, pgoff_t nid,
1563		struct folio *parent, int start, enum node_type ntype)
1564{
1565	struct folio *folio;
1566	int err;
1567
1568	if (!nid)
1569		return ERR_PTR(-ENOENT);
1570	if (f2fs_check_nid_range(sbi, nid))
1571		return ERR_PTR(-EINVAL);
1572repeat:
1573	folio = f2fs_grab_cache_folio(NODE_MAPPING(sbi), nid, false);
1574	if (IS_ERR(folio))
1575		return folio;
1576
1577	err = read_node_folio(folio, 0);
1578	if (err < 0)
1579		goto out_put_err;
1580	if (err == LOCKED_PAGE)
1581		goto page_hit;
1582
1583	if (parent)
1584		f2fs_ra_node_pages(parent, start + 1, MAX_RA_NODE);
1585
1586	folio_lock(folio);
1587
1588	if (unlikely(!is_node_folio(folio))) {
1589		f2fs_folio_put(folio, true);
1590		goto repeat;
1591	}
1592
1593	if (unlikely(!folio_test_uptodate(folio))) {
1594		err = -EIO;
1595		goto out_put_err;
1596	}
1597
1598	if (!f2fs_inode_chksum_verify(sbi, folio)) {
1599		err = -EFSBADCRC;
1600		goto out_err;
1601	}
1602page_hit:
1603	err = f2fs_sanity_check_node_footer(sbi, folio, nid, ntype, false);
1604	if (!err)
1605		return folio;
1606out_err:
1607	folio_clear_uptodate(folio);
1608out_put_err:
1609	/* ENOENT comes from read_node_folio which is not an error. */
1610	if (err != -ENOENT)
1611		f2fs_handle_page_eio(sbi, folio, NODE);
1612	f2fs_folio_put(folio, true);
1613	return ERR_PTR(err);
1614}
1615
1616struct folio *f2fs_get_node_folio(struct f2fs_sb_info *sbi, pgoff_t nid,
1617						enum node_type node_type)
1618{
1619	return __get_node_folio(sbi, nid, NULL, 0, node_type);
1620}
1621
1622struct folio *f2fs_get_inode_folio(struct f2fs_sb_info *sbi, pgoff_t ino)
1623{
1624	return __get_node_folio(sbi, ino, NULL, 0, NODE_TYPE_INODE);
1625}
1626
1627struct folio *f2fs_get_xnode_folio(struct f2fs_sb_info *sbi, pgoff_t xnid)
1628{
1629	return __get_node_folio(sbi, xnid, NULL, 0, NODE_TYPE_XATTR);
1630}
1631
1632static struct folio *f2fs_get_node_folio_ra(struct folio *parent, int start)
1633{
1634	struct f2fs_sb_info *sbi = F2FS_F_SB(parent);
1635	nid_t nid = get_nid(parent, start, false);
1636
1637	return __get_node_folio(sbi, nid, parent, start, NODE_TYPE_REGULAR);
1638}
1639
1640static void flush_inline_data(struct f2fs_sb_info *sbi, nid_t ino)
1641{
1642	struct inode *inode;
1643	struct folio *folio;
1644	int ret;
1645
1646	/* should flush inline_data before evict_inode */
1647	inode = ilookup(sbi->sb, ino);
1648	if (!inode)
1649		return;
1650
1651	folio = f2fs_filemap_get_folio(inode->i_mapping, 0,
1652					FGP_LOCK|FGP_NOWAIT, 0);
1653	if (IS_ERR(folio))
1654		goto iput_out;
1655
1656	if (!folio_test_uptodate(folio))
1657		goto folio_out;
1658
1659	if (!folio_test_dirty(folio))
1660		goto folio_out;
1661
1662	if (!folio_clear_dirty_for_io(folio))
1663		goto folio_out;
1664
1665	ret = f2fs_write_inline_data(inode, folio);
1666	inode_dec_dirty_pages(inode);
1667	f2fs_remove_dirty_inode(inode);
1668	if (ret)
1669		folio_mark_dirty(folio);
1670folio_out:
1671	f2fs_folio_put(folio, true);
1672iput_out:
1673	iput(inode);
1674}
1675
1676static struct folio *last_fsync_dnode(struct f2fs_sb_info *sbi, nid_t ino)
1677{
1678	pgoff_t index;
1679	struct folio_batch fbatch;
1680	struct folio *last_folio = NULL;
1681	int nr_folios;
1682
1683	folio_batch_init(&fbatch);
1684	index = 0;
1685
1686	while ((nr_folios = filemap_get_folios_tag(NODE_MAPPING(sbi), &index,
1687					(pgoff_t)-1, PAGECACHE_TAG_DIRTY,
1688					&fbatch))) {
1689		int i;
1690
1691		for (i = 0; i < nr_folios; i++) {
1692			struct folio *folio = fbatch.folios[i];
1693
1694			if (unlikely(f2fs_cp_error(sbi))) {
1695				f2fs_folio_put(last_folio, false);
1696				folio_batch_release(&fbatch);
1697				return ERR_PTR(-EIO);
1698			}
1699
1700			if (!IS_DNODE(folio) || !is_cold_node(folio))
1701				continue;
1702			if (ino_of_node(folio) != ino)
1703				continue;
1704
1705			folio_lock(folio);
1706
1707			if (unlikely(!is_node_folio(folio))) {
1708continue_unlock:
1709				folio_unlock(folio);
1710				continue;
1711			}
1712			if (ino_of_node(folio) != ino)
1713				goto continue_unlock;
1714
1715			if (!folio_test_dirty(folio)) {
1716				/* someone wrote it for us */
1717				goto continue_unlock;
1718			}
1719
1720			if (last_folio)
1721				f2fs_folio_put(last_folio, false);
1722
1723			folio_get(folio);
1724			last_folio = folio;
1725			folio_unlock(folio);
1726		}
1727		folio_batch_release(&fbatch);
1728		cond_resched();
1729	}
1730	return last_folio;
1731}
1732
1733static bool __write_node_folio(struct folio *folio, bool atomic, bool do_fsync,
1734				bool *submitted, struct writeback_control *wbc,
1735				bool do_balance, enum iostat_type io_type,
1736				unsigned int *seq_id)
1737{
1738	struct f2fs_sb_info *sbi = F2FS_F_SB(folio);
1739	nid_t nid;
1740	struct node_info ni;
1741	struct f2fs_io_info fio = {
1742		.sbi = sbi,
1743		.ino = ino_of_node(folio),
1744		.type = NODE,
1745		.op = REQ_OP_WRITE,
1746		.op_flags = wbc_to_write_flags(wbc),
1747		.folio = folio,
1748		.encrypted_page = NULL,
1749		.submitted = 0,
1750		.io_type = io_type,
1751		.io_wbc = wbc,
1752	};
1753	struct f2fs_lock_context lc;
1754	unsigned int seq;
1755
1756	trace_f2fs_writepage(folio, NODE);
1757
1758	if (unlikely(f2fs_cp_error(sbi))) {
1759		/* keep node pages in remount-ro mode */
1760		if (F2FS_OPTION(sbi).errors == MOUNT_ERRORS_READONLY)
1761			goto redirty_out;
1762		folio_clear_uptodate(folio);
1763		dec_page_count(sbi, F2FS_DIRTY_NODES);
1764		folio_unlock(folio);
1765		return true;
1766	}
1767
1768	if (unlikely(is_sbi_flag_set(sbi, SBI_POR_DOING)))
1769		goto redirty_out;
1770
1771	if (!is_sbi_flag_set(sbi, SBI_CP_DISABLED) &&
1772			wbc->sync_mode == WB_SYNC_NONE &&
1773			IS_DNODE(folio) && is_cold_node(folio))
1774		goto redirty_out;
1775
1776	/* get old block addr of this node page */
1777	nid = nid_of_node(folio);
1778
1779	if (f2fs_sanity_check_node_footer(sbi, folio, nid,
1780					NODE_TYPE_REGULAR, false)) {
1781		f2fs_stop_checkpoint(sbi, false, STOP_CP_REASON_CORRUPTED_NID);
1782		goto redirty_out;
1783	}
1784
1785	if (f2fs_get_node_info(sbi, nid, &ni, !do_balance))
1786		goto redirty_out;
1787
1788	f2fs_down_read_trace(&sbi->node_write, &lc);
1789
1790	/* This page is already truncated */
1791	if (unlikely(ni.blk_addr == NULL_ADDR)) {
1792		folio_clear_uptodate(folio);
1793		dec_page_count(sbi, F2FS_DIRTY_NODES);
1794		f2fs_up_read_trace(&sbi->node_write, &lc);
1795		folio_unlock(folio);
1796		return true;
1797	}
1798
1799	if (__is_valid_data_blkaddr(ni.blk_addr) &&
1800		!f2fs_is_valid_blkaddr(sbi, ni.blk_addr,
1801					DATA_GENERIC_ENHANCE)) {
1802		f2fs_up_read_trace(&sbi->node_write, &lc);
1803		goto redirty_out;
1804	}
1805
1806	if (atomic && !test_opt(sbi, NOBARRIER))
1807		fio.op_flags |= REQ_PREFLUSH | REQ_FUA;
1808
1809	set_dentry_mark(folio, false);
1810	set_fsync_mark(folio, do_fsync);
1811	if (IS_INODE(folio) && (atomic || is_fsync_dnode(folio)))
1812		set_dentry_mark(folio,
1813				f2fs_need_dentry_mark(sbi, ino_of_node(folio)));
1814
1815	/* should add to global list before clearing PAGECACHE status */
1816	if (f2fs_in_warm_node_list(folio)) {
1817		seq = f2fs_add_fsync_node_entry(sbi, folio);
1818		if (seq_id)
1819			*seq_id = seq;
1820	}
1821
1822	folio_start_writeback(folio);
1823
1824	fio.old_blkaddr = ni.blk_addr;
1825	f2fs_do_write_node_page(nid, &fio);
1826	set_node_addr(sbi, &ni, fio.new_blkaddr, is_fsync_dnode(folio));
1827	dec_page_count(sbi, F2FS_DIRTY_NODES);
1828	f2fs_up_read_trace(&sbi->node_write, &lc);
1829
1830	folio_unlock(folio);
1831
1832	if (unlikely(f2fs_cp_error(sbi))) {
1833		f2fs_submit_merged_write(sbi, NODE);
1834		submitted = NULL;
1835	}
1836	if (submitted)
1837		*submitted = fio.submitted;
1838
1839	if (do_balance)
1840		f2fs_balance_fs(sbi, false);
1841	return true;
1842
1843redirty_out:
1844	folio_redirty_for_writepage(wbc, folio);
1845	folio_unlock(folio);
1846	return false;
1847}
1848
1849int f2fs_write_single_node_folio(struct folio *node_folio, int sync_mode,
1850			bool mark_dirty, enum iostat_type io_type)
1851{
1852	int err = 0;
1853	struct writeback_control wbc = {
1854		.sync_mode = WB_SYNC_ALL,
1855		.nr_to_write = 1,
1856	};
1857
1858	if (!sync_mode) {
1859		/* set page dirty and write it */
1860		if (!folio_test_writeback(node_folio))
1861			folio_mark_dirty(node_folio);
1862		goto out_folio;
1863	}
1864
1865	f2fs_folio_wait_writeback(node_folio, NODE, true, true);
1866
1867	if (mark_dirty)
1868		folio_mark_dirty(node_folio);
1869	else if (!folio_test_dirty(node_folio))
1870		goto out_folio;
1871
1872	if (!folio_clear_dirty_for_io(node_folio)) {
1873		err = -EAGAIN;
1874		goto out_folio;
1875	}
1876
1877	if (!__write_node_folio(node_folio, false, false, NULL,
1878				&wbc, false, FS_GC_NODE_IO, NULL))
1879		err = -EAGAIN;
1880	goto release_folio;
1881out_folio:
1882	folio_unlock(node_folio);
1883release_folio:
1884	f2fs_folio_put(node_folio, false);
1885	return err;
1886}
1887
1888int f2fs_move_node_folio(struct folio *node_folio, int gc_type)
1889{
1890	return f2fs_write_single_node_folio(node_folio, gc_type == FG_GC,
1891			true, FS_GC_NODE_IO);
1892}
1893
1894int f2fs_fsync_node_pages(struct f2fs_sb_info *sbi, struct inode *inode,
1895			struct writeback_control *wbc, bool atomic,
1896			unsigned int *seq_id)
1897{
1898	pgoff_t index;
1899	struct folio_batch fbatch;
1900	int ret = 0;
1901	struct folio *last_folio = NULL;
1902	bool marked = false;
1903	nid_t ino = inode->i_ino;
1904	int nr_folios;
1905	int nwritten = 0;
1906
1907	if (atomic) {
1908		last_folio = last_fsync_dnode(sbi, ino);
1909		if (IS_ERR_OR_NULL(last_folio))
1910			return PTR_ERR_OR_ZERO(last_folio);
1911	}
1912retry:
1913	folio_batch_init(&fbatch);
1914	index = 0;
1915
1916	while ((nr_folios = filemap_get_folios_tag(NODE_MAPPING(sbi), &index,
1917					(pgoff_t)-1, PAGECACHE_TAG_DIRTY,
1918					&fbatch))) {
1919		int i;
1920
1921		for (i = 0; i < nr_folios; i++) {
1922			struct folio *folio = fbatch.folios[i];
1923			bool submitted = false;
1924			bool do_fsync = false;
1925
1926			if (unlikely(f2fs_cp_error(sbi))) {
1927				f2fs_folio_put(last_folio, false);
1928				folio_batch_release(&fbatch);
1929				ret = -EIO;
1930				goto out;
1931			}
1932
1933			if (!IS_DNODE(folio) || !is_cold_node(folio))
1934				continue;
1935			if (ino_of_node(folio) != ino)
1936				continue;
1937
1938			folio_lock(folio);
1939
1940			if (unlikely(!is_node_folio(folio))) {
1941continue_unlock:
1942				folio_unlock(folio);
1943				continue;
1944			}
1945			if (ino_of_node(folio) != ino)
1946				goto continue_unlock;
1947
1948			if (!folio_test_dirty(folio) && folio != last_folio) {
1949				/* someone wrote it for us */
1950				goto continue_unlock;
1951			}
1952
1953			f2fs_folio_wait_writeback(folio, NODE, true, true);
1954
1955			if (!atomic || folio == last_folio) {
1956				do_fsync = true;
1957				percpu_counter_inc(&sbi->rf_node_block_count);
1958				if (IS_INODE(folio)) {
1959					if (is_inode_flag_set(inode,
1960								FI_DIRTY_INODE))
1961						f2fs_update_inode(inode, folio);
1962				}
1963				/* may be written by other thread */
1964				if (!folio_test_dirty(folio))
1965					folio_mark_dirty(folio);
1966			}
1967
1968			if (!folio_clear_dirty_for_io(folio))
1969				goto continue_unlock;
1970
1971			if (!__write_node_folio(folio, atomic &&
1972						folio == last_folio,
1973						do_fsync, &submitted,
1974						wbc, true, FS_NODE_IO,
1975						seq_id)) {
1976				f2fs_folio_put(last_folio, false);
1977				folio_batch_release(&fbatch);
1978				ret = -EIO;
1979				goto out;
1980			}
1981			if (submitted)
1982				nwritten++;
1983
1984			if (folio == last_folio) {
1985				f2fs_folio_put(folio, false);
1986				folio_batch_release(&fbatch);
1987				marked = true;
1988				goto out;
1989			}
1990		}
1991		folio_batch_release(&fbatch);
1992		cond_resched();
1993	}
1994	if (atomic && !marked) {
1995		f2fs_debug(sbi, "Retry to write fsync mark: ino=%u, idx=%lx",
1996			   ino, last_folio->index);
1997		folio_lock(last_folio);
1998		f2fs_folio_wait_writeback(last_folio, NODE, true, true);
1999		folio_mark_dirty(last_folio);
2000		folio_unlock(last_folio);
2001		goto retry;
2002	}
2003out:
2004	if (nwritten)
2005		f2fs_submit_merged_write_cond(sbi, NULL, NULL, ino, NODE);
2006	return ret;
2007}
2008
2009static int f2fs_match_ino(struct inode *inode, u64 ino, void *data)
2010{
2011	struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
2012	bool clean;
2013
2014	if (inode->i_ino != ino)
2015		return 0;
2016
2017	if (!is_inode_flag_set(inode, FI_DIRTY_INODE))
2018		return 0;
2019
2020	spin_lock(&sbi->inode_lock[DIRTY_META]);
2021	clean = list_empty(&F2FS_I(inode)->gdirty_list);
2022	spin_unlock(&sbi->inode_lock[DIRTY_META]);
2023
2024	if (clean)
2025		return 0;
2026
2027	inode = igrab(inode);
2028	if (!inode)
2029		return 0;
2030	return 1;
2031}
2032
2033static bool flush_dirty_inode(struct folio *folio)
2034{
2035	struct f2fs_sb_info *sbi = F2FS_F_SB(folio);
2036	struct inode *inode;
2037	nid_t ino = ino_of_node(folio);
2038
2039	inode = find_inode_nowait(sbi->sb, ino, f2fs_match_ino, NULL);
2040	if (!inode)
2041		return false;
2042
2043	f2fs_update_inode(inode, folio);
2044	folio_unlock(folio);
2045
2046	iput(inode);
2047	return true;
2048}
2049
2050void f2fs_flush_inline_data(struct f2fs_sb_info *sbi)
2051{
2052	pgoff_t index = 0;
2053	struct folio_batch fbatch;
2054	int nr_folios;
2055
2056	folio_batch_init(&fbatch);
2057
2058	while ((nr_folios = filemap_get_folios_tag(NODE_MAPPING(sbi), &index,
2059					(pgoff_t)-1, PAGECACHE_TAG_DIRTY,
2060					&fbatch))) {
2061		int i;
2062
2063		for (i = 0; i < nr_folios; i++) {
2064			struct folio *folio = fbatch.folios[i];
2065
2066			if (!IS_INODE(folio))
2067				continue;
2068
2069			folio_lock(folio);
2070
2071			if (unlikely(!is_node_folio(folio)))
2072				goto unlock;
2073			if (!folio_test_dirty(folio))
2074				goto unlock;
2075
2076			/* flush inline_data, if it's async context. */
2077			if (folio_test_f2fs_inline(folio)) {
2078				folio_clear_f2fs_inline(folio);
2079				folio_unlock(folio);
2080				flush_inline_data(sbi, ino_of_node(folio));
2081				continue;
2082			}
2083unlock:
2084			folio_unlock(folio);
2085		}
2086		folio_batch_release(&fbatch);
2087		cond_resched();
2088	}
2089}
2090
2091int f2fs_sync_node_pages(struct f2fs_sb_info *sbi,
2092				struct writeback_control *wbc,
2093				bool do_balance, enum iostat_type io_type)
2094{
2095	pgoff_t index;
2096	struct folio_batch fbatch;
2097	int step = 0;
2098	int nwritten = 0;
2099	int ret = 0;
2100	int nr_folios, done = 0;
2101
2102	folio_batch_init(&fbatch);
2103
2104next_step:
2105	index = 0;
2106
2107	while (!done && (nr_folios = filemap_get_folios_tag(NODE_MAPPING(sbi),
2108				&index, (pgoff_t)-1, PAGECACHE_TAG_DIRTY,
2109				&fbatch))) {
2110		int i;
2111
2112		for (i = 0; i < nr_folios; i++) {
2113			struct folio *folio = fbatch.folios[i];
2114			bool submitted = false;
2115
2116			/* give a priority to WB_SYNC threads */
2117			if (atomic_read(&sbi->wb_sync_req[NODE]) &&
2118					wbc->sync_mode == WB_SYNC_NONE) {
2119				done = 1;
2120				break;
2121			}
2122
2123			/*
2124			 * flushing sequence with step:
2125			 * 0. indirect nodes
2126			 * 1. dentry dnodes
2127			 * 2. file dnodes
2128			 */
2129			if (step == 0 && IS_DNODE(folio))
2130				continue;
2131			if (step == 1 && (!IS_DNODE(folio) ||
2132						is_cold_node(folio)))
2133				continue;
2134			if (step == 2 && (!IS_DNODE(folio) ||
2135						!is_cold_node(folio)))
2136				continue;
2137lock_node:
2138			if (wbc->sync_mode == WB_SYNC_ALL)
2139				folio_lock(folio);
2140			else if (!folio_trylock(folio))
2141				continue;
2142
2143			if (unlikely(!is_node_folio(folio))) {
2144continue_unlock:
2145				folio_unlock(folio);
2146				continue;
2147			}
2148
2149			if (!folio_test_dirty(folio)) {
2150				/* someone wrote it for us */
2151				goto continue_unlock;
2152			}
2153
2154			/* flush inline_data/inode, if it's async context. */
2155			if (!do_balance)
2156				goto write_node;
2157
2158			/* flush inline_data */
2159			if (folio_test_f2fs_inline(folio)) {
2160				folio_clear_f2fs_inline(folio);
2161				folio_unlock(folio);
2162				flush_inline_data(sbi, ino_of_node(folio));
2163				goto lock_node;
2164			}
2165
2166			/* flush dirty inode */
2167			if (IS_INODE(folio) && flush_dirty_inode(folio))
2168				goto lock_node;
2169write_node:
2170			f2fs_folio_wait_writeback(folio, NODE, true, true);
2171
2172			if (!folio_clear_dirty_for_io(folio))
2173				goto continue_unlock;
2174
2175			if (!__write_node_folio(folio, false, false, &submitted,
2176					wbc, do_balance, io_type, NULL)) {
2177				folio_batch_release(&fbatch);
2178				ret = -EIO;
2179				goto out;
2180			}
2181			if (submitted)
2182				nwritten++;
2183
2184			if (--wbc->nr_to_write == 0)
2185				break;
2186		}
2187		folio_batch_release(&fbatch);
2188		cond_resched();
2189
2190		if (wbc->nr_to_write == 0) {
2191			step = 2;
2192			break;
2193		}
2194	}
2195
2196	if (step < 2) {
2197		if (!is_sbi_flag_set(sbi, SBI_CP_DISABLED) &&
2198				wbc->sync_mode == WB_SYNC_NONE && step == 1)
2199			goto out;
2200		step++;
2201		goto next_step;
2202	}
2203out:
2204	if (nwritten)
2205		f2fs_submit_merged_write(sbi, NODE);
2206
2207	if (unlikely(f2fs_cp_error(sbi)))
2208		return -EIO;
2209	return ret;
2210}
2211
2212int f2fs_wait_on_node_pages_writeback(struct f2fs_sb_info *sbi,
2213						unsigned int seq_id)
2214{
2215	struct fsync_node_entry *fn;
2216	struct list_head *head = &sbi->fsync_node_list;
2217	unsigned long flags;
2218	unsigned int cur_seq_id = 0;
2219
2220	while (seq_id && cur_seq_id < seq_id) {
2221		struct folio *folio;
2222
2223		spin_lock_irqsave(&sbi->fsync_node_lock, flags);
2224		if (list_empty(head)) {
2225			spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
2226			break;
2227		}
2228		fn = list_first_entry(head, struct fsync_node_entry, list);
2229		if (fn->seq_id > seq_id) {
2230			spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
2231			break;
2232		}
2233		cur_seq_id = fn->seq_id;
2234		folio = fn->folio;
2235		folio_get(folio);
2236		spin_unlock_irqrestore(&sbi->fsync_node_lock, flags);
2237
2238		f2fs_folio_wait_writeback(folio, NODE, true, false);
2239
2240		folio_put(folio);
2241	}
2242
2243	return filemap_check_errors(NODE_MAPPING(sbi));
2244}
2245
2246static int f2fs_write_node_pages(struct address_space *mapping,
2247			    struct writeback_control *wbc)
2248{
2249	struct f2fs_sb_info *sbi = F2FS_M_SB(mapping);
2250	struct blk_plug plug;
2251	long diff;
2252
2253	if (unlikely(is_sbi_flag_set(sbi, SBI_POR_DOING)))
2254		goto skip_write;
2255
2256	/* balancing f2fs's metadata in background */
2257	f2fs_balance_fs_bg(sbi, true);
2258
2259	/* collect a number of dirty node pages and write together */
2260	if (wbc->sync_mode != WB_SYNC_ALL &&
2261			get_pages(sbi, F2FS_DIRTY_NODES) <
2262					nr_pages_to_skip(sbi, NODE))
2263		goto skip_write;
2264
2265	if (wbc->sync_mode == WB_SYNC_ALL)
2266		atomic_inc(&sbi->wb_sync_req[NODE]);
2267	else if (atomic_read(&sbi->wb_sync_req[NODE])) {
2268		/* to avoid potential deadlock */
2269		if (current->plug)
2270			blk_finish_plug(current->plug);
2271		goto skip_write;
2272	}
2273
2274	trace_f2fs_writepages(mapping->host, wbc, NODE);
2275
2276	diff = nr_pages_to_write(sbi, NODE, wbc);
2277	blk_start_plug(&plug);
2278	f2fs_sync_node_pages(sbi, wbc, true, FS_NODE_IO);
2279	blk_finish_plug(&plug);
2280	wbc->nr_to_write = max((long)0, wbc->nr_to_write - diff);
2281
2282	if (wbc->sync_mode == WB_SYNC_ALL)
2283		atomic_dec(&sbi->wb_sync_req[NODE]);
2284	return 0;
2285
2286skip_write:
2287	wbc->pages_skipped += get_pages(sbi, F2FS_DIRTY_NODES);
2288	trace_f2fs_writepages(mapping->host, wbc, NODE);
2289	return 0;
2290}
2291
2292static bool f2fs_dirty_node_folio(struct address_space *mapping,
2293		struct folio *folio)
2294{
2295	trace_f2fs_set_page_dirty(folio, NODE);
2296
2297	if (!folio_test_uptodate(folio))
2298		folio_mark_uptodate(folio);
2299#ifdef CONFIG_F2FS_CHECK_FS
2300	if (IS_INODE(folio))
2301		f2fs_inode_chksum_set(F2FS_M_SB(mapping), folio);
2302#endif
2303	if (filemap_dirty_folio(mapping, folio)) {
2304		inc_page_count(F2FS_M_SB(mapping), F2FS_DIRTY_NODES);
2305		folio_set_f2fs_reference(folio);
2306		return true;
2307	}
2308	return false;
2309}
2310
2311/*
2312 * Structure of the f2fs node operations
2313 */
2314const struct address_space_operations f2fs_node_aops = {
2315	.writepages	= f2fs_write_node_pages,
2316	.dirty_folio	= f2fs_dirty_node_folio,
2317	.invalidate_folio = f2fs_invalidate_folio,
2318	.release_folio	= f2fs_release_folio,
2319	.migrate_folio	= filemap_migrate_folio,
2320};
2321
2322static struct free_nid *__lookup_free_nid_list(struct f2fs_nm_info *nm_i,
2323						nid_t n)
2324{
2325	return radix_tree_lookup(&nm_i->free_nid_root, n);
2326}
2327
2328static int __insert_free_nid(struct f2fs_sb_info *sbi,
2329				struct free_nid *i)
2330{
2331	struct f2fs_nm_info *nm_i = NM_I(sbi);
2332	int err = radix_tree_insert(&nm_i->free_nid_root, i->nid, i);
2333
2334	if (err)
2335		return err;
2336
2337	nm_i->nid_cnt[FREE_NID]++;
2338	list_add_tail(&i->list, &nm_i->free_nid_list);
2339	return 0;
2340}
2341
2342static void __remove_free_nid(struct f2fs_sb_info *sbi,
2343			struct free_nid *i, enum nid_state state)
2344{
2345	struct f2fs_nm_info *nm_i = NM_I(sbi);
2346
2347	f2fs_bug_on(sbi, state != i->state);
2348	nm_i->nid_cnt[state]--;
2349	if (state == FREE_NID)
2350		list_del(&i->list);
2351	radix_tree_delete(&nm_i->free_nid_root, i->nid);
2352}
2353
2354static void __move_free_nid(struct f2fs_sb_info *sbi, struct free_nid *i,
2355			enum nid_state org_state, enum nid_state dst_state)
2356{
2357	struct f2fs_nm_info *nm_i = NM_I(sbi);
2358
2359	f2fs_bug_on(sbi, org_state != i->state);
2360	i->state = dst_state;
2361	nm_i->nid_cnt[org_state]--;
2362	nm_i->nid_cnt[dst_state]++;
2363
2364	switch (dst_state) {
2365	case PREALLOC_NID:
2366		list_del(&i->list);
2367		break;
2368	case FREE_NID:
2369		list_add_tail(&i->list, &nm_i->free_nid_list);
2370		break;
2371	default:
2372		BUG_ON(1);
2373	}
2374}
2375
2376static void update_free_nid_bitmap(struct f2fs_sb_info *sbi, nid_t nid,
2377							bool set, bool build)
2378{
2379	struct f2fs_nm_info *nm_i = NM_I(sbi);
2380	unsigned int nat_ofs = NAT_BLOCK_OFFSET(nid);
2381	unsigned int nid_ofs = nid - START_NID(nid);
2382
2383	if (!test_bit_le(nat_ofs, nm_i->nat_block_bitmap))
2384		return;
2385
2386	if (set) {
2387		if (test_bit_le(nid_ofs, nm_i->free_nid_bitmap[nat_ofs]))
2388			return;
2389		__set_bit_le(nid_ofs, nm_i->free_nid_bitmap[nat_ofs]);
2390		nm_i->free_nid_count[nat_ofs]++;
2391	} else {
2392		if (!test_bit_le(nid_ofs, nm_i->free_nid_bitmap[nat_ofs]))
2393			return;
2394		__clear_bit_le(nid_ofs, nm_i->free_nid_bitmap[nat_ofs]);
2395		if (!build)
2396			nm_i->free_nid_count[nat_ofs]--;
2397	}
2398}
2399
2400/* return if the nid is recognized as free */
2401static bool add_free_nid(struct f2fs_sb_info *sbi,
2402				nid_t nid, bool build, bool update)
2403{
2404	struct f2fs_nm_info *nm_i = NM_I(sbi);
2405	struct free_nid *i, *e;
2406	struct nat_entry *ne;
2407	int err;
2408	bool ret = false;
2409
2410	/* 0 nid should not be used */
2411	if (unlikely(nid == 0))
2412		return false;
2413
2414	if (unlikely(f2fs_check_nid_range(sbi, nid)))
2415		return false;
2416
2417	i = f2fs_kmem_cache_alloc(free_nid_slab, GFP_NOFS, true, NULL);
2418	i->nid = nid;
2419	i->state = FREE_NID;
2420
2421	err = radix_tree_preload(GFP_NOFS | __GFP_NOFAIL);
2422	f2fs_bug_on(sbi, err);
2423
2424	err = -EINVAL;
2425
2426	spin_lock(&nm_i->nid_list_lock);
2427
2428	if (build) {
2429		/*
2430		 *   Thread A             Thread B
2431		 *  - f2fs_create
2432		 *   - f2fs_new_inode
2433		 *    - f2fs_alloc_nid
2434		 *     - __insert_nid_to_list(PREALLOC_NID)
2435		 *                     - f2fs_balance_fs_bg
2436		 *                      - f2fs_build_free_nids
2437		 *                       - __f2fs_build_free_nids
2438		 *                        - scan_nat_page
2439		 *                         - add_free_nid
2440		 *                          - __lookup_nat_cache
2441		 *  - f2fs_add_link
2442		 *   - f2fs_init_inode_metadata
2443		 *    - f2fs_new_inode_folio
2444		 *     - f2fs_new_node_folio
2445		 *      - set_node_addr
2446		 *  - f2fs_alloc_nid_done
2447		 *   - __remove_nid_from_list(PREALLOC_NID)
2448		 *                         - __insert_nid_to_list(FREE_NID)
2449		 */
2450		ne = __lookup_nat_cache(nm_i, nid, false);
2451		if (ne && (!get_nat_flag(ne, IS_CHECKPOINTED) ||
2452				nat_get_blkaddr(ne) != NULL_ADDR))
2453			goto err_out;
2454
2455		e = __lookup_free_nid_list(nm_i, nid);
2456		if (e) {
2457			if (e->state == FREE_NID)
2458				ret = true;
2459			goto err_out;
2460		}
2461	}
2462	ret = true;
2463	err = __insert_free_nid(sbi, i);
2464err_out:
2465	if (update) {
2466		update_free_nid_bitmap(sbi, nid, ret, build);
2467		if (!build)
2468			nm_i->available_nids++;
2469	}
2470	spin_unlock(&nm_i->nid_list_lock);
2471	radix_tree_preload_end();
2472
2473	if (err)
2474		kmem_cache_free(free_nid_slab, i);
2475	return ret;
2476}
2477
2478static void remove_free_nid(struct f2fs_sb_info *sbi, nid_t nid)
2479{
2480	struct f2fs_nm_info *nm_i = NM_I(sbi);
2481	struct free_nid *i;
2482	bool need_free = false;
2483
2484	spin_lock(&nm_i->nid_list_lock);
2485	i = __lookup_free_nid_list(nm_i, nid);
2486	if (i && i->state == FREE_NID) {
2487		__remove_free_nid(sbi, i, FREE_NID);
2488		need_free = true;
2489	}
2490	spin_unlock(&nm_i->nid_list_lock);
2491
2492	if (need_free)
2493		kmem_cache_free(free_nid_slab, i);
2494}
2495
2496static int scan_nat_page(struct f2fs_sb_info *sbi,
2497			struct f2fs_nat_block *nat_blk, nid_t start_nid)
2498{
2499	struct f2fs_nm_info *nm_i = NM_I(sbi);
2500	block_t blk_addr;
2501	unsigned int nat_ofs = NAT_BLOCK_OFFSET(start_nid);
2502	int i;
2503
2504	__set_bit_le(nat_ofs, nm_i->nat_block_bitmap);
2505
2506	i = start_nid % NAT_ENTRY_PER_BLOCK;
2507
2508	for (; i < NAT_ENTRY_PER_BLOCK; i++, start_nid++) {
2509		if (unlikely(start_nid >= nm_i->max_nid))
2510			break;
2511
2512		blk_addr = le32_to_cpu(nat_blk->entries[i].block_addr);
2513
2514		if (blk_addr == NEW_ADDR)
2515			return -EFSCORRUPTED;
2516
2517		if (blk_addr == NULL_ADDR) {
2518			add_free_nid(sbi, start_nid, true, true);
2519		} else {
2520			spin_lock(&NM_I(sbi)->nid_list_lock);
2521			update_free_nid_bitmap(sbi, start_nid, false, true);
2522			spin_unlock(&NM_I(sbi)->nid_list_lock);
2523		}
2524	}
2525
2526	return 0;
2527}
2528
2529static void scan_curseg_cache(struct f2fs_sb_info *sbi)
2530{
2531	struct curseg_info *curseg = CURSEG_I(sbi, CURSEG_HOT_DATA);
2532	struct f2fs_journal *journal = curseg->journal;
2533	int i;
2534
2535	down_read(&curseg->journal_rwsem);
2536	for (i = 0; i < nats_in_cursum(journal); i++) {
2537		block_t addr;
2538		nid_t nid;
2539
2540		addr = le32_to_cpu(nat_in_journal(journal, i).block_addr);
2541		nid = le32_to_cpu(nid_in_journal(journal, i));
2542		if (addr == NULL_ADDR)
2543			add_free_nid(sbi, nid, true, false);
2544		else
2545			remove_free_nid(sbi, nid);
2546	}
2547	up_read(&curseg->journal_rwsem);
2548}
2549
2550static void scan_free_nid_bits(struct f2fs_sb_info *sbi)
2551{
2552	struct f2fs_nm_info *nm_i = NM_I(sbi);
2553	unsigned int i, idx;
2554	nid_t nid;
2555
2556	f2fs_down_read(&nm_i->nat_tree_lock);
2557
2558	for (i = 0; i < nm_i->nat_blocks; i++) {
2559		if (!test_bit_le(i, nm_i->nat_block_bitmap))
2560			continue;
2561		if (!nm_i->free_nid_count[i])
2562			continue;
2563		for (idx = 0; idx < NAT_ENTRY_PER_BLOCK; idx++) {
2564			idx = find_next_bit_le(nm_i->free_nid_bitmap[i],
2565						NAT_ENTRY_PER_BLOCK, idx);
2566			if (idx >= NAT_ENTRY_PER_BLOCK)
2567				break;
2568
2569			nid = i * NAT_ENTRY_PER_BLOCK + idx;
2570			add_free_nid(sbi, nid, true, false);
2571
2572			if (nm_i->nid_cnt[FREE_NID] >= MAX_FREE_NIDS)
2573				goto out;
2574		}
2575	}
2576out:
2577	scan_curseg_cache(sbi);
2578
2579	f2fs_up_read(&nm_i->nat_tree_lock);
2580}
2581
2582static int __f2fs_build_free_nids(struct f2fs_sb_info *sbi,
2583						bool sync, bool mount)
2584{
2585	struct f2fs_nm_info *nm_i = NM_I(sbi);
2586	int i = 0, ret;
2587	nid_t nid = nm_i->next_scan_nid;
2588
2589	if (unlikely(nid >= nm_i->max_nid))
2590		nid = 0;
2591
2592	if (unlikely(nid % NAT_ENTRY_PER_BLOCK))
2593		nid = NAT_BLOCK_OFFSET(nid) * NAT_ENTRY_PER_BLOCK;
2594
2595	/* Enough entries */
2596	if (nm_i->nid_cnt[FREE_NID] >= NAT_ENTRY_PER_BLOCK)
2597		return 0;
2598
2599	if (!sync && !f2fs_available_free_memory(sbi, FREE_NIDS))
2600		return 0;
2601
2602	if (!mount) {
2603		/* try to find free nids in free_nid_bitmap */
2604		scan_free_nid_bits(sbi);
2605
2606		if (nm_i->nid_cnt[FREE_NID] >= NAT_ENTRY_PER_BLOCK)
2607			return 0;
2608	}
2609
2610	/* readahead nat pages to be scanned */
2611	f2fs_ra_meta_pages(sbi, NAT_BLOCK_OFFSET(nid), FREE_NID_PAGES,
2612							META_NAT, true);
2613
2614	f2fs_down_read(&nm_i->nat_tree_lock);
2615
2616	while (1) {
2617		if (!test_bit_le(NAT_BLOCK_OFFSET(nid),
2618						nm_i->nat_block_bitmap)) {
2619			struct folio *folio = get_current_nat_folio(sbi, nid);
2620
2621			if (IS_ERR(folio)) {
2622				ret = PTR_ERR(folio);
2623			} else {
2624				ret = scan_nat_page(sbi, folio_address(folio),
2625						nid);
2626				f2fs_folio_put(folio, true);
2627			}
2628
2629			if (ret) {
2630				f2fs_up_read(&nm_i->nat_tree_lock);
2631
2632				if (ret == -EFSCORRUPTED) {
2633					f2fs_err(sbi, "NAT is corrupt, run fsck to fix it");
2634					set_sbi_flag(sbi, SBI_NEED_FSCK);
2635					f2fs_handle_error(sbi,
2636						ERROR_INCONSISTENT_NAT);
2637				}
2638
2639				return ret;
2640			}
2641		}
2642
2643		nid += (NAT_ENTRY_PER_BLOCK - (nid % NAT_ENTRY_PER_BLOCK));
2644		if (unlikely(nid >= nm_i->max_nid))
2645			nid = 0;
2646
2647		if (++i >= FREE_NID_PAGES)
2648			break;
2649	}
2650
2651	/* go to the next free nat pages to find free nids abundantly */
2652	nm_i->next_scan_nid = nid;
2653
2654	/* find free nids from current sum_pages */
2655	scan_curseg_cache(sbi);
2656
2657	f2fs_up_read(&nm_i->nat_tree_lock);
2658
2659	f2fs_ra_meta_pages(sbi, NAT_BLOCK_OFFSET(nm_i->next_scan_nid),
2660					nm_i->ra_nid_pages, META_NAT, false);
2661
2662	return 0;
2663}
2664
2665int f2fs_build_free_nids(struct f2fs_sb_info *sbi, bool sync, bool mount)
2666{
2667	int ret;
2668
2669	mutex_lock(&NM_I(sbi)->build_lock);
2670	ret = __f2fs_build_free_nids(sbi, sync, mount);
2671	mutex_unlock(&NM_I(sbi)->build_lock);
2672
2673	return ret;
2674}
2675
2676/*
2677 * If this function returns success, caller can obtain a new nid
2678 * from second parameter of this function.
2679 * The returned nid could be used ino as well as nid when inode is created.
2680 */
2681bool f2fs_alloc_nid(struct f2fs_sb_info *sbi, nid_t *nid)
2682{
2683	struct f2fs_nm_info *nm_i = NM_I(sbi);
2684	struct free_nid *i = NULL;
2685retry:
2686	if (time_to_inject(sbi, FAULT_ALLOC_NID))
2687		return false;
2688
2689	spin_lock(&nm_i->nid_list_lock);
2690
2691	if (unlikely(nm_i->available_nids == 0)) {
2692		spin_unlock(&nm_i->nid_list_lock);
2693		return false;
2694	}
2695
2696	/* We should not use stale free nids created by f2fs_build_free_nids */
2697	if (nm_i->nid_cnt[FREE_NID] && !on_f2fs_build_free_nids(nm_i)) {
2698		f2fs_bug_on(sbi, list_empty(&nm_i->free_nid_list));
2699		i = list_first_entry(&nm_i->free_nid_list,
2700					struct free_nid, list);
2701
2702		if (unlikely(is_invalid_nid(sbi, i->nid))) {
2703			spin_unlock(&nm_i->nid_list_lock);
2704			f2fs_err(sbi, "Corrupted nid %u in free_nid_list",
2705								i->nid);
2706			f2fs_stop_checkpoint(sbi, false,
2707					STOP_CP_REASON_CORRUPTED_NID);
2708			return false;
2709		}
2710
2711		*nid = i->nid;
2712
2713		__move_free_nid(sbi, i, FREE_NID, PREALLOC_NID);
2714		nm_i->available_nids--;
2715
2716		update_free_nid_bitmap(sbi, *nid, false, false);
2717
2718		spin_unlock(&nm_i->nid_list_lock);
2719		return true;
2720	}
2721	spin_unlock(&nm_i->nid_list_lock);
2722
2723	/* Let's scan nat pages and its caches to get free nids */
2724	if (!f2fs_build_free_nids(sbi, true, false))
2725		goto retry;
2726	return false;
2727}
2728
2729/*
2730 * f2fs_alloc_nid() should be called prior to this function.
2731 */
2732void f2fs_alloc_nid_done(struct f2fs_sb_info *sbi, nid_t nid)
2733{
2734	struct f2fs_nm_info *nm_i = NM_I(sbi);
2735	struct free_nid *i;
2736
2737	spin_lock(&nm_i->nid_list_lock);
2738	i = __lookup_free_nid_list(nm_i, nid);
2739	f2fs_bug_on(sbi, !i);
2740	__remove_free_nid(sbi, i, PREALLOC_NID);
2741	spin_unlock(&nm_i->nid_list_lock);
2742
2743	kmem_cache_free(free_nid_slab, i);
2744}
2745
2746/*
2747 * f2fs_alloc_nid() should be called prior to this function.
2748 */
2749void f2fs_alloc_nid_failed(struct f2fs_sb_info *sbi, nid_t nid)
2750{
2751	struct f2fs_nm_info *nm_i = NM_I(sbi);
2752	struct free_nid *i;
2753	bool need_free = false;
2754
2755	if (!nid)
2756		return;
2757
2758	spin_lock(&nm_i->nid_list_lock);
2759	i = __lookup_free_nid_list(nm_i, nid);
2760	f2fs_bug_on(sbi, !i);
2761
2762	if (!f2fs_available_free_memory(sbi, FREE_NIDS)) {
2763		__remove_free_nid(sbi, i, PREALLOC_NID);
2764		need_free = true;
2765	} else {
2766		__move_free_nid(sbi, i, PREALLOC_NID, FREE_NID);
2767	}
2768
2769	nm_i->available_nids++;
2770
2771	update_free_nid_bitmap(sbi, nid, true, false);
2772
2773	spin_unlock(&nm_i->nid_list_lock);
2774
2775	if (need_free)
2776		kmem_cache_free(free_nid_slab, i);
2777}
2778
2779int f2fs_try_to_free_nids(struct f2fs_sb_info *sbi, int nr_shrink)
2780{
2781	struct f2fs_nm_info *nm_i = NM_I(sbi);
2782	int nr = nr_shrink;
2783
2784	if (nm_i->nid_cnt[FREE_NID] <= MAX_FREE_NIDS)
2785		return 0;
2786
2787	if (!mutex_trylock(&nm_i->build_lock))
2788		return 0;
2789
2790	while (nr_shrink && nm_i->nid_cnt[FREE_NID] > MAX_FREE_NIDS) {
2791		struct free_nid *i, *next;
2792		unsigned int batch = SHRINK_NID_BATCH_SIZE;
2793
2794		spin_lock(&nm_i->nid_list_lock);
2795		list_for_each_entry_safe(i, next, &nm_i->free_nid_list, list) {
2796			if (!nr_shrink || !batch ||
2797				nm_i->nid_cnt[FREE_NID] <= MAX_FREE_NIDS)
2798				break;
2799			__remove_free_nid(sbi, i, FREE_NID);
2800			kmem_cache_free(free_nid_slab, i);
2801			nr_shrink--;
2802			batch--;
2803		}
2804		spin_unlock(&nm_i->nid_list_lock);
2805	}
2806
2807	mutex_unlock(&nm_i->build_lock);
2808
2809	return nr - nr_shrink;
2810}
2811
2812int f2fs_recover_inline_xattr(struct inode *inode, struct folio *folio)
2813{
2814	void *src_addr, *dst_addr;
2815	size_t inline_size;
2816	struct folio *ifolio;
2817	struct f2fs_inode *ri;
2818
2819	ifolio = f2fs_get_inode_folio(F2FS_I_SB(inode), inode->i_ino);
2820	if (IS_ERR(ifolio))
2821		return PTR_ERR(ifolio);
2822
2823	ri = F2FS_INODE(folio);
2824	if (ri->i_inline & F2FS_INLINE_XATTR) {
2825		if (!f2fs_has_inline_xattr(inode)) {
2826			set_inode_flag(inode, FI_INLINE_XATTR);
2827			stat_inc_inline_xattr(inode);
2828		}
2829	} else {
2830		if (f2fs_has_inline_xattr(inode)) {
2831			stat_dec_inline_xattr(inode);
2832			clear_inode_flag(inode, FI_INLINE_XATTR);
2833		}
2834		goto update_inode;
2835	}
2836
2837	dst_addr = inline_xattr_addr(inode, ifolio);
2838	src_addr = inline_xattr_addr(inode, folio);
2839	inline_size = inline_xattr_size(inode);
2840
2841	f2fs_folio_wait_writeback(ifolio, NODE, true, true);
2842	memcpy(dst_addr, src_addr, inline_size);
2843update_inode:
2844	f2fs_update_inode(inode, ifolio);
2845	f2fs_folio_put(ifolio, true);
2846	return 0;
2847}
2848
2849int f2fs_recover_xattr_data(struct inode *inode, struct folio *folio)
2850{
2851	struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
2852	nid_t prev_xnid = F2FS_I(inode)->i_xattr_nid;
2853	nid_t new_xnid;
2854	struct dnode_of_data dn;
2855	struct node_info ni;
2856	struct folio *xfolio;
2857	int err;
2858
2859	if (!prev_xnid)
2860		goto recover_xnid;
2861
2862	/* 1: invalidate the previous xattr nid */
2863	err = f2fs_get_node_info(sbi, prev_xnid, &ni, false);
2864	if (err)
2865		return err;
2866
2867	f2fs_invalidate_blocks(sbi, ni.blk_addr, 1);
2868	dec_valid_node_count(sbi, inode, false);
2869	set_node_addr(sbi, &ni, NULL_ADDR, false);
2870
2871recover_xnid:
2872	/* 2: update xattr nid in inode */
2873	if (!f2fs_alloc_nid(sbi, &new_xnid))
2874		return -ENOSPC;
2875
2876	set_new_dnode(&dn, inode, NULL, NULL, new_xnid);
2877	xfolio = f2fs_new_node_folio(&dn, XATTR_NODE_OFFSET);
2878	if (IS_ERR(xfolio)) {
2879		f2fs_alloc_nid_failed(sbi, new_xnid);
2880		return PTR_ERR(xfolio);
2881	}
2882
2883	f2fs_alloc_nid_done(sbi, new_xnid);
2884	f2fs_update_inode_page(inode);
2885
2886	/* 3: update and set xattr node page dirty */
2887	if (folio) {
2888		memcpy(F2FS_NODE(xfolio), F2FS_NODE(folio),
2889				VALID_XATTR_BLOCK_SIZE);
2890		folio_mark_dirty(xfolio);
2891	}
2892	f2fs_folio_put(xfolio, true);
2893
2894	return 0;
2895}
2896
2897int f2fs_recover_inode_page(struct f2fs_sb_info *sbi, struct folio *folio)
2898{
2899	struct f2fs_inode *src, *dst;
2900	nid_t ino = ino_of_node(folio);
2901	struct node_info old_ni, new_ni;
2902	struct folio *ifolio;
2903	int err;
2904
2905	err = f2fs_get_node_info(sbi, ino, &old_ni, false);
2906	if (err)
2907		return err;
2908
2909	if (unlikely(old_ni.blk_addr != NULL_ADDR))
2910		return -EINVAL;
2911retry:
2912	ifolio = f2fs_grab_cache_folio(NODE_MAPPING(sbi), ino, false);
2913	if (IS_ERR(ifolio)) {
2914		memalloc_retry_wait(GFP_NOFS);
2915		goto retry;
2916	}
2917
2918	/* Should not use this inode from free nid list */
2919	remove_free_nid(sbi, ino);
2920
2921	if (!folio_test_uptodate(ifolio))
2922		folio_mark_uptodate(ifolio);
2923	fill_node_footer(ifolio, ino, ino, 0, true);
2924	set_cold_node(ifolio, false);
2925
2926	src = F2FS_INODE(folio);
2927	dst = F2FS_INODE(ifolio);
2928
2929	memcpy(dst, src, offsetof(struct f2fs_inode, i_ext));
2930	dst->i_size = 0;
2931	dst->i_blocks = cpu_to_le64(1);
2932	dst->i_links = cpu_to_le32(1);
2933	dst->i_xattr_nid = 0;
2934	dst->i_inline = src->i_inline & (F2FS_INLINE_XATTR | F2FS_EXTRA_ATTR);
2935	if (dst->i_inline & F2FS_EXTRA_ATTR) {
2936		dst->i_extra_isize = src->i_extra_isize;
2937
2938		if (f2fs_sb_has_flexible_inline_xattr(sbi) &&
2939			F2FS_FITS_IN_INODE(src, le16_to_cpu(src->i_extra_isize),
2940							i_inline_xattr_size))
2941			dst->i_inline_xattr_size = src->i_inline_xattr_size;
2942
2943		if (f2fs_sb_has_project_quota(sbi) &&
2944			F2FS_FITS_IN_INODE(src, le16_to_cpu(src->i_extra_isize),
2945								i_projid))
2946			dst->i_projid = src->i_projid;
2947
2948		if (f2fs_sb_has_inode_crtime(sbi) &&
2949			F2FS_FITS_IN_INODE(src, le16_to_cpu(src->i_extra_isize),
2950							i_crtime_nsec)) {
2951			dst->i_crtime = src->i_crtime;
2952			dst->i_crtime_nsec = src->i_crtime_nsec;
2953		}
2954	}
2955
2956	new_ni = old_ni;
2957	new_ni.ino = ino;
2958
2959	if (unlikely(inc_valid_node_count(sbi, NULL, true)))
2960		WARN_ON(1);
2961	set_node_addr(sbi, &new_ni, NEW_ADDR, false);
2962	inc_valid_inode_count(sbi);
2963	folio_mark_dirty(ifolio);
2964	f2fs_folio_put(ifolio, true);
2965	return 0;
2966}
2967
2968int f2fs_restore_node_summary(struct f2fs_sb_info *sbi,
2969			unsigned int segno, struct f2fs_summary_block *sum)
2970{
2971	struct f2fs_node *rn;
2972	struct f2fs_summary *sum_entry;
2973	block_t addr;
2974	int i, idx, last_offset, nrpages;
2975
2976	/* scan the node segment */
2977	last_offset = BLKS_PER_SEG(sbi);
2978	addr = START_BLOCK(sbi, segno);
2979	sum_entry = sum_entries(sum);
2980
2981	for (i = 0; i < last_offset; i += nrpages, addr += nrpages) {
2982		nrpages = bio_max_segs(last_offset - i);
2983
2984		/* readahead node pages */
2985		f2fs_ra_meta_pages(sbi, addr, nrpages, META_POR, true);
2986
2987		for (idx = addr; idx < addr + nrpages; idx++) {
2988			struct folio *folio = f2fs_get_tmp_folio(sbi, idx);
2989
2990			if (IS_ERR(folio))
2991				return PTR_ERR(folio);
2992
2993			rn = F2FS_NODE(folio);
2994			sum_entry->nid = rn->footer.nid;
2995			sum_entry->version = 0;
2996			sum_entry->ofs_in_node = 0;
2997			sum_entry++;
2998			f2fs_folio_put(folio, true);
2999		}
3000
3001		invalidate_mapping_pages(META_MAPPING(sbi), addr,
3002							addr + nrpages);
3003	}
3004	return 0;
3005}
3006
3007static void remove_nats_in_journal(struct f2fs_sb_info *sbi)
3008{
3009	struct f2fs_nm_info *nm_i = NM_I(sbi);
3010	struct curseg_info *curseg = CURSEG_I(sbi, CURSEG_HOT_DATA);
3011	struct f2fs_journal *journal = curseg->journal;
3012	int i;
3013	bool init_dirty;
3014
3015	down_write(&curseg->journal_rwsem);
3016	for (i = 0; i < nats_in_cursum(journal); i++) {
3017		struct nat_entry *ne;
3018		struct f2fs_nat_entry raw_ne;
3019		nid_t nid = le32_to_cpu(nid_in_journal(journal, i));
3020
3021		if (f2fs_check_nid_range(sbi, nid))
3022			continue;
3023
3024		init_dirty = false;
3025
3026		raw_ne = nat_in_journal(journal, i);
3027
3028		ne = __lookup_nat_cache(nm_i, nid, true);
3029		if (!ne) {
3030			init_dirty = true;
3031			ne = __alloc_nat_entry(sbi, nid, true);
3032			__init_nat_entry(nm_i, ne, &raw_ne, true, true);
3033		}
3034
3035		/*
3036		 * if a free nat in journal has not been used after last
3037		 * checkpoint, we should remove it from available nids,
3038		 * since later we will add it again.
3039		 */
3040		if (!get_nat_flag(ne, IS_DIRTY) &&
3041				le32_to_cpu(raw_ne.block_addr) == NULL_ADDR) {
3042			spin_lock(&nm_i->nid_list_lock);
3043			nm_i->available_nids--;
3044			spin_unlock(&nm_i->nid_list_lock);
3045		}
3046
3047		__set_nat_cache_dirty(nm_i, ne, init_dirty);
3048	}
3049	update_nats_in_cursum(journal, -i);
3050	up_write(&curseg->journal_rwsem);
3051}
3052
3053static void __adjust_nat_entry_set(struct nat_entry_set *nes,
3054						struct list_head *head, int max)
3055{
3056	struct nat_entry_set *cur;
3057
3058	if (nes->entry_cnt >= max)
3059		goto add_out;
3060
3061	list_for_each_entry(cur, head, set_list) {
3062		if (cur->entry_cnt >= nes->entry_cnt) {
3063			list_add(&nes->set_list, cur->set_list.prev);
3064			return;
3065		}
3066	}
3067add_out:
3068	list_add_tail(&nes->set_list, head);
3069}
3070
3071static void __update_nat_bits(struct f2fs_sb_info *sbi, nid_t start_nid,
3072		const struct f2fs_nat_block *nat_blk)
3073{
3074	struct f2fs_nm_info *nm_i = NM_I(sbi);
3075	unsigned int nat_index = start_nid / NAT_ENTRY_PER_BLOCK;
3076	int valid = 0;
3077	int i = 0;
3078
3079	if (!enabled_nat_bits(sbi, NULL))
3080		return;
3081
3082	if (nat_index == 0) {
3083		valid = 1;
3084		i = 1;
3085	}
3086	for (; i < NAT_ENTRY_PER_BLOCK; i++) {
3087		if (le32_to_cpu(nat_blk->entries[i].block_addr) != NULL_ADDR)
3088			valid++;
3089	}
3090	if (valid == 0) {
3091		__set_bit_le(nat_index, nm_i->empty_nat_bits);
3092		__clear_bit_le(nat_index, nm_i->full_nat_bits);
3093		return;
3094	}
3095
3096	__clear_bit_le(nat_index, nm_i->empty_nat_bits);
3097	if (valid == NAT_ENTRY_PER_BLOCK)
3098		__set_bit_le(nat_index, nm_i->full_nat_bits);
3099	else
3100		__clear_bit_le(nat_index, nm_i->full_nat_bits);
3101}
3102
3103static int __flush_nat_entry_set(struct f2fs_sb_info *sbi,
3104		struct nat_entry_set *set, struct cp_control *cpc)
3105{
3106	struct curseg_info *curseg = CURSEG_I(sbi, CURSEG_HOT_DATA);
3107	struct f2fs_journal *journal = curseg->journal;
3108	nid_t start_nid = set->set * NAT_ENTRY_PER_BLOCK;
3109	bool to_journal = true;
3110	struct f2fs_nat_block *nat_blk;
3111	struct nat_entry *ne, *cur;
3112	struct folio *folio = NULL;
3113
3114	/*
3115	 * there are two steps to flush nat entries:
3116	 * #1, flush nat entries to journal in current hot data summary block.
3117	 * #2, flush nat entries to nat page.
3118	 */
3119	if (enabled_nat_bits(sbi, cpc) ||
3120		!__has_cursum_space(sbi, journal, set->entry_cnt, NAT_JOURNAL))
3121		to_journal = false;
3122
3123	if (to_journal) {
3124		down_write(&curseg->journal_rwsem);
3125	} else {
3126		folio = get_next_nat_folio(sbi, start_nid);
3127		if (IS_ERR(folio))
3128			return PTR_ERR(folio);
3129
3130		nat_blk = folio_address(folio);
3131		f2fs_bug_on(sbi, !nat_blk);
3132	}
3133
3134	/* flush dirty nats in nat entry set */
3135	list_for_each_entry_safe(ne, cur, &set->entry_list, list) {
3136		struct f2fs_nat_entry *raw_ne;
3137		nid_t nid = nat_get_nid(ne);
3138		int offset;
3139
3140		f2fs_bug_on(sbi, nat_get_blkaddr(ne) == NEW_ADDR);
3141
3142		if (to_journal) {
3143			offset = f2fs_lookup_journal_in_cursum(sbi, journal,
3144							NAT_JOURNAL, nid, 1);
3145			f2fs_bug_on(sbi, offset < 0);
3146			raw_ne = &nat_in_journal(journal, offset);
3147			nid_in_journal(journal, offset) = cpu_to_le32(nid);
3148		} else {
3149			raw_ne = &nat_blk->entries[nid - start_nid];
3150		}
3151		raw_nat_from_node_info(raw_ne, &ne->ni);
3152		nat_reset_flag(ne);
3153		__clear_nat_cache_dirty(NM_I(sbi), set, ne);
3154		if (nat_get_blkaddr(ne) == NULL_ADDR) {
3155			add_free_nid(sbi, nid, false, true);
3156		} else {
3157			spin_lock(&NM_I(sbi)->nid_list_lock);
3158			update_free_nid_bitmap(sbi, nid, false, false);
3159			spin_unlock(&NM_I(sbi)->nid_list_lock);
3160		}
3161	}
3162
3163	if (to_journal) {
3164		up_write(&curseg->journal_rwsem);
3165	} else {
3166		__update_nat_bits(sbi, start_nid, nat_blk);
3167		f2fs_folio_put(folio, true);
3168	}
3169
3170	/* Allow dirty nats by node block allocation in write_begin */
3171	if (!set->entry_cnt) {
3172		radix_tree_delete(&NM_I(sbi)->nat_set_root, set->set);
3173		kmem_cache_free(nat_entry_set_slab, set);
3174	}
3175	return 0;
3176}
3177
3178/*
3179 * This function is called during the checkpointing process.
3180 */
3181int f2fs_flush_nat_entries(struct f2fs_sb_info *sbi, struct cp_control *cpc)
3182{
3183	struct f2fs_nm_info *nm_i = NM_I(sbi);
3184	struct curseg_info *curseg = CURSEG_I(sbi, CURSEG_HOT_DATA);
3185	struct f2fs_journal *journal = curseg->journal;
3186	struct nat_entry_set *setvec[NAT_VEC_SIZE];
3187	struct nat_entry_set *set, *tmp;
3188	unsigned int found, entry_count = 0;
3189	nid_t set_idx = 0;
3190	LIST_HEAD(sets);
3191	int err = 0;
3192
3193	/*
3194	 * during unmount, let's flush nat_bits before checking
3195	 * nat_cnt[DIRTY_NAT].
3196	 */
3197	if (enabled_nat_bits(sbi, cpc)) {
3198		f2fs_down_write(&nm_i->nat_tree_lock);
3199		remove_nats_in_journal(sbi);
3200		f2fs_up_write(&nm_i->nat_tree_lock);
3201	}
3202
3203	if (!nm_i->nat_cnt[DIRTY_NAT])
3204		return 0;
3205
3206	f2fs_down_write(&nm_i->nat_tree_lock);
3207
3208	/*
3209	 * if there are no enough space in journal to store dirty nat
3210	 * entries, remove all entries from journal and merge them
3211	 * into nat entry set.
3212	 */
3213	if (enabled_nat_bits(sbi, cpc) ||
3214		!__has_cursum_space(sbi, journal,
3215			nm_i->nat_cnt[DIRTY_NAT], NAT_JOURNAL))
3216		remove_nats_in_journal(sbi);
3217
3218	while ((found = __gang_lookup_nat_set(nm_i,
3219					set_idx, NAT_VEC_SIZE, setvec))) {
3220		unsigned idx;
3221
3222		set_idx = setvec[found - 1]->set + 1;
3223		for (idx = 0; idx < found; idx++)
3224			__adjust_nat_entry_set(setvec[idx], &sets,
3225					MAX_NAT_JENTRIES(sbi, journal));
3226	}
3227
3228	/*
3229	 * Readahead the current NAT block to prevent read requests from
3230	 * being issued and waited on one by one.
3231	 */
3232	list_for_each_entry(set, &sets, set_list) {
3233		entry_count += set->entry_cnt;
3234		if (!enabled_nat_bits(sbi, cpc) &&
3235			__has_cursum_space(sbi, journal,
3236					entry_count, NAT_JOURNAL))
3237			continue;
3238		f2fs_ra_meta_pages(sbi, set->set, 1, META_NAT, true);
3239	}
3240	/* flush dirty nats in nat entry set */
3241	list_for_each_entry_safe(set, tmp, &sets, set_list) {
3242		err = __flush_nat_entry_set(sbi, set, cpc);
3243		if (err)
3244			break;
3245	}
3246
3247	f2fs_up_write(&nm_i->nat_tree_lock);
3248	/* Allow dirty nats by node block allocation in write_begin */
3249
3250	return err;
3251}
3252
3253static int __get_nat_bitmaps(struct f2fs_sb_info *sbi)
3254{
3255	struct f2fs_checkpoint *ckpt = F2FS_CKPT(sbi);
3256	struct f2fs_nm_info *nm_i = NM_I(sbi);
3257	unsigned int nat_bits_bytes = nm_i->nat_blocks / BITS_PER_BYTE;
3258	unsigned int i;
3259	__u64 cp_ver = cur_cp_version(ckpt);
3260	block_t nat_bits_addr;
3261
3262	if (!enabled_nat_bits(sbi, NULL))
3263		return 0;
3264
3265	nm_i->nat_bits_blocks = F2FS_BLK_ALIGN((nat_bits_bytes << 1) + 8);
3266	nm_i->nat_bits = f2fs_kvzalloc(sbi,
3267			F2FS_BLK_TO_BYTES(nm_i->nat_bits_blocks), GFP_KERNEL);
3268	if (!nm_i->nat_bits)
3269		return -ENOMEM;
3270
3271	nat_bits_addr = __start_cp_addr(sbi) + BLKS_PER_SEG(sbi) -
3272						nm_i->nat_bits_blocks;
3273	for (i = 0; i < nm_i->nat_bits_blocks; i++) {
3274		struct folio *folio;
3275
3276		folio = f2fs_get_meta_folio(sbi, nat_bits_addr++);
3277		if (IS_ERR(folio))
3278			return PTR_ERR(folio);
3279
3280		memcpy(nm_i->nat_bits + F2FS_BLK_TO_BYTES(i),
3281					folio_address(folio), F2FS_BLKSIZE);
3282		f2fs_folio_put(folio, true);
3283	}
3284
3285	cp_ver |= (cur_cp_crc(ckpt) << 32);
3286	if (cpu_to_le64(cp_ver) != *(__le64 *)nm_i->nat_bits) {
3287		disable_nat_bits(sbi, true);
3288		return 0;
3289	}
3290
3291	nm_i->full_nat_bits = nm_i->nat_bits + 8;
3292	nm_i->empty_nat_bits = nm_i->full_nat_bits + nat_bits_bytes;
3293
3294	f2fs_notice(sbi, "Found nat_bits in checkpoint");
3295	return 0;
3296}
3297
3298static inline void load_free_nid_bitmap(struct f2fs_sb_info *sbi)
3299{
3300	struct f2fs_nm_info *nm_i = NM_I(sbi);
3301	unsigned int i = 0;
3302	nid_t nid, last_nid;
3303
3304	if (!enabled_nat_bits(sbi, NULL))
3305		return;
3306
3307	for (i = 0; i < nm_i->nat_blocks; i++) {
3308		i = find_next_bit_le(nm_i->empty_nat_bits, nm_i->nat_blocks, i);
3309		if (i >= nm_i->nat_blocks)
3310			break;
3311
3312		__set_bit_le(i, nm_i->nat_block_bitmap);
3313
3314		nid = i * NAT_ENTRY_PER_BLOCK;
3315		last_nid = nid + NAT_ENTRY_PER_BLOCK;
3316
3317		spin_lock(&NM_I(sbi)->nid_list_lock);
3318		for (; nid < last_nid; nid++)
3319			update_free_nid_bitmap(sbi, nid, true, true);
3320		spin_unlock(&NM_I(sbi)->nid_list_lock);
3321	}
3322
3323	for (i = 0; i < nm_i->nat_blocks; i++) {
3324		i = find_next_bit_le(nm_i->full_nat_bits, nm_i->nat_blocks, i);
3325		if (i >= nm_i->nat_blocks)
3326			break;
3327
3328		__set_bit_le(i, nm_i->nat_block_bitmap);
3329	}
3330}
3331
3332static int init_node_manager(struct f2fs_sb_info *sbi)
3333{
3334	struct f2fs_super_block *sb_raw = F2FS_RAW_SUPER(sbi);
3335	struct f2fs_nm_info *nm_i = NM_I(sbi);
3336	unsigned char *version_bitmap;
3337	unsigned int nat_segs;
3338	int err;
3339
3340	nm_i->nat_blkaddr = le32_to_cpu(sb_raw->nat_blkaddr);
3341
3342	/* segment_count_nat includes pair segment so divide to 2. */
3343	nat_segs = le32_to_cpu(sb_raw->segment_count_nat) >> 1;
3344	nm_i->nat_blocks = nat_segs << le32_to_cpu(sb_raw->log_blocks_per_seg);
3345	nm_i->max_nid = NAT_ENTRY_PER_BLOCK * nm_i->nat_blocks;
3346
3347	/* not used nids: 0, node, meta, (and root counted as valid node) */
3348	nm_i->available_nids = nm_i->max_nid - sbi->total_valid_node_count -
3349						F2FS_RESERVED_NODE_NUM;
3350	nm_i->nid_cnt[FREE_NID] = 0;
3351	nm_i->nid_cnt[PREALLOC_NID] = 0;
3352	nm_i->ram_thresh = DEF_RAM_THRESHOLD;
3353	nm_i->ra_nid_pages = DEF_RA_NID_PAGES;
3354	nm_i->dirty_nats_ratio = DEF_DIRTY_NAT_RATIO_THRESHOLD;
3355	nm_i->max_rf_node_blocks = DEF_RF_NODE_BLOCKS;
3356
3357	INIT_RADIX_TREE(&nm_i->free_nid_root, GFP_ATOMIC);
3358	INIT_LIST_HEAD(&nm_i->free_nid_list);
3359	INIT_RADIX_TREE(&nm_i->nat_root, GFP_NOIO);
3360	INIT_RADIX_TREE(&nm_i->nat_set_root, GFP_NOIO);
3361	INIT_LIST_HEAD(&nm_i->nat_entries);
3362	spin_lock_init(&nm_i->nat_list_lock);
3363
3364	mutex_init(&nm_i->build_lock);
3365	spin_lock_init(&nm_i->nid_list_lock);
3366	init_f2fs_rwsem(&nm_i->nat_tree_lock);
3367
3368	nm_i->next_scan_nid = le32_to_cpu(sbi->ckpt->next_free_nid);
3369	nm_i->bitmap_size = __bitmap_size(sbi, NAT_BITMAP);
3370	version_bitmap = __bitmap_ptr(sbi, NAT_BITMAP);
3371	nm_i->nat_bitmap = kmemdup(version_bitmap, nm_i->bitmap_size,
3372					GFP_KERNEL);
3373	if (!nm_i->nat_bitmap)
3374		return -ENOMEM;
3375
3376	if (!test_opt(sbi, NAT_BITS))
3377		disable_nat_bits(sbi, true);
3378
3379	err = __get_nat_bitmaps(sbi);
3380	if (err)
3381		return err;
3382
3383#ifdef CONFIG_F2FS_CHECK_FS
3384	nm_i->nat_bitmap_mir = kmemdup(version_bitmap, nm_i->bitmap_size,
3385					GFP_KERNEL);
3386	if (!nm_i->nat_bitmap_mir)
3387		return -ENOMEM;
3388#endif
3389
3390	return 0;
3391}
3392
3393static int init_free_nid_cache(struct f2fs_sb_info *sbi)
3394{
3395	struct f2fs_nm_info *nm_i = NM_I(sbi);
3396	int i;
3397
3398	nm_i->free_nid_bitmap =
3399		f2fs_kvzalloc(sbi, array_size(sizeof(unsigned char *),
3400					      nm_i->nat_blocks),
3401			      GFP_KERNEL);
3402	if (!nm_i->free_nid_bitmap)
3403		return -ENOMEM;
3404
3405	for (i = 0; i < nm_i->nat_blocks; i++) {
3406		nm_i->free_nid_bitmap[i] = f2fs_kvzalloc(sbi,
3407			f2fs_bitmap_size(NAT_ENTRY_PER_BLOCK), GFP_KERNEL);
3408		if (!nm_i->free_nid_bitmap[i])
3409			return -ENOMEM;
3410	}
3411
3412	nm_i->nat_block_bitmap = f2fs_kvzalloc(sbi, nm_i->nat_blocks / 8,
3413								GFP_KERNEL);
3414	if (!nm_i->nat_block_bitmap)
3415		return -ENOMEM;
3416
3417	nm_i->free_nid_count =
3418		f2fs_kvzalloc(sbi, array_size(sizeof(unsigned short),
3419					      nm_i->nat_blocks),
3420			      GFP_KERNEL);
3421	if (!nm_i->free_nid_count)
3422		return -ENOMEM;
3423	return 0;
3424}
3425
3426int f2fs_build_node_manager(struct f2fs_sb_info *sbi)
3427{
3428	int err;
3429
3430	sbi->nm_info = f2fs_kzalloc(sbi, sizeof(struct f2fs_nm_info),
3431							GFP_KERNEL);
3432	if (!sbi->nm_info)
3433		return -ENOMEM;
3434
3435	err = init_node_manager(sbi);
3436	if (err)
3437		return err;
3438
3439	err = init_free_nid_cache(sbi);
3440	if (err)
3441		return err;
3442
3443	/* load free nid status from nat_bits table */
3444	load_free_nid_bitmap(sbi);
3445
3446	return f2fs_build_free_nids(sbi, true, true);
3447}
3448
3449void f2fs_destroy_node_manager(struct f2fs_sb_info *sbi)
3450{
3451	struct f2fs_nm_info *nm_i = NM_I(sbi);
3452	struct free_nid *i, *next_i;
3453	void *vec[NAT_VEC_SIZE];
3454	struct nat_entry **natvec = (struct nat_entry **)vec;
3455	struct nat_entry_set **setvec = (struct nat_entry_set **)vec;
3456	nid_t nid = 0;
3457	unsigned int found;
3458
3459	if (!nm_i)
3460		return;
3461
3462	/* destroy free nid list */
3463	spin_lock(&nm_i->nid_list_lock);
3464	list_for_each_entry_safe(i, next_i, &nm_i->free_nid_list, list) {
3465		__remove_free_nid(sbi, i, FREE_NID);
3466		spin_unlock(&nm_i->nid_list_lock);
3467		kmem_cache_free(free_nid_slab, i);
3468		spin_lock(&nm_i->nid_list_lock);
3469	}
3470	f2fs_bug_on(sbi, nm_i->nid_cnt[FREE_NID]);
3471	f2fs_bug_on(sbi, nm_i->nid_cnt[PREALLOC_NID]);
3472	f2fs_bug_on(sbi, !list_empty(&nm_i->free_nid_list));
3473	spin_unlock(&nm_i->nid_list_lock);
3474
3475	/* destroy nat cache */
3476	f2fs_down_write(&nm_i->nat_tree_lock);
3477	while ((found = __gang_lookup_nat_cache(nm_i,
3478					nid, NAT_VEC_SIZE, natvec))) {
3479		unsigned idx;
3480
3481		nid = nat_get_nid(natvec[found - 1]) + 1;
3482		for (idx = 0; idx < found; idx++) {
3483			spin_lock(&nm_i->nat_list_lock);
3484			list_del(&natvec[idx]->list);
3485			spin_unlock(&nm_i->nat_list_lock);
3486
3487			__del_from_nat_cache(nm_i, natvec[idx]);
3488		}
3489	}
3490	f2fs_bug_on(sbi, nm_i->nat_cnt[TOTAL_NAT]);
3491
3492	/* destroy nat set cache */
3493	nid = 0;
3494	memset(vec, 0, sizeof(void *) * NAT_VEC_SIZE);
3495	while ((found = __gang_lookup_nat_set(nm_i,
3496					nid, NAT_VEC_SIZE, setvec))) {
3497		unsigned idx;
3498
3499		nid = setvec[found - 1]->set + 1;
3500		for (idx = 0; idx < found; idx++) {
3501			/* entry_cnt is not zero, when cp_error was occurred */
3502			f2fs_bug_on(sbi, !list_empty(&setvec[idx]->entry_list));
3503			radix_tree_delete(&nm_i->nat_set_root, setvec[idx]->set);
3504			kmem_cache_free(nat_entry_set_slab, setvec[idx]);
3505		}
3506	}
3507	f2fs_up_write(&nm_i->nat_tree_lock);
3508
3509	kvfree(nm_i->nat_block_bitmap);
3510	if (nm_i->free_nid_bitmap) {
3511		int i;
3512
3513		for (i = 0; i < nm_i->nat_blocks; i++)
3514			kvfree(nm_i->free_nid_bitmap[i]);
3515		kvfree(nm_i->free_nid_bitmap);
3516	}
3517	kvfree(nm_i->free_nid_count);
3518
3519	kfree(nm_i->nat_bitmap);
3520	kvfree(nm_i->nat_bits);
3521#ifdef CONFIG_F2FS_CHECK_FS
3522	kfree(nm_i->nat_bitmap_mir);
3523#endif
3524	sbi->nm_info = NULL;
3525	kfree(nm_i);
3526}
3527
3528int __init f2fs_create_node_manager_caches(void)
3529{
3530	nat_entry_slab = f2fs_kmem_cache_create("f2fs_nat_entry",
3531			sizeof(struct nat_entry));
3532	if (!nat_entry_slab)
3533		goto fail;
3534
3535	free_nid_slab = f2fs_kmem_cache_create("f2fs_free_nid",
3536			sizeof(struct free_nid));
3537	if (!free_nid_slab)
3538		goto destroy_nat_entry;
3539
3540	nat_entry_set_slab = f2fs_kmem_cache_create("f2fs_nat_entry_set",
3541			sizeof(struct nat_entry_set));
3542	if (!nat_entry_set_slab)
3543		goto destroy_free_nid;
3544
3545	fsync_node_entry_slab = f2fs_kmem_cache_create("f2fs_fsync_node_entry",
3546			sizeof(struct fsync_node_entry));
3547	if (!fsync_node_entry_slab)
3548		goto destroy_nat_entry_set;
3549	return 0;
3550
3551destroy_nat_entry_set:
3552	kmem_cache_destroy(nat_entry_set_slab);
3553destroy_free_nid:
3554	kmem_cache_destroy(free_nid_slab);
3555destroy_nat_entry:
3556	kmem_cache_destroy(nat_entry_slab);
3557fail:
3558	return -ENOMEM;
3559}
3560
3561void f2fs_destroy_node_manager_caches(void)
3562{
3563	kmem_cache_destroy(fsync_node_entry_slab);
3564	kmem_cache_destroy(nat_entry_set_slab);
3565	kmem_cache_destroy(free_nid_slab);
3566	kmem_cache_destroy(nat_entry_slab);
3567}
Configure Feed

Configure Feed