From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <owner-linux-mm@kvack.org>
X-Spam-Checker-Version: SpamAssassin 3.4.0 (2014-02-07) on
	aws-us-west-2-korg-lkml-1.web.codeaurora.org
Received: from kanga.kvack.org (kanga.kvack.org [205.233.56.17])
	by smtp.lore.kernel.org (Postfix) with ESMTP id 6B622C47422
	for <linux-mm@archiver.kernel.org>; Thu, 18 Jan 2024 12:39:40 +0000 (UTC)
Received: by kanga.kvack.org (Postfix)
	id DD2796B0093; Thu, 18 Jan 2024 07:39:39 -0500 (EST)
Received: by kanga.kvack.org (Postfix, from userid 40)
	id CE52C6B0098; Thu, 18 Jan 2024 07:39:39 -0500 (EST)
X-Delivered-To: int-list-linux-mm@kvack.org
Received: by kanga.kvack.org (Postfix, from userid 63042)
	id B5EDD6B009A; Thu, 18 Jan 2024 07:39:39 -0500 (EST)
X-Delivered-To: linux-mm@kvack.org
Received: from relay.hostedemail.com (smtprelay0010.hostedemail.com [216.40.44.10])
	by kanga.kvack.org (Postfix) with ESMTP id A225D6B0093
	for <linux-mm@kvack.org>; Thu, 18 Jan 2024 07:39:39 -0500 (EST)
Received: from smtpin21.hostedemail.com (a10.router.float.18 [10.200.18.1])
	by unirelay03.hostedemail.com (Postfix) with ESMTP id 7CABCA0B61
	for <linux-mm@kvack.org>; Thu, 18 Jan 2024 12:39:39 +0000 (UTC)
X-FDA: 81692388078.21.D941F9C
Received: from out-176.mta1.migadu.com (out-176.mta1.migadu.com [95.215.58.176])
	by imf07.hostedemail.com (Postfix) with ESMTP id D47E240007
	for <linux-mm@kvack.org>; Thu, 18 Jan 2024 12:39:37 +0000 (UTC)
Authentication-Results: imf07.hostedemail.com;
	dkim=pass header.d=linux.dev header.s=key1 header.b=X9AMrKwC;
	dmarc=pass (policy=none) header.from=linux.dev;
	spf=pass (imf07.hostedemail.com: domain of gang.li@linux.dev designates 95.215.58.176 as permitted sender) smtp.mailfrom=gang.li@linux.dev
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=hostedemail.com;
	s=arc-20220608; t=1705581578;
	h=from:from:sender:reply-to:subject:subject:date:date:
	 message-id:message-id:to:to:cc:cc:mime-version:mime-version:
	 content-type:content-transfer-encoding:content-transfer-encoding:
	 in-reply-to:in-reply-to:references:references:dkim-signature;
	bh=1NWoU3oNLKXdGAS21M0bC7+FD15GTIkL0kQlYQf/mAw=;
	b=JZJpC9TOca9WWXCIYAD2Pa6ahtsfLEbSiIlswEPVPI8V59xcXzefMBIppLbJpk15mXX98+
	0qUcaId3guGj3uDApPx3nEZFuVFfck5MKVawWC+DL+F13zRGRn8+VsqwJ77i90VNli1iIo
	PfCrxa9LlYoYXTb1gKg7yXqYSOrfQRE=
ARC-Authentication-Results: i=1;
	imf07.hostedemail.com;
	dkim=pass header.d=linux.dev header.s=key1 header.b=X9AMrKwC;
	dmarc=pass (policy=none) header.from=linux.dev;
	spf=pass (imf07.hostedemail.com: domain of gang.li@linux.dev designates 95.215.58.176 as permitted sender) smtp.mailfrom=gang.li@linux.dev
ARC-Seal: i=1; s=arc-20220608; d=hostedemail.com; t=1705581578; a=rsa-sha256;
	cv=none;
	b=pVjJS21dRlEmyQG+S3Y8fcnlO1fjsAPlo/DPsojxlEqcLa1edG8MsYukoM4NUurikhBpP7
	kJmTVr2yCZijbm18duD94xArBn6qZmvX4MD+FoHhwOiTMnnAQHMf0l+j+BGJipwc/m2Ucg
	XjK9BZWM45FN3K5AIrQEWBmN7IetayA=
X-Report-Abuse: Please report any abuse attempt to abuse@migadu.com and include these headers.
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linux.dev; s=key1;
	t=1705581576;
	h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
	 to:to:cc:cc:mime-version:mime-version:
	 content-transfer-encoding:content-transfer-encoding:
	 in-reply-to:in-reply-to:references:references;
	bh=1NWoU3oNLKXdGAS21M0bC7+FD15GTIkL0kQlYQf/mAw=;
	b=X9AMrKwCFkauV1DKTVIEE+qGM2FG1NTvSzWTmV79baKdAnr8JOXd0UzWf4lXz9eRSwPsmJ
	xUlRA/NNXsMhUd+q5AubG2ApMlLTNXk5xLpCNocAJIIsPrKSI0L4SkGbNsxx3zBpI/B7Hw
	DoLUtRX1d5mdreKgoItEtz++Kk7gaXI=
From: Gang Li <gang.li@linux.dev>
To: David Hildenbrand <david@redhat.com>,
	David Rientjes <rientjes@google.com>,
	Mike Kravetz <mike.kravetz@oracle.com>,
	Muchun Song <muchun.song@linux.dev>,
	Andrew Morton <akpm@linux-foundation.org>,
	Tim Chen <tim.c.chen@linux.intel.com>
Cc: linux-mm@kvack.org,
	linux-kernel@vger.kernel.org,
	ligang.bdlg@bytedance.com,
	Gang Li <gang.li@linux.dev>
Subject: [PATCH v4 6/7] hugetlb: parallelize 2M hugetlb allocation and initialization
Date: Thu, 18 Jan 2024 20:39:10 +0800
Message-Id: <20240118123911.88833-7-gang.li@linux.dev>
In-Reply-To: <20240118123911.88833-1-gang.li@linux.dev>
References: <20240118123911.88833-1-gang.li@linux.dev>
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
X-Migadu-Flow: FLOW_OUT
X-Rspamd-Queue-Id: D47E240007
X-Rspam-User: 
X-Rspamd-Server: rspam05
X-Stat-Signature: csam4zh4ryc9zmueogseo7ainhe38osg
X-HE-Tag: 1705581577-456557
X-HE-Meta: U2FsdGVkX18vHLP9CKOtY7PeKjmC0z9d7ea17JwRPUz7HrGrlX9RTBE+F+HJWPv6vDLEWw9xmPYsRlRQP68SkncjlmrvLVt0fxeLe7gAljd7pX9shD6kds4jCDT2XLrexYLWXXnHfUCc5m6ABE3GqYwh5cb70ZMeTTx4ucE53uudrR9l6RrGJsaTF7oXfBYrrjw1eV841vY5IJ1kt2lMQtzjYWUtF+u5Yi5yMnGNH+iEks374Whc+Xd35vU22v4NXdgDtyvQMZcx9I0XZ+jiZ4Tjjf1pjzW4COukkGTgnmXlc6shNj6fQYWNyvuqxFsNNxDbIfBlVgiccknnEFYXhOnPJRGjwUNPKkWJBG2H0ORt1D8lJrS1wrx+Z3+wl+nPp9xpnzNZTOnMRVZuW6h6b57V1shys5tukQ/XhNcDHqEexRvUzlJ5u1tdrvqY8MKm3SeDmPJvkCkjV2GwmjmNOJavTJ2bfJwb9nj91tqtw3YhtzS0Pu1RMXSGkwpkhBG67dlUpeVUcTgyeHOJ5oKaZXdv+bhUicOhNh1HRY/xF6zwU52jtcsEkhW/vKiILcSLpYcpDq2k8VEiqqXoh41Xjm3oV4WXaHN8H4V/I2AXkTDhcKUuQYOuEVfvdwPFZvIn9Ifei5Zz1ufFJDfDRg6G8MrsiYk7/D9c/hauGRY/lRPiIN1uZ9gFJYkC2P7qv0bcTuLkbHzK+wK1/abuCfEOsbrIpXd4fBlh0FxAr8vPk0YIPQHj9xc0zoyGc59sa7mIxJ0qvPDdZjhDcMV2+5pl7nUg6gprdcc4UABWn1UhrYP7VtYmelgs2oTysoUY/pZ3dpDFfD7npbLc+ZOal1K6y8sbsNGsWxazPXJHu+5clOAdE0SK3VMR/bqBHpuiqV1Y1hKntQO9yjAWZa0/5uNt4eCR8HQbz8OG1gDzYvGL+CQm/7d8VOBU7zBsNo8a9DmvULqNa8SeT+y6z3aCzvD
 8Dw0+60Z
 KoLi7tdppyppvWKcHkSXXQzqNAtozuCNMbp3KLwjIulbELgVnokC/yuCqiYQbaObzr7ASn4x8nR3Dj+sYr2aOO2tG7EZdGn9oMyP9
X-Bogosity: Ham, tests=bogofilter, spamicity=0.000000, version=1.2.4
Sender: owner-linux-mm@kvack.org
Precedence: bulk
X-Loop: owner-majordomo@kvack.org
List-ID: <linux-mm.kvack.org>
List-Subscribe: <mailto:majordomo@kvack.org>
List-Unsubscribe: <mailto:majordomo@kvack.org>

By distributing both the allocation and the initialization tasks across
multiple threads, the initialization of 2M hugetlb will be faster,
thereby improving the boot speed.

Here are some test results:
        test          no patch(ms)   patched(ms)   saved
 ------------------- -------------- ------------- --------
  256c2t(4 node) 2M           3336          1051   68.52%
  128c1t(2 node) 2M           1943           716   63.15%

Signed-off-by: Gang Li <gang.li@linux.dev>
Tested-by: David Rientjes <rientjes@google.com>
---
 mm/hugetlb.c | 70 ++++++++++++++++++++++++++++++++++++++--------------
 1 file changed, 52 insertions(+), 18 deletions(-)

diff --git a/mm/hugetlb.c b/mm/hugetlb.c
index effe5539e545..9b348ba418f5 100644
--- a/mm/hugetlb.c
+++ b/mm/hugetlb.c
@@ -35,6 +35,7 @@
 #include <linux/delayacct.h>
 #include <linux/memory.h>
 #include <linux/mm_inline.h>
+#include <linux/padata.h>
 
 #include <asm/page.h>
 #include <asm/pgalloc.h>
@@ -3510,43 +3511,76 @@ static void __init hugetlb_hstate_alloc_pages_errcheck(unsigned long allocated,
 	}
 }
 
-static unsigned long __init hugetlb_gigantic_pages_alloc_boot(struct hstate *h)
+static void __init hugetlb_alloc_node(unsigned long start, unsigned long end, void *arg)
 {
-	unsigned long i;
+	struct hstate *h = (struct hstate *)arg;
+	int i, num = end - start;
+	nodemask_t node_alloc_noretry;
+	unsigned long flags;
+	int next_node = 0;
 
-	for (i = 0; i < h->max_huge_pages; ++i) {
-		if (!alloc_bootmem_huge_page(h, NUMA_NO_NODE))
+	/* Bit mask controlling how hard we retry per-node allocations.*/
+	nodes_clear(node_alloc_noretry);
+
+	for (i = 0; i < num; ++i) {
+		struct folio *folio = alloc_pool_huge_folio(h, &node_states[N_MEMORY],
+						&node_alloc_noretry, &next_node);
+		if (!folio)
 			break;
+		spin_lock_irqsave(&hugetlb_lock, flags);
+		__prep_account_new_huge_page(h, folio_nid(folio));
+		enqueue_hugetlb_folio(h, folio);
+		spin_unlock_irqrestore(&hugetlb_lock, flags);
 		cond_resched();
 	}
+}
 
-	return i;
+static void __init hugetlb_vmemmap_optimize_node(unsigned long start, unsigned long end, void *arg)
+{
+	struct hstate *h = (struct hstate *)arg;
+	int nid = start;
+
+	hugetlb_vmemmap_optimize_folios(h, &h->hugepage_freelists[nid]);
 }
 
-static unsigned long __init hugetlb_pages_alloc_boot(struct hstate *h)
+static unsigned long __init hugetlb_gigantic_pages_alloc_boot(struct hstate *h)
 {
 	unsigned long i;
-	struct folio *folio;
-	LIST_HEAD(folio_list);
-	nodemask_t node_alloc_noretry;
-
-	/* Bit mask controlling how hard we retry per-node allocations.*/
-	nodes_clear(node_alloc_noretry);
 
 	for (i = 0; i < h->max_huge_pages; ++i) {
-		folio = alloc_pool_huge_folio(h, &node_states[N_MEMORY],
-						&node_alloc_noretry);
-		if (!folio)
+		if (!alloc_bootmem_huge_page(h, NUMA_NO_NODE))
 			break;
-		list_add(&folio->lru, &folio_list);
 		cond_resched();
 	}
 
-	prep_and_add_allocated_folios(h, &folio_list);
-
 	return i;
 }
 
+static unsigned long __init hugetlb_pages_alloc_boot(struct hstate *h)
+{
+	struct padata_mt_job job = {
+		.fn_arg		= h,
+		.align		= 1,
+		.numa_aware	= true
+	};
+
+	job.thread_fn	= hugetlb_alloc_node;
+	job.start	= 0;
+	job.size	= h->max_huge_pages;
+	job.min_chunk	= h->max_huge_pages / num_node_state(N_MEMORY) / 2;
+	job.max_threads	= num_node_state(N_MEMORY) * 2;
+	padata_do_multithreaded(&job);
+
+	job.thread_fn	= hugetlb_vmemmap_optimize_node;
+	job.start	= 0;
+	job.size	= num_node_state(N_MEMORY);
+	job.min_chunk	= 1;
+	job.max_threads	= num_node_state(N_MEMORY);
+	padata_do_multithreaded(&job);
+
+	return h->nr_huge_pages;
+}
+
 /*
  * NOTE: this routine is called in different contexts for gigantic and
  * non-gigantic pages.
-- 
2.20.1