داوری, ابوالفضل, مهدوی نجف آبادی, رسول, رضایی, مرضیه, بذرافشان, ام البنین, شهریاری, علیرضا. (1404). پیشبینی تأثیر پیوند از دور بر شاخص PM2.5 در استان سیستان و بلوچستان با استفاده از مدلهای یادگیری ماشین. سامانه مدیریت نشریات علمی, (), -. doi: 10.22092/wmrj.2025.369570.1624
ابوالفضل داوری; رسول مهدوی نجف آبادی; مرضیه رضایی; ام البنین بذرافشان; علیرضا شهریاری. "پیشبینی تأثیر پیوند از دور بر شاخص PM2.5 در استان سیستان و بلوچستان با استفاده از مدلهای یادگیری ماشین". سامانه مدیریت نشریات علمی, , , 1404, -. doi: 10.22092/wmrj.2025.369570.1624
داوری, ابوالفضل, مهدوی نجف آبادی, رسول, رضایی, مرضیه, بذرافشان, ام البنین, شهریاری, علیرضا. (1404). 'پیشبینی تأثیر پیوند از دور بر شاخص PM2.5 در استان سیستان و بلوچستان با استفاده از مدلهای یادگیری ماشین', سامانه مدیریت نشریات علمی, (), pp. -. doi: 10.22092/wmrj.2025.369570.1624
داوری, ابوالفضل, مهدوی نجف آبادی, رسول, رضایی, مرضیه, بذرافشان, ام البنین, شهریاری, علیرضا. پیشبینی تأثیر پیوند از دور بر شاخص PM2.5 در استان سیستان و بلوچستان با استفاده از مدلهای یادگیری ماشین. سامانه مدیریت نشریات علمی, 1404; (): -. doi: 10.22092/wmrj.2025.369570.1624
پیشبینی تأثیر پیوند از دور بر شاخص PM2.5 در استان سیستان و بلوچستان با استفاده از مدلهای یادگیری ماشین
1گروه مهندسی منابع طبیعی، دانشکدة علوم کشاورزی و منابع طبیعی، دانشگاه هرمزگان، بندر عباس، ایران
2دانشیار مهندسی منابع طبیعی و ژئومرفولوژی، دانشکده کشاورزی و منابع طبیعی، دانشگاه هرمزگان، بندرعباس، ایران
3گروه فضای سبز، دانشکدة جغرافیا و برنامه ریزی محیطی، دانشگاه سیستان و بلوچستان، زاهدان، ایران
چکیده
مقدمه و هدف آلودگی هوا، بهویژه افزایش غلظت ذرات معلق PM2.5، در سالهای اخیر بهعنوان یکی از چالشهای مهم زیستمحیطی مطرح شده است. استان سیستان و بلوچستان به دلیل موقعیت جغرافیایی خاص این استان که در مسیر بادهای ۱۲۰ روزه سیستان قرار دارد، همراه با کاهش بارندگیهای سالانه، شرایط ایدهآلی برای تشکیل و تشدید پدیده گرد و غبار را فراهم میکند. در این راستا، پدیدههای پیوند از دور (Teleconnections) نقش مهمی در تغییرات اقلیمی و به تبع آن در کیفیت هوا ایفا میکنند. هدف اصلی این پژوهش، پیشبینی تأثیر شاخصهای پیوند از دور بر تغییرات PM2.5 در استان سیستان و بلوچستان با استفاده از مدلهای پیشرفته یادگیری ماشین است. بدین منظور، دادههای هواشناسی و غلظت PM2.5 طی دو دهه از ایستگاههای زاهدان و خاش جمعآوری و با شاخصهای پیوند از دور تلفیق شدند. سپس با بهکارگیری روشهای تحلیل همبستگی و انتخاب ویژگی، پنج مدل یادگیری ماشین ارزیابی شدند تا بهترین مدل برای پیشبینی بلندمدت شناسایی شود. این مطالعه نهتنها به درک بهتر روابط پیچیده بین نوسانات اقلیمی و کیفیت هوا کمک میکند، بلکه با ارائه یک چارچوب تحلیلی دقیق، ابزاری کاربردی برای سیاستگذاران در مدیریت آلودگی هوا فراهم مینماید.
مواد و روشها روش تحقیق این پژوهش از یک چارچوب تحلیلی چندمرحلهای جامع بهره گرفته که در آن دادههای هواشناسی و غلظت ذرات PM2.5 از ایستگاههای زاهدان و خاش طی دوره ۲۰۰۰ تا ۲۰۲۱ جمعآوری شده و با دادههای شاخص پیوند از دور مرکز پیشبینی اقلیم NOAA تکمیل گردیده است. پس از انجام پیشپردازش دقیق دادهها شامل کنترل کیفیت، همزمانسازی زمانی و جایگزینی دادههای مفقود، یک رویکرد تحلیلی دوگانه اجرا شد: ابتدا از تحلیل همبستگی پیرسون برای سنجش روابط خطی بین شاخصهای پیوند از دور و سطوح PM2.5 استفاده گردید و سپس الگوریتم Boruta موثرترین ویژگیها را در تأخیرهای زمانی صفر تا ۶ ماهه شناسایی نمود. پنج مدل پیشرفته یادگیری ماشین شامل Bagged CART، LightGBM، Gradient Boosting، Random Forest و XGBoost مورد ارزیابی قرار گرفتند که ۷۰ درصد دادهها برای آموزش مدل و مابقی برای اعتبارسنجی استفاده شد. ارزیابی عملکرد با سه معیار ریشه میانگین مربعات خطا (RMSE)، میانگین درصد خطای مطلق (MAPE) و ضریب تعیین (R²) انجام پذیرفت و برای تفسیرپذیری مدلها، چهار تکنیک پیشرفته شامل اهمیت ویژگیهای جایگشتی (PFI)، مقادیر SHAP مبتنی بر تئوری بازیها، تحلیل حساسیت Sobol و نمودارهای وابستگی جزئی (PDP) به کار گرفته شد. کلیه تحلیلها در محیط نرمافزار R (نسخه ۴.۲.۰) انجام شده است. نتایج و بحث نتایج این مطالعه نشان داد که شاخصهای پیوند از دور تأثیر معناداری بر غلظت ذرات PM2.5 در ایستگاههای زاهدان و خاش دارند. در ایستگاه زاهدان، شاخص PDO بیشترین همبستگی مثبت (158/0 با تأخیر 5 ماهه) و شاخص AMO بیشترین تأثیر مثبت (212/0 با تأخیر صفر ماهه) را نشان داد. در مقابل، شاخص AMM بیشترین همبستگی منفی (336/0- با تأخیر 2 ماهه) و شاخص WHWP قویترین تأثیر منفی (420/0- با تأخیر 4 ماهه) را داشت. در ایستگاه خاش، شاخص PDO بیشترین همبستگی مثبت (159/0 با تأخیر 2 ماهه) و WHWP بیشترین اثر منفی (385/0- با تأخیر 4 ماهه) را نشان داد. تحلیل اهمیت ویژگیها با روش Boruta نشان داد که WHWP بیشترین نقش پیشبینیکننده را برای PM2.5 دارد، با میانگین امتیاز اهمیت 63/13 در تأخیر 6 ماهه در زاهدان و 51/10 در تأخیر 5 ماهه در خاش. در ارزیابی مدلها، XGBoost به عنوان مدل برتر شناخته شد که با دقت استثنایی (989/0=R² در زاهدان و 994/0-993/0=R² در خاش) و حداقل خطا (07/3-36/2MAPE= در زاهدان و 8/1-5/1MAPE= در خاش) عمل کرد. تحلیلهای حساسیت نشان داد که AMM بیشترین تأثیر کلی را دارد، با امتیاز اهمیت 685 در زاهدان و 561 در خاش، در حالی که شاخصهای WHWP و AMO رفتارهای غیرخطی پیچیدهای در زمانهای تأخیر خاص نشان دادند. این یافتهها به طور جمعی نشان میدهند که نوسانات اقیانوسی-جوی، با ضرایب همبستگی بین 15/0 تا 42/0 و امتیازهای اهمیت متغیر بین 6/5 تا 6/13، تأثیر قابل توجهی بر کیفیت هوای منطقه دارند. عملکرد برجسته مدل XGBoost نشاندهنده پتانسیل قوی آن برای کاربردهای پیشبینی بلندمدت PM2.5 در منطقه مورد مطالعه است. نتیجهگیری و پیشنهادها نتایج تحلیل همبستگی نشان داد که شاخصهای PDO و AMO بیشترین تأثیر مثبت را بر غلظت PM2.5 در زاهدان داشتهاند، در حالی که شاخصهای AMM و WHWP در این ایستگاه تأثیر منفی نشان دادند. یافتههای روش Boruta تأیید میکند که شاخصهای WHWP و AMM در پیشبینی PM2.5 در تأخیرهای زمانی خاص نقش کلیدی ایفا میکنند، بهطوری که WHWP در تأخیرهای بلندمدتتر (4 تا 6 ماهه) بیشترین تأثیر را دارد. در بخش مدلسازی، XGBoost به عنوان بهترین مدل با دقت بالا و کمترین خطا شناسایی شد. تحلیلهای SHAP، Sobol و PDP نشان دادند که شاخصهای مرتبط با اقیانوس اطلس (AMM و AMO) در زاهدان تأثیر غالب دارند، در حالی که رفتار غیرخطی شاخصهایی مانند WHWP در محدودههای خاصی از مقادیر منجر به تغییرات ناگهانی در پیشبینیها میشود. در ایستگاه خاش، شاخص PDO بیشترین همبستگی مثبت و WHWP بیشترین تأثیر منفی را نشان داد که بیانگر تأثیر قابل توجه نوسانات اقیانوسی بر کیفیت هوا است. تحلیل اهمیت ویژگیها با روش Boruta در ایستگاه خاش نشان داد که شاخصهای AMM، AMO، PDO و WHWP نقش کلیدی در پیشبینی PM2.5 ایفا میکنند، در حالی که شاخصهای Tropical Northern Atlantic Index (TNA) و WP به دلیل اهمیت کم رد شدند. در بخش مدلسازی، XGBoost به عنوان بهترین مدل شناسایی شد. تحلیلهای PDP نشان دادند که شاخصهای اقلیمی تأثیرات غیرخطی و پیچیدهای بر PM2.5 دارند، بهطوری که AMM رفتار نوسانی در تأخیرهای مختلف نشان میدهد و WHWP در تأخیر 5 ماهه باعث کاهش ناگهانی غلظت PM2.5 میشود.
1Department of Natural Resources Engineering, Faculty of Agricultural Science and Natural Resources, University of Hormozgan, Bandar Abbas, Iran
2Associate Professor of Natural Resources Engineering, University of Hormozgan, Bandar Abbas, Iran
3Department of green space, Faculty of Geography and Environmental planning, University of Sistan and Baluchestan, Zahedan, Iran
چکیده [English]
Air pollution, especially the increase in the concentration of PM2.5 particles, has been raised as one of the major environmental challenges in recent years. Due to its specific geographical location, which is located in the path of the 120-day Sistan winds, along with the decrease in annual rainfall, Sistan and Baluchestan province provides ideal conditions for the formation and intensification of dust phenomena. In this regard, teleconnections play an important role in climate change and, consequently, in air quality. The main objective of this research is to predict the impact of teleconnection indices on PM2.5 changes in Sistan and Baluchestan province using advanced machine learning models. For this purpose, meteorological data and PM2.5 concentrations were collected from Zahedan and Khash stations over two decades and combined with teleconnection indices. Then, using correlation analysis and feature selection methods, five machine learning models were evaluated to identify the best model for long-term forecasting. This study not only contributes to a better understanding of the complex relationships between climate variability and air quality, but also provides a practical tool for policymakers in air pollution management by providing a detailed analytical framework. Materials and Methods Research Methodology This study used a comprehensive multi-stage analytical framework in which meteorological data and PM2.5 particle concentration were collected from Zahedan and Khash stations during the period 2000 to 2021 and supplemented with NOAA Climate Prediction Center remote sensing index data. After performing careful data preprocessing including quality control, temporal synchronization, and missing data replacement, a dual analytical approach was implemented: first, Pearson correlation analysis was used to measure linear relationships between remote sensing indices and PM2.5 levels, and then the Boruta algorithm identified the most effective features at time lags of 0 to 6 months. Five advanced machine learning models including Bagged CART, LightGBM, Gradient Boosting, Random Forest, and XGBoost were evaluated, with 70% of the data used for model training and the rest for validation. Performance evaluation was performed using three criteria: root mean square error (RMSE), mean absolute percentage error (MAPE), and coefficient of determination (R²). For interpretability of the models, four advanced techniques were used, including permutation feature importance (PFI), SHAP values based on game theory, Sobol sensitivity analysis, and partial dependency diagrams. All analyses were performed in the R software environment. Results and Discussion The results of this study showed that the remote linkage indices have a significant effect on the concentration of PM2.5 particles at Zahedan and Khash stations. At Zahedan station, the PDO index showed the highest positive correlation (0.158 with a 5-month lag) and the AMO index showed the highest positive effect (0.212 with a 0-month lag). In contrast, the AMM index had the highest negative correlation (-0.336 with a 2-month lag) and the WHWP index had the strongest negative effect (-0.420 with a 4-month lag). At Khash station, the PDO index showed the highest positive correlation (0.159 with a 2-month lag) and the WHWP index showed the highest negative effect (-0.385 with a 4-month lag). The feature importance analysis with Boruta method showed that WHWP has the most predictive role for PM2.5, with an average importance score of 13.63 at 6-month lag in Zahedan and 10.51 at 5-month lag in Khash. In the evaluation of the models, XGBoost was identified as the superior model, performing with exceptional accuracy (R²=0.989 in Zahedan and R²=0.993-0.994 in Khash) and minimal error (MAPE=2.36-3.07 in Zahedan and MAPE=1.5-1.8 in Khash). Sensitivity analyses showed that AMM has the most overall impact, with an importance score of 685 in Zahedan and 561 in Khash, while WHWP and AMO indices showed complex nonlinear behaviors at specific lag times. Collectively, these findings indicate that ocean-atmosphere oscillations have a significant impact on regional air quality, with correlation coefficients ranging from 0.15 to 0.42 and significance scores ranging from 5.6 to 13.6. The outstanding performance of the XGBoost model indicates its strong potential for long-term PM2.5 forecasting applications in the study region. Conclusion and Suggestions The results of the correlation analysis showed that the PDO and AMO indices had the most positive effect on PM2.5 concentration in Zahedan, while the AMM and WHWP indices had a negative effect at this station. The findings of the Boruta method confirm that the WHWP and AMM indices play a key role in predicting PM2.5 at specific time lags, with WHWP having the most impact at longer time lags (4 to 6 months). In the modeling section, XGBoost was identified as the best model with high accuracy and the least error. SHAP, Sobol and PDP analyses showed that the Atlantic-related indices (AMM and AMO) have a dominant effect in Zahedan, while the nonlinear behavior of indices such as WHWP in certain ranges of values leads to sudden changes in the forecasts. At Khash station, PDO index showed the highest positive correlation and WHWP the highest negative impact, indicating the significant impact of oceanic oscillations on air quality. Feature importance analysis using Boruta method at Khash station showed that AMM, AMO, PDO and WHWP indices play a key role in predicting PM2.5, while Tropical Northern Atlantic Index (TNA) and WP indices were rejected due to low significance. In the modeling section, XGBoost was identified as the best model. PDP analyses showed that climate indices have nonlinear and complex effects on PM2.5, such that AMM shows oscillatory behavior at different lags and WHWP causes a sudden decrease in PM2.5 concentration at a lag of 5 months.