<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE ArticleSet PUBLIC "-//NLM//DTD PubMed 2.7//EN" "https://dtd.nlm.nih.gov/ncbi/pubmed/in/PubMed.dtd">
<ArticleSet>
<Article>
<Journal>
				<PublisherName>مرکز تحقیقات راه ، مسکن و شهرسازی</PublisherName>
				<JournalTitle>پژوهشنامه حمل و نقل</JournalTitle>
				<Issn>1735-3459</Issn>
				<Volume>23</Volume>
				<Issue>1</Issue>
				<PubDate PubStatus="epublish">
					<Year>2026</Year>
					<Month>03</Month>
					<Day>21</Day>
				</PubDate>
			</Journal>
<ArticleTitle>Modeling Abnormal Traffic Behavior to Improve Lane-Changing Decisions of Autonomous Vehicles Using Reinforcement Learning</ArticleTitle>
<VernacularTitle>مدل‌سازی رفتار غیرعادی در ترافیک برای بهبود تصمیم‌گیری تغییر لاین خودروهای خودران با یادگیری تقویتی</VernacularTitle>
			<FirstPage>403</FirstPage>
			<LastPage>412</LastPage>
			<ELocationID EIdType="pii">237366</ELocationID>
			
<ELocationID EIdType="doi">10.22034/tri.2025.521539.3340</ELocationID>
			
			<Language>FA</Language>
<AuthorList>
<Author>
					<FirstName>مجید</FirstName>
					<LastName>دشتی ملجائی</LastName>
<Affiliation>دانشجوی دکترا، پردیس بین المللی کاسپین، دانشگاه تهران، تهران، ایران</Affiliation>

</Author>
<Author>
					<FirstName>سید امید</FirstName>
					<LastName>حسن پور جسری</LastName>
<Affiliation>استادیار، دانشکده فنی کاسپین، دانشکدگان فنی، دانشگاه تهران، تهران، ایران</Affiliation>

</Author>
</AuthorList>
				<PublicationType>Journal Article</PublicationType>
			<History>
				<PubDate PubStatus="received">
					<Year>2025</Year>
					<Month>10</Month>
					<Day>11</Day>
				</PubDate>
			</History>
		<Abstract>With the advancement of autonomous vehicle technologies, decision-making in complex traffic scenarios has become a significant challenge. This study models abnormal driver behaviors—such as sudden lane changes, unusual speeds, and erratic reactions—using the SUMO simulation environment. To enhance autonomous vehicles&#039; lane-changing decisions, Deep Q-Network (DQN) reinforcement learning was employed. The simulations included various driver types, such as normal, aggressive, overly cautious, and unpredictable drivers. Results indicate that the lane-changing success rate increased from 40% in the initial episodes to 80% in the final episodes, while collision rates dropped from 25% to below 10%. Rewards were defined based on speed (above 20 km/h: +10), lane position (center lane: +15), and collisions (-50). However, cumulative rewards showed high variance during early episodes and became more stable as learning progressed, reflecting the challenges of reinforcement learning in dynamic and unpredictable environments. Analysis reveals that the learning agent&#039;s performance remains unstable in unexpected situations, suggesting a need for further optimization. The study also proposes that more advanced methods, such as distributional reinforcement learning or integrating driver behavior prediction models, could improve decision-making. Ultimately, this research highlights the importance of more accurate modeling of real-world traffic conditions and hybrid approaches to ensure learning stability in autonomous vehicles.</Abstract>
			<OtherAbstract Language="FA">با پیشرفت فناوری خودروهای خودران، تصمیم‌گیری در شرایط ترافیکی پیچیده به چالشی اساسی تبدیل شده است. در این پژوهش، رفتارهای غیرعادی رانندگان مانند تغییر لاین ناگهانی، رانندگی با سرعت‌های غیرعادی و واکنش‌های نامنظم با استفاده از محیط شبیه‌سازی SUMO مدل‌سازی شده است. برای بهبود تصمیم‌گیری خودروهای خودران در تغییر لاین، از یادگیری تقویتی عمیق (DQN) استفاده شده است. شبیه‌سازی‌ها شامل انواع خودروها از جمله رانندگان عادی، پرخطر، محتاط بیش از حد و غیرقابل پیش‌بینی بوده است. نتایج نشان می‌دهد که نرخ موفقیت تغییر لاین از ۴۰٪ در اپیزودهای اولیه به ۸۰٪ در اپیزودهای پایانی افزایش یافته و میزان برخورد از ۲۵٪ به کمتر از ۱۰٪ کاهش پیدا کرده است. پاداش‌ها بر اساس سرعت (بیش از ۲۰: +۱۰)، موقعیت لاین (لاین وسط: +۱۵) و برخورد (-۵۰) تعیین شده‌اند. با این حال، پاداش‌های تجمعی در اپیزودهای اولیه نوسانات زیادی داشتند و با پیشرفت یادگیری پایدارتر شدند. این موضوع نشان‌دهنده چالش‌های یادگیری تقویتی در محیط‌های پویا و غیرقابل پیش‌بینی است. تحلیل‌ها حاکی از آن است که عامل یادگیرنده در موقعیت‌های غیرمنتظره عملکرد ناپایداری دارد و نیاز به بهینه‌سازی بیشتری دارد. این پژوهش همچنین پیشنهاد می‌دهد که روش‌های پیشرفته‌تر مانند یادگیری تقویتی توزیعی یا ترکیب مدل‌های پیش‌بینی رفتار رانندگان می‌تواند تصمیم‌گیری را بهبود دهد. در نهایت، این مطالعه بر اهمیت مدل‌سازی دقیق‌تر شرایط واقعی ترافیک و استفاده از روش‌های ترکیبی برای پایداری یادگیری در خودروهای خودران تاکید دارد.</OtherAbstract>
		<ObjectList>
			<Object Type="keyword">
			<Param Name="value">تغییرلاین</Param>
			</Object>
			<Object Type="keyword">
			<Param Name="value">خودروهای خودران</Param>
			</Object>
			<Object Type="keyword">
			<Param Name="value">رفتار غیرعادی رانندگان</Param>
			</Object>
			<Object Type="keyword">
			<Param Name="value">یادگیری تقویتی</Param>
			</Object>
		</ObjectList>
<ArchiveCopySource DocType="pdf">https://www.trijournal.ir/article_237366_c8be63301cf0198b524853baa7b3f2ed.pdf</ArchiveCopySource>
</Article>
</ArticleSet>
