การทำนายและการควบคุมด้วยการประมาณฟังก์ชั่น

รายละเอียด

ในหลักสูตรนี้คุณจะได้เรียนรู้วิธีแก้ปัญหาเกี่ยวกับช่องว่างขนาดใหญ่มิติสูงและอาจไม่มีที่สิ้นสุด คุณจะเห็นว่าฟังก์ชันการประมาณค่าสามารถใช้เป็นปัญหาการเรียนรู้ภายใต้การดูแลได้นั่นคือการประมาณฟังก์ชันช่วยให้คุณสร้างตัวแทนที่สร้างความสมดุลระหว่างลักษณะทั่วไปและการเลือกปฏิบัติอย่างรอบคอบเพื่อให้ได้รับรางวัลสูงสุด เราจะเริ่มต้นการเดินทางครั้งนี้ด้วยการตรวจสอบว่าวิธีการประเมินนโยบายหรือการคาดการณ์เช่น Monte Carlo และ TD สามารถขยายไปสู่การตั้งค่าการประมาณฟังก์ชันได้อย่างไร คุณจะได้เรียนรู้เกี่ยวกับเทคนิคการสร้างคุณลักษณะสำหรับ RL และการเรียนรู้การเป็นตัวแทนผ่านเครือข่ายประสาทเทียมและ backprop เราสรุปหลักสูตรนี้ด้วยการเจาะลึกเกี่ยวกับวิธีการไล่ระดับนโยบาย วิธีเรียนรู้นโยบายโดยตรงโดยไม่ต้องเรียนรู้ฟังก์ชันค่า ในหลักสูตรนี้คุณจะแก้ไขภารกิจการควบคุมสภาวะต่อเนื่องสองงานและตรวจสอบประโยชน์ของวิธีการไล่ระดับนโยบายในสภาพแวดล้อมการดำเนินการต่อเนื่อง

วิชาบังคับก่อน: หลักสูตรนี้สร้างขึ้นจากพื้นฐานของหลักสูตร 1 และ 2 อย่างมากและผู้เรียนควรเรียนให้จบก่อนเริ่มหลักสูตรนี้ นอกจากนี้ผู้เรียนควรสบายใจกับความน่าจะเป็นและความคาดหวังพีชคณิตเชิงเส้นพื้นฐานแคลคูลัสพื้นฐาน Python 3.0 (อย่างน้อย 1 ปี) และการใช้อัลกอริทึมจาก pseudocode

เมื่อจบหลักสูตรนี้คุณจะสามารถ:

เข้าใจวิธีใช้วิธีการเรียนรู้แบบมีผู้สอนเพื่อฟังก์ชั่นค่าโดยประมาณ
- ทำความเข้าใจกับวัตถุประสงค์ของการทำนาย (การประมาณค่า) ภายใต้ฟังก์ชันการประมาณ
- ใช้ TD กับการประมาณฟังก์ชั่น (การรวมสถานะ) บนสภาพแวดล้อมที่มีพื้นที่สถานะไม่ จำกัด (พื้นที่สถานะต่อเนื่อง)
- ทำความเข้าใจพื้นฐานที่คงที่และแนวทางโครงข่ายประสาทเทียมเพื่อสร้างคุณลักษณะ
- ใช้ TD กับการประมาณฟังก์ชั่นเครือข่ายประสาทเทียมในสภาพแวดล้อมของรัฐอย่างต่อเนื่อง
- ทำความเข้าใจกับปัญหาใหม่ในการสำรวจเมื่อเคลื่อนที่ไปยังการประมาณฟังก์ชั่น
-Contrast ลดปัญหาสูตรสำหรับการควบคุมกับการกำหนดปัญหาเฉลี่ยรางวัล
- ใช้ Sarsa และ Q-learning ที่คาดไว้พร้อมฟังก์ชั่นการประมาณค่าบนงานควบคุมสถานะอย่างต่อเนื่อง
- เข้าใจวัตถุประสงค์สำหรับการประเมินนโยบายโดยตรง (วัตถุประสงค์การไล่ระดับนโยบาย)
- ใช้วิธีการไล่ระดับนโยบาย (เรียกว่า Actor-Critic) ในสภาพแวดล้อมของรัฐที่ไม่ต่อเนื่อง