วิธีการเรียนรู้แบบตัวอย่าง | เครือข่ายมหาวิทยาลัย

รายละเอียด

ในหลักสูตรนี้คุณจะได้เรียนรู้เกี่ยวกับอัลกอริทึมต่างๆที่สามารถเรียนรู้นโยบายที่เหมาะสมที่สุดโดยอาศัยการลองผิดลองถูกกับสิ่งแวดล้อมนั่นคือการเรียนรู้จากประสบการณ์ของตัวแทน การเรียนรู้จากประสบการณ์จริงเป็นสิ่งที่น่าประทับใจเนื่องจากไม่จำเป็นต้องมีความรู้มาก่อนเกี่ยวกับพลวัตของสิ่งแวดล้อม แต่ก็ยังสามารถบรรลุพฤติกรรมที่เหมาะสมได้ เราจะกล่าวถึงวิธีการแบบมอนติคาร์โลที่เรียบง่าย แต่ทรงพลังและวิธีการเรียนรู้ที่แตกต่างชั่วคราว เราจะสรุปหลักสูตรนี้เพื่อตรวจสอบว่าเราจะได้รับสิ่งที่ดีที่สุดจากทั้งสองโลกได้อย่างไร: อัลกอริทึมที่สามารถรวมการวางแผนตามแบบจำลอง (คล้ายกับการเขียนโปรแกรมแบบไดนามิก) และการอัปเดตความแตกต่างชั่วคราวเพื่อเร่งการเรียนรู้อย่างรุนแรง

ในตอนท้ายของหลักสูตรนี้คุณจะสามารถ:

- ทำความเข้าใจเกี่ยวกับการเรียนรู้เกี่ยวกับความแตกต่างระหว่างโลกและมอนติคาร์โลเป็นสองกลยุทธ์ในการประมาณค่าฟังก์ชันจากประสบการณ์ตัวอย่าง
- เข้าใจถึงความสำคัญของการสำรวจเมื่อใช้ประสบการณ์ตัวอย่างมากกว่าการเขียนโปรแกรมแบบไดนามิกภายในแบบจำลอง
- ทำความเข้าใจการเชื่อมต่อระหว่าง Monte Carlo และ Dynamic Programming และ TD
- ติดตั้งและประยุกต์ใช้อัลกอริทึม TD สำหรับการประมาณค่าฟังก์ชัน
- ดำเนินการและประยุกต์ใช้ Sarsa และ Q-learning ที่คาดหวัง (วิธี TD สองวิธีสำหรับการควบคุม)
- เข้าใจความแตกต่างระหว่างนโยบายและการควบคุมนอกนโยบาย
- เข้าใจการวางแผนด้วยประสบการณ์จำลอง (ตรงข้ามกับกลยุทธ์การวางแผนแบบคลาสสิก)
- ใช้แนวทางแบบจำลองสำหรับ RL ที่เรียกว่า Dyna ซึ่งใช้ประสบการณ์จำลอง
- ทำการศึกษาเชิงประจักษ์เพื่อดูการปรับปรุงประสิทธิภาพของตัวอย่างเมื่อใช้ Dyna