การวิเคราะห์ข้อมูลขนาดใหญ่โดยใช้ Spark

รายละเอียด

ในทางวิทยาศาสตร์ข้อมูลข้อมูลเรียกว่า "ใหญ่" หากไม่สามารถใส่ลงในหน่วยความจำของแล็ปท็อปหรือเวิร์กสเตชันมาตรฐานเดียวได้ การวิเคราะห์ชุดข้อมูลขนาดใหญ่ต้องใช้คลัสเตอร์ของคอมพิวเตอร์หลายสิบหลายร้อยหรือหลายพันเครื่อง การใช้คลัสเตอร์ดังกล่าวอย่างมีประสิทธิภาพจำเป็นต้องใช้ระบบไฟล์แบบกระจายเช่น Hadoop Distributed File System (HDFS) และโมเดลการคำนวณที่เกี่ยวข้องเช่น Hadoop, MapReduce และ Spark ในหลักสูตรนี้เป็นส่วนหนึ่งของโปรแกรม Data Science MicroMasters คุณจะได้เรียนรู้ว่าปัญหาคอขวดคืออะไรในการคำนวณแบบขนานขนาดใหญ่และวิธีการใช้ประกายไฟเพื่อลดปัญหาคอขวดเหล่านี้ คุณจะได้เรียนรู้วิธีดำเนินการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแลบนชุดข้อมูลขนาดใหญ่โดยใช้ Machine Learning Library (MLlib) ในหลักสูตรนี้เช่นเดียวกับหลักสูตรอื่น ๆ ในโปรแกรม MicroMasters นี้คุณจะได้รับประสบการณ์การใช้งาน PySpark ภายในสภาพแวดล้อมของโน้ตบุ๊ก Jupyter