การวิเคราะห์ข้อมูลขนาดใหญ่ด้วยสกาล่าและสปาร์ค เครือข่ายมหาวิทยาลัย

รายละเอียด

การจัดการข้อมูลขนาดใหญ่ที่กระจายไปทั่วคลัสเตอร์โดยใช้แนวคิดเชิงฟังก์ชันเป็นเรื่องที่แพร่หลายในอุตสาหกรรมและถือเป็นหนึ่งในการใช้แนวคิดเชิงฟังก์ชันในเชิงอุตสาหกรรมอย่างแพร่หลาย นี่เป็นหลักฐานจากความนิยมของ MapReduce และ Hadoop และล่าสุด Apache Spark ซึ่งเป็นเฟรมเวิร์กคอลเลกชันแบบกระจายในหน่วยความจำที่รวดเร็วซึ่งเขียนด้วย Scala ในหลักสูตรนี้เราจะดูว่ากระบวนทัศน์คู่ขนานของข้อมูลสามารถขยายไปยังกรณีแบบกระจายได้อย่างไรโดยใช้ Spark ตลอด เราจะกล่าวถึงโมเดลการเขียนโปรแกรมของ Spark โดยละเอียดโดยต้องทำความเข้าใจว่ามันแตกต่างจากโมเดลการเขียนโปรแกรมที่คุ้นเคยอย่างไรและเมื่อใดเช่นคอลเลคชันคู่ขนานของหน่วยความจำที่ใช้ร่วมกันหรือคอลเลกชัน Scala แบบลำดับ จากตัวอย่างภาคปฏิบัติใน Spark และ Scala เราจะเรียนรู้ว่าเมื่อใดควรพิจารณาประเด็นสำคัญที่เกี่ยวข้องกับการกระจายเช่นเวลาในการตอบสนองและการสื่อสารบนเครือข่ายและวิธีแก้ไขอย่างมีประสิทธิภาพเพื่อเพิ่มประสิทธิภาพ

ผลการเรียนรู้. ในตอนท้ายของหลักสูตรนี้คุณจะสามารถ:

- อ่านข้อมูลจากที่เก็บข้อมูลถาวรและโหลดลงใน Apache Spark
- จัดการข้อมูลด้วย Spark และ Scala
- อัลกอริทึมด่วนสำหรับการวิเคราะห์ข้อมูลในรูปแบบการทำงาน
- รู้จักวิธีหลีกเลี่ยงการสุ่มและการคำนวณซ้ำใน Spark

พื้นหลังที่แนะนำ: คุณควรมีประสบการณ์การเขียนโปรแกรมอย่างน้อยหนึ่งปี ความสามารถในการใช้ Java หรือ C # นั้นเหมาะสมที่สุด แต่ประสบการณ์กับภาษาอื่นเช่น C / C ++, Python, Javascript หรือ Ruby ก็เพียงพอแล้วเช่นกัน คุณควรมีความคุ้นเคยกับการใช้บรรทัดคำสั่ง หลักสูตรนี้มีวัตถุประสงค์เพื่อดำเนินการหลังจากการเขียนโปรแกรมแบบขนาน: https://www.coursera.org/learn/parprog1