การจัดการข้อมูลขนาดใหญ่ในกลุ่มและที่เก็บข้อมูลบนคลาวด์ เครือข่ายมหาวิทยาลัย

รายละเอียด

ในหลักสูตรนี้คุณจะได้เรียนรู้วิธีจัดการชุดข้อมูลขนาดใหญ่วิธีโหลดลงในคลัสเตอร์และที่เก็บข้อมูลบนคลาวด์และวิธีใช้โครงสร้างกับข้อมูลเพื่อให้คุณสามารถเรียกใช้การสืบค้นโดยใช้เอ็นจิ้น SQL แบบกระจายเช่น Apache Hive และ Apache Impala . คุณจะได้เรียนรู้วิธีการเลือกประเภทข้อมูลระบบจัดเก็บข้อมูลและรูปแบบไฟล์ที่เหมาะสมตามเครื่องมือที่คุณจะใช้และประสิทธิภาพที่คุณต้องการ

ในตอนท้ายของหลักสูตรคุณจะสามารถ
•ใช้เครื่องมือต่าง ๆ เพื่อเรียกดูฐานข้อมูลและตารางที่มีอยู่ในระบบข้อมูลขนาดใหญ่
•ใช้เครื่องมือต่าง ๆ ในการสำรวจไฟล์ในระบบไฟล์ข้อมูลขนาดใหญ่แบบกระจายและที่เก็บข้อมูลบนคลาวด์
•สร้างและจัดการฐานข้อมูลและตารางข้อมูลขนาดใหญ่โดยใช้ Apache Hive และ Apache Impala; และ
•อธิบายและเลือกประเภทข้อมูลและรูปแบบไฟล์ที่แตกต่างกันสำหรับระบบข้อมูลขนาดใหญ่

ในการใช้สภาพแวดล้อมจริงสำหรับหลักสูตรนี้คุณจะต้องดาวน์โหลดและติดตั้งเครื่องเสมือนและซอฟต์แวร์ที่ใช้งาน ก่อนดำเนินการต่อตรวจสอบให้แน่ใจว่าคุณสามารถเข้าถึงคอมพิวเตอร์ที่ตรงตามข้อกำหนดของฮาร์ดแวร์และซอฟต์แวร์ต่อไปนี้:
•ระบบปฏิบัติการ Windows, macOS หรือ Linux (iPads และแท็บเล็ต Android จะไม่ทำงาน)
•ระบบปฏิบัติการ 64 บิต (ระบบปฏิบัติการ 32 บิตจะไม่ทำงาน)
• RAM 8 GB ขึ้นไป
•เนื้อที่ว่างบนดิสก์ 25GB ขึ้นไป
•รองรับการเปิดใช้งานการจำลองเสมือน Intel VT-x หรือ AMD-V (สำหรับคอมพิวเตอร์ Mac ที่มีโปรเซสเซอร์ Intel ซึ่งจะเปิดใช้งานเสมอ;
บนคอมพิวเตอร์ Windows และ Linux คุณอาจต้องเปิดใช้งานใน BIOS)
•สำหรับคอมพิวเตอร์ Windows XP เท่านั้น: คุณต้องมียูทิลิตี unzip เช่น 7-Zip หรือ WinZip ติดตั้ง (ยูทิลิตี้ unzip ในตัวของ Windows XP จะไม่ทำงาน)