การเรียนรู้ของเครื่อง: การจัดกลุ่มและการดึงข้อมูล

รายละเอียด

กรณีศึกษา: การค้นหาเอกสารที่คล้ายกัน

ผู้อ่านสนใจบทความข่าวที่เฉพาะเจาะจงและคุณต้องการค้นหาบทความที่คล้ายกันเพื่อแนะนำ แนวคิดที่ถูกต้องของความคล้ายคลึงกันคืออะไร? ยิ่งกว่านั้นจะเกิดอะไรขึ้นถ้ามีเอกสารอื่นอีกนับล้าน ทุกครั้งที่คุณต้องการเรียกเอกสารใหม่คุณจำเป็นต้องค้นหาเอกสารอื่น ๆ ทั้งหมดหรือไม่? คุณจัดกลุ่มเอกสารที่คล้ายกันอย่างไร คุณจะค้นพบหัวข้อใหม่ที่เกิดขึ้นใหม่ที่เอกสารครอบคลุมได้อย่างไร

ในกรณีศึกษาที่สามนี้การค้นหาเอกสารที่คล้ายกันคุณจะตรวจสอบอัลกอริทึมที่ยึดตามความคล้ายคลึงกันเพื่อรับข้อมูล ในหลักสูตรนี้คุณจะตรวจสอบการรับรองโครงสร้างเพื่ออธิบายเอกสารในคลังข้อมูลรวมถึงโมเดลการรวมกลุ่มและการเป็นสมาชิกแบบผสมเช่นการปันส่วน Dirichlet (LDA) ที่แฝงอยู่ คุณจะใช้การคาดหวังสูงสุด (EM) เพื่อเรียนรู้การจัดกลุ่มเอกสารและดูวิธีการปรับขนาดวิธีการใช้ MapReduce

ผลลัพธ์การเรียนรู้: ในตอนท้ายของหลักสูตรนี้คุณจะสามารถ:
- สร้างระบบดึงเอกสารโดยใช้เค - เพื่อนบ้านที่ใกล้ที่สุด
- ระบุตัวชี้วัดความคล้ายคลึงกันต่างๆสำหรับข้อมูลข้อความ
ลดการคำนวณในการค้นหาเพื่อนบ้าน k- ใกล้ที่สุดโดยใช้ต้นไม้ KD
- ผลิตเพื่อนบ้านที่ใกล้เคียงที่สุดโดยประมาณโดยใช้การแฮชที่มีความละเอียดอ่อนในท้องถิ่น
- เปรียบเทียบและความคมชัดงานการเรียนรู้ภายใต้การดูแลและไม่ได้ดูแล
- รวมเอกสารตามหัวข้อโดยใช้วิธี k
-Describe วิธีขนาน k- หมายถึงการใช้ MapReduce
- วิธีการจัดกลุ่มความน่าจะเป็นแบบคลี่คลายโดยใช้โมเดลตัวผสม
- ผสมส่วนผสมของแบบจำลองเกาส์นโดยใช้การคาดหวังสูงสุด (EM)
- สร้างแบบจำลองการเป็นสมาชิกแบบผสมโดยใช้การจัดสรร Dirichlet แฝง (LDA)
- อธิบายขั้นตอนของตัวอย่างกิ๊บส์และวิธีใช้ผลลัพธ์ของมันในการวาดการอนุมาน
- เปรียบเทียบและเทคนิคการเริ่มต้นความคมชัดสำหรับวัตถุประสงค์การเพิ่มประสิทธิภาพที่ไม่นูน
- ใช้เทคนิคเหล่านี้ใน Python