AI มีความสามารถในการผ่านการทดสอบประวัติศาสตร์ระดับปริญญาเอกได้หรือไม่?

แม้ว่าจะมีความสามารถในด้านต่างๆ แต่ AI ก็ยังขาดความรู้ด้านประวัติศาสตร์ในระดับผู้เชี่ยวชาญ โดยโมเดลที่มีประสิทธิภาพสูงสุดมีคะแนนความแม่นยำเพียง 46% การศึกษานี้เน้นย้ำถึงข้อจำกัดและศักยภาพในอนาคตของ AI ในการวิจัยประวัติศาสตร์

แชทบอทปัญญาประดิษฐ์ได้ปฏิวัติวงการต่างๆ ตั้งแต่บริการลูกค้าไปจนถึงการวิจัยทางกฎหมาย แต่ผลการค้นพบใหม่บ่งชี้ว่าระบบเหล่านี้ยังคงมีปัญหาในการจัดการกับความรู้ทางประวัติศาสตร์ที่ซับซ้อน ทีมนักวิทยาศาสตร์ด้านความซับซ้อนและผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ได้ประเมินประสิทธิภาพของโมเดลภาษาขั้นสูง รวมถึง ChatGPT-4 ในคำถามประวัติศาสตร์ระดับปริญญาเอกเมื่อไม่นานนี้ ผลลัพธ์ที่ได้คือ นำเสนอ ในการประชุม NeurIPS ที่เมืองแวนคูเวอร์ เปิดเผยช่องว่างสำคัญในความเข้าใจทางประวัติศาสตร์ของพวกเขา

การศึกษานี้ซึ่งนำโดย Peter Turchin นักวิทยาศาสตร์ด้านความซับซ้อนจาก Complexity Science Hub (CSH) และ Maria del Rio-Chanona ผู้ช่วยศาสตราจารย์จาก University College London ได้ทดสอบโมเดล AI เช่น ChatGPT-4 Turbo, Llama และ Gemini โดยเปรียบเทียบกับเกณฑ์มาตรฐานที่เข้มงวดซึ่งพัฒนาโดยใช้ Seshat Global History Databank เกณฑ์มาตรฐานดังกล่าวครอบคลุมสังคมเกือบ 600 แห่ง ข้อมูลกว่า 36,000 จุด และเอกสารอ้างอิงทางวิชาการมากกว่า 2,700 รายการ

“โมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT ประสบความสำเร็จอย่างมากในบางสาขา ตัวอย่างเช่น ประสบความสำเร็จเป็นส่วนใหญ่จากการเข้ามาแทนที่ผู้ช่วยทนายความ แต่เมื่อต้องตัดสินลักษณะเฉพาะของสังคมในอดีต โดยเฉพาะสังคมที่ตั้งอยู่นอกอเมริกาเหนือและยุโรปตะวันตก ความสามารถในการทำเช่นนั้นกลับมีจำกัดกว่ามาก” Turchin ซึ่งเป็นหัวหน้ากลุ่มวิจัย CSH ด้านความซับซ้อนและการล่มสลายทางสังคม กล่าวในรายงาน ข่าวประชาสัมพันธ์.

แม้ว่าจะมีการปรับปรุงจากรุ่นก่อนๆ แต่โมเดลที่มีประสิทธิภาพดีที่สุดอย่าง GPT-4 Turbo ก็มีความแม่นยำเพียง 46% ในการทดสอบประวัติศาสตร์แบบเลือกตอบที่ออกแบบมาสำหรับนักศึกษาระดับบัณฑิตศึกษา แม้ว่าความแม่นยำจะดีกว่า 25% ที่คาดหวังจากการเดาแบบสุ่ม แต่ก็เน้นย้ำถึงข้อจำกัดของ AI ในการทำความเข้าใจบริบททางประวัติศาสตร์ที่ละเอียดอ่อน

“ฉันคิดว่าแชทบอท AI จะทำงานได้ดีกว่านี้มาก” เดล ริโอ-ชาโนน่า ซึ่งเป็นคณาจารย์ภายนอกที่ CSH และผู้เขียนที่เกี่ยวข้อง กล่าวเสริม “ประวัติศาสตร์มักถูกมองว่าเป็นข้อเท็จจริง แต่บางครั้งการตีความก็จำเป็นเพื่อให้เข้าใจถึงข้อเท็จจริง”

ผลการศึกษาที่น่าประหลาดใจที่สุดประการหนึ่งคือคุณลักษณะเฉพาะของโดเมนของความสามารถของ AI

“ผลลัพธ์นี้แสดงให้เห็นว่า 'ปัญญาประดิษฐ์' ค่อนข้างเฉพาะเจาะจงในแต่ละสาขา ปริญญาโทสาขานิติศาสตร์ (LLM) ทำได้ดีในบางบริบท แต่ทำได้แย่มากเมื่อเทียบกับมนุษย์ในบริบทอื่นๆ” Turchin กล่าวเสริม

ประสิทธิภาพการทำงานแตกต่างกันอย่างเห็นได้ชัดในช่วงเวลาและภูมิภาคต่างๆ โมเดล AI มีความแม่นยำมากกว่าในการตอบคำถามเกี่ยวกับประวัติศาสตร์โบราณ โดยเฉพาะตั้งแต่ 8,000 ปีก่อนคริสตกาลถึง 3,000 ปีก่อนคริสตกาล แต่มีปัญหาอย่างมากในการตอบสนองเหตุการณ์ทางประวัติศาสตร์ที่ล่าสุดตั้งแต่ 1,500 ปีก่อนคริสตกาลถึงปัจจุบัน

ยังมีความแตกต่างที่เห็นได้ชัดในความแม่นยำตามการโฟกัสทางภูมิศาสตร์ โดยโมเดลเช่น OpenAI ทำงานได้ดีกว่าสำหรับละตินอเมริกาและแคริบเบียน แต่มีประสิทธิภาพน้อยกว่าสำหรับแอฟริกาใต้สะฮารา

จาค็อบ เฮาเซอร์ นักวิทยาศาสตร์ประจำ CSH ซึ่งเป็นผู้เขียนคนแรกได้อธิบายถึงความสำคัญของการกำหนดเกณฑ์มาตรฐานดังกล่าว

“เราต้องการกำหนดมาตรฐานสำหรับการประเมินความสามารถของ LLM เหล่านี้ในการจัดการความรู้ประวัติศาสตร์ในระดับผู้เชี่ยวชาญ Seshat Databank ช่วยให้เราไปไกลกว่าคำถามเกี่ยวกับ 'ความรู้ทั่วไป'” เขากล่าวในข่าวประชาสัมพันธ์

การศึกษานี้ยังเน้นย้ำอีกว่าโมเดล AI มีความโดดเด่นในหมวดหมู่บางประเภท เช่น ระบบกฎหมายและความซับซ้อนทางสังคม แต่กลับล้มเหลวในหัวข้อที่เกี่ยวข้องกับการเลือกปฏิบัติและการเคลื่อนไหวทางสังคม

“สิ่งสำคัญที่สุดที่ได้จากการศึกษาครั้งนี้ก็คือ ถึงแม้ว่า LLM จะน่าประทับใจ แต่ก็ยังขาดความเข้าใจเชิงลึกที่จำเป็นสำหรับประวัติศาสตร์ขั้นสูง พวกเขาเก่งในการเรียนรู้ข้อเท็จจริงพื้นฐาน แต่เมื่อต้องศึกษาประวัติศาสตร์ในระดับปริญญาเอกอย่างละเอียดมากขึ้น พวกเขาก็ยังไม่สามารถทำหน้าที่นี้ได้” เดล ริโอ-ชาโนน่ากล่าวเสริม

มองไปข้างหน้า ทีมวิจัย ซึ่งประกอบด้วยผู้เชี่ยวชาญจากมหาวิทยาลัยออกซ์ฟอร์ดและสถาบันอลัน ทัวริง ตั้งเป้าที่จะขยายชุดข้อมูลและปรับปรุงเกณฑ์มาตรฐานให้ครอบคลุมคำถามทางประวัติศาสตร์ที่หลากหลายและซับซ้อนยิ่งขึ้น

“เราวางแผนที่จะปรับปรุงเกณฑ์มาตรฐานต่อไปโดยบูรณาการจุดข้อมูลเพิ่มเติมจากภูมิภาคต่างๆ โดยเฉพาะภูมิภาคทางตอนใต้ของโลก” Hauser กล่าวเสริม “นอกจากนี้ เรายังตั้งตารอที่จะทดสอบโมเดล LLM ล่าสุด เช่น o3 เพื่อดูว่าโมเดลเหล่านี้สามารถเชื่อมช่องว่างที่ระบุไว้ในการศึกษานี้ได้หรือไม่”

ผลการวิจัยเหล่านี้มอบข้อมูลเชิงลึกที่สำคัญสำหรับทั้งนักประวัติศาสตร์และนักพัฒนา AI โดยเน้นย้ำถึงพื้นที่ที่ต้องปรับปรุงและศักยภาพในการบูรณาการ AI ที่ดีขึ้นในการวิจัยทางประวัติศาสตร์