Wayback Machine คืออะไร?
Wayback Machine(เวย์แบ็กแมชชีน) หรือ Internet Archive คือเครื่องมือที่ช่วยให้คุณสามารถสืบค้นสื่อดิจิทัลจากเว็บไซต์ทั้งหมดที่เคยเผยแพร่เป็นสารธารณะตั้งแต่อดีตจนถึงปัจจุบัน ทั้งนี้ Wayback Machine ได้เก็บรวบรวมจำนวนหน้าเว็บไซต์ไว้มากกว่า 866 พันล้านหน้าและยังคงเพิ่มขึ้น โดยข้อมูลที่เก่าที่สุดถูกจัดเก็บไว้ครั้งแรกเมื่อปี 1996 หรือ 4 ปีหลังการมาถึงของเว็บไซต์แรกของโลก
Wayback Machine เปิดให้ใช้งานครั้งแรกในปี 2001 จากการพัฒนาขึ้นโดยอินเทอร์เน็ตอาร์ไคฟ์(Internet Archive) เว็บไซต์ห้องสมุดดิจิทัลที่ไม่แสวงหากําไรของสหรัฐอเมริกา จากความต้องการแก้ปัญหาการสูญหายของข้อมูลดิจิทัลเมื่อที่อยู่ของเว็บไซต์(Domain)หมดอายุลง เว็บไซต์ปิดตัวลง หรือ เว็บไซต์เกิดปัญหาทางเทคนิคใดๆ ที่ยากต่อการกู้คืนข้อมูล ด้วยเหตุนี้ Wayback Machine จึงก่อตั้งขึ้นทั้งยังมีชื่อคล้ายกับเครื่องย้อนเวลาที่จะพาคุณกลับไปในวันที่แหล่งข้อมูลในเว็บไซต์นั้นๆ ยังคงอยู่
เป้าหมายหลักของ Wayback Machine จึงคือการเก็บรักษาการเข้าถึงได้ของสื่อดิจิทัลทั่วโลก เพื่อเป็นห้องสมุดออนไลน์ที่ นักวิจัย นักประวัติศาสตร์ นักวิชาการ ไปจนถึงบุคคลทั่วไปสามารถเข้าถึงได้โดยง่าย
หลักการทำงานของ Wayback Machine
Wayback Machine ทำงานโดยอัตโนมัติ ด้วยหลักการดังนี้
- การสืบค้น (Web Crawling): Wayback Machine ใช้โปรแกรมอัตโนมัติที่เรียกว่า “web crawler” หรือ “spider” เป็นบอตอินเตอร์เน็ตเพื่อท่องไปตามลิงก์ต่างๆ ของแต่ละเว็บไซต์
- การจับภาพหน้าเว็บ (Web Capture): Wayback Machine จะทำการคัดลอกหน้าจอของหน้าเว็บที่พบ(Snapshot) โดยคัดลอกและจัดเก็บทั้งเนื้อหา, โครงสร้าง HTML, รูปภาพ และไฟล์องค์ประกอบอื่นๆ ของหน้าเว็บที่ค้นพบทั่งหมดไว้
- การประทับเวลา (Timestamping): Wayback Machine ยังแนบข้อมูลเวลาที่แม่นยำให้กับแต่ละ Snapshot เพื่อระบุว่าการคัดลอกและจัดเก็บหน้าเว็บนั้น ๆ ได้ถูกบันทึกขึ้นเมื่อใดในแต่ละครั้งที่บันทึก
- การจัดเก็บข้อมูล (Data Storage): Wayback Machine จะจัดเก็บข้อมูลทั้งหมดไม่ว่าจะเป็นสถานะการสืบค้น ภาพหน้าเว็บ และการประทับเวลาแต่ละครั้งไปเก็บไว้ในฐานข้อมูลขนาดใหญ่ที่ออกแบบมาเฉพาะเพื่อจัดการกับแหล่งข้อมูลมหาศาล
- การทำดัชนี (Indexing): ระบบเว็บไซต์ของ Wayback Machine จะทำการสร้างดัชนีของข้อมูลทั้งหมดเพื่อให้ผู้เข้าใช้งานสามารถสืบค้นอดีตของเว็บไซตืที่ค้นหาได้อย่างรวดเร็ว
ด้วยกระบวนการเหล่านี้ Wayback Machine จึงสามารถเก็บบันทึกประวัติข้อมูลในอดีตของเว็บไซต์ต่างๆ ไว้ได้อย่างครบถ้วน ทำให้ผู้ใช้สามารถย้อนกลับไปดูว่าเว็บไซต์ที่สืบค้น มีหน้าตาและข้อมูลอย่างไรได้ตลอดเวลา ตามช่วงเวลาที่ระบบของ Wayback Machine เคยสืบค้นและจัดเก็บไว้ได้
แต่อย่างไรก็ดี อัลกอริทึมทึ่ Wayback Machine ใช้รวบรวมข้อมูลนั้นจะยกเว้นหน้าเว็บไซต์ที่ต้องใช้รหัสผ่านและสิทธิ์ที่นอกเหนือจากการเผยแพร่ที่เป็นสารธาณะในการเข้าถึง รวมไปถึง คำสั่งที่ผู้ดูแลระบบเว็บไซต์ระบุว่าเป็นโปรโตคอลการยกเว้นสำหรับโรบ็อต Robots Exclusion Protocol หรือ REP) ซึ่งเจ้าของเว็บไซต์นั้นๆ ไม่อนุญาติให้โปรแกรมสืบค้นเว็บไซต์ หรือ Search Engine เข้าถึงได้เป็นการเฉพาะ
ตัวอย่างการใช้งาน
เมื่อไม่กี่วันก่อน ทีมของ Sixtygram ได้กำลังเรียนรู้เกี่ยวกับการพัฒนา Plugin WordPress จากคลิปวีดีโอหนึ่งบน Youtube หากแต่ลิงก์ที่ผู้สอนมอบให้นั้นกลับเสียหายและเข้าถึงไม่ได้ในยามที่ต้องการ ดังนั้น การใช้ Wayback Machine จึงได้ช่วยให้ทีมเอเจนซี่ของเราเข้าถึงเว็บไซต์ดังกล่าวในอดีตได้ ทำให้กระบวนการการเรียนรู้ของทีม Sixtygram ได้รับชุดข้อมูลที่จำเป็นและสมบูรณ์มากที่สุด