Nattapat

19 สิงหาคม 2024

Wayback Machine ตัวช่วยส่องเว็บในอดีต พร้อมขั้นตอนใช้งาน

Wayback Machine คืออะไร?

Wayback Machine(เวย์แบ็กแมชชีน) หรือ Internet Archive คือเครื่องมือที่ช่วยให้คุณสามารถสืบค้นสื่อดิจิทัลจากเว็บไซต์ทั้งหมดที่เคยเผยแพร่เป็นสารธารณะตั้งแต่อดีตจนถึงปัจจุบัน ทั้งนี้ Wayback Machine ได้เก็บรวบรวมจำนวนหน้าเว็บไซต์ไว้มากกว่า 866 พันล้านหน้าและยังคงเพิ่มขึ้น โดยข้อมูลที่เก่าที่สุดถูกจัดเก็บไว้ครั้งแรกเมื่อปี 1996 หรือ 4 ปีหลังการมาถึงของเว็บไซต์แรกของโลก

Wayback Machine logo

Wayback Machine เปิดให้ใช้งานครั้งแรกในปี 2001 จากการพัฒนาขึ้นโดยอินเทอร์เน็ตอาร์ไคฟ์(Internet Archive) เว็บไซต์ห้องสมุดดิจิทัลที่ไม่แสวงหากําไรของสหรัฐอเมริกา จากความต้องการแก้ปัญหาการสูญหายของข้อมูลดิจิทัลเมื่อที่อยู่ของเว็บไซต์(Domain)หมดอายุลง เว็บไซต์ปิดตัวลง หรือ เว็บไซต์เกิดปัญหาทางเทคนิคใดๆ ที่ยากต่อการกู้คืนข้อมูล ด้วยเหตุนี้ Wayback Machine จึงก่อตั้งขึ้นทั้งยังมีชื่อคล้ายกับเครื่องย้อนเวลาที่จะพาคุณกลับไปในวันที่แหล่งข้อมูลในเว็บไซต์นั้นๆ ยังคงอยู่

เป้าหมายหลักของ Wayback Machine จึงคือการเก็บรักษาการเข้าถึงได้ของสื่อดิจิทัลทั่วโลก เพื่อเป็นห้องสมุดออนไลน์ที่ นักวิจัย นักประวัติศาสตร์ นักวิชาการ ไปจนถึงบุคคลทั่วไปสามารถเข้าถึงได้โดยง่าย

หลักการทำงานของ Wayback Machine

หน้าเว็บ Wayback Machine

Wayback Machine ทำงานโดยอัตโนมัติ ด้วยหลักการดังนี้

  1. การสืบค้น (Web Crawling): Wayback Machine ใช้โปรแกรมอัตโนมัติที่เรียกว่า “web crawler” หรือ “spider” เป็นบอตอินเตอร์เน็ตเพื่อท่องไปตามลิงก์ต่างๆ ของแต่ละเว็บไซต์
  2. การจับภาพหน้าเว็บ (Web Capture): Wayback Machine จะทำการคัดลอกหน้าจอของหน้าเว็บที่พบ(Snapshot) โดยคัดลอกและจัดเก็บทั้งเนื้อหา, โครงสร้าง HTML, รูปภาพ และไฟล์องค์ประกอบอื่นๆ ของหน้าเว็บที่ค้นพบทั่งหมดไว้
  3. การประทับเวลา (Timestamping): Wayback Machine ยังแนบข้อมูลเวลาที่แม่นยำให้กับแต่ละ Snapshot เพื่อระบุว่าการคัดลอกและจัดเก็บหน้าเว็บนั้น ๆ ได้ถูกบันทึกขึ้นเมื่อใดในแต่ละครั้งที่บันทึก
  4. การจัดเก็บข้อมูล (Data Storage): Wayback Machine จะจัดเก็บข้อมูลทั้งหมดไม่ว่าจะเป็นสถานะการสืบค้น ภาพหน้าเว็บ และการประทับเวลาแต่ละครั้งไปเก็บไว้ในฐานข้อมูลขนาดใหญ่ที่ออกแบบมาเฉพาะเพื่อจัดการกับแหล่งข้อมูลมหาศาล
  5. การทำดัชนี (Indexing): ระบบเว็บไซต์ของ Wayback Machine จะทำการสร้างดัชนีของข้อมูลทั้งหมดเพื่อให้ผู้เข้าใช้งานสามารถสืบค้นอดีตของเว็บไซตืที่ค้นหาได้อย่างรวดเร็ว

ด้วยกระบวนการเหล่านี้ Wayback Machine จึงสามารถเก็บบันทึกประวัติข้อมูลในอดีตของเว็บไซต์ต่างๆ ไว้ได้อย่างครบถ้วน ทำให้ผู้ใช้สามารถย้อนกลับไปดูว่าเว็บไซต์ที่สืบค้น มีหน้าตาและข้อมูลอย่างไรได้ตลอดเวลา ตามช่วงเวลาที่ระบบของ Wayback Machine เคยสืบค้นและจัดเก็บไว้ได้

แต่อย่างไรก็ดี อัลกอริทึมทึ่ Wayback Machine ใช้รวบรวมข้อมูลนั้นจะยกเว้นหน้าเว็บไซต์ที่ต้องใช้รหัสผ่านและสิทธิ์ที่นอกเหนือจากการเผยแพร่ที่เป็นสารธาณะในการเข้าถึง รวมไปถึง คำสั่งที่ผู้ดูแลระบบเว็บไซต์ระบุว่าเป็นโปรโตคอลการยกเว้นสำหรับโรบ็อต Robots Exclusion Protocol หรือ REP) ซึ่งเจ้าของเว็บไซต์นั้นๆ ไม่อนุญาติให้โปรแกรมสืบค้นเว็บไซต์ หรือ Search Engine เข้าถึงได้เป็นการเฉพาะ

ตัวอย่างการใช้งาน

404 WEBSITE

เมื่อไม่กี่วันก่อน ทีมของ Sixtygram ได้กำลังเรียนรู้เกี่ยวกับการพัฒนา Plugin WordPress จากคลิปวีดีโอหนึ่งบน Youtube หากแต่ลิงก์ที่ผู้สอนมอบให้นั้นกลับเสียหายและเข้าถึงไม่ได้ในยามที่ต้องการ ดังนั้น การใช้ Wayback Machine จึงได้ช่วยให้ทีมเอเจนซี่ของเราเข้าถึงเว็บไซต์ดังกล่าวในอดีตได้ ทำให้กระบวนการการเรียนรู้ของทีม Sixtygram ได้รับชุดข้อมูลที่จำเป็นและสมบูรณ์มากที่สุด

ขั้นตอนการใช้งาน

1. เข้าสู่เว็บไซต์ https://web.archive.org

Wayback Machine คือ

2. ใส่ลิงก์ URL ที่คุณต้องการจะสืบค้นในช่องค้นหา และกด Enter

HOMEPAGE Wayback Machine

3. เลือกช่วงเวลาที่ต้องการ ซึ่ง Wayback Machine เคยสืบค้นและบันทึกไว้ 

ACESS Wayback Machine

4. เสร็จสิ้น ตอนนี้คุณสามารถเข้าชมหน้าเว็บไซต์ที่สืบค้นในอดีตได้แล้ว

LOOKUP Wayback Machine