LLM คืออะไร?

Large Language Model หรือที่เราเรียกกันติดปากว่า llm(แอลแอลเอ็ม) คือโมเดลพื้นฐานที่ใช้คลังข้อมูลด้านภาษาขนาดใหญ่ ซึ่งสามารถพัฒนาต่อยอดเพื่อประมวลผลข้อมูลต่าง ๆ เพื่อสร้างชุดข้อมูลใหม่ออกมาให้แก่ฝั่งผู้ใช้งาน

โดยทั่วไปแล้ว LLM มักถูกใช้เพื่อสร้างข้อความ ทำแชทบอทโต้ตอบแชทบทสนทนา แปลภาษา สรุปเนื้อหา เขียนโค้ด ตอบคำถาม ไปจนถึงกระทั่งสร้างภาพวาด หรือ สร้างหนังสั้นได้เรื่องนึงเลยทีเดียว ซึ่งขีดความสามารถของ LLM นั้นสามารถทำเข้าใจ “บริบทการสนทนา(Context)” ร่วมกับ “โครงสร้างภาษา(Grammar structure)” ได้ ไม่ใช่แค่จับคำแบบแข็งทื่อตรงตัว ด้วยสองสิ่งที่มันทำได้นี้ย่อมทำให้ LLM สามารถตอบกลับด้วยภาษาที่เป็นธรรมชาติ มีน้ำหนัก และแม่นยำมากกว่าระบบอัตโนมัติ(Rule-Based)แบบเก่า

หลักการทำงานของ LLM

เบื้องหลังการทำงานของระบบ LLM คือการใช้สถาปัตยกรรมที่เรียกว่า Transformer ซึ่งถือเป็นนวัตกรรมสำคัญในการพัฒนาโมเดลภาษา เพราะสามารถประมวลผลคำหลายคำพร้อมกันได้ในเวลาเดียวกัน (parallel processing) จึงเข้าใจความสัมพันธ์ของคำในบริบทได้ลึกและแม่นยำ เช่น เข้าใจได้ว่า “แมว” กับ “น่ารัก” มักปรากฏร่วมกันในบริบทเชิงบวก

โดยทั่วไป การทำงานของ LLM (Large Language Model) สามารถแบ่งออกเป็น 4 ขั้นตอนหลัก เหมือนกับการเดินทางที่มีเส้นทางชัดเจน:

ขั้นที่ 1: Tokenization
ข้อความที่ป้อนเข้าสู่ระบบจะถูกแบ่งออกเป็นโทเคน(Token) ซึ่งเป็นหน่วยย่อยของคำหรือกลุ่มคำ จากนั้นแปลงเป็นรหัสตัวเลข พร้อมแนบตำแหน่งเพื่อให้โมเดลเข้าใจลำดับก่อนหลังของคำนั้น ๆ
ขั้นที่ 2: Training on Large Datasets
โมเดลถูกฝึกด้วยข้อมูลจำนวนมหาศาลจากแหล่งต่าง ๆ เช่น หน้าเว็บไซต์ (Common Crawl), หนังสือ, Wikipedia, โค้ดจาก GitHub และบทสนทนาในเว็บบอร์ด ซึ่งข้อมูลเหล่านี้ถูกรวบรวมจากแหล่งที่เปิดเผยสาธารณะหรือได้รับอนุญาตให้ใช้ในการฝึกโมเดลเท่านั้น โดยผ่านการคัดกรองและจัดระเบียบก่อนใช้งาน จากนั้นโมเดลจะเรียนรู้ผ่านกระบวนการ self-supervised learning โดยพยายามคาดเดาโทเคนถัดไปในแต่ละบริบท เพื่อปรับค่าพารามิเตอร์ให้แม่นยำขึ้นเรื่อย ๆ
ขั้นที่ 3: Attention Mechanisms
ระหว่างการประมวลผล โมเดลจะใช้กลไก self-attention ในการประเมินว่าโทเคนใดในบริบทควรได้รับความสนใจมากกว่ากัน กลไกนี้ทำงานหลายหัวพร้อมกัน (multi-head attention) จึงสามารถเชื่อมโยงคำที่อยู่ใกล้หรือไกลกันในประโยคได้อย่างแม่นยำ เช่น การจับคู่คำที่มักใช้ร่วมกัน หรือโครงสร้างทางไวยากรณ์ที่ซับซ้อน
ขั้นที่ 4: Text Generation
เมื่อได้รับพรอมต์หรือคำสั่ง โมเดลจะคำนวณความน่าจะเป็นของโทเคนถัดไปตามบริบทก่อนหน้า แล้วเลือกคำที่เหมาะสมที่สุดตามเทคนิคต่าง ๆ เช่น greedy decoding, top-k หรือ nucleus sampling เพื่อสร้างข้อความออกมาอย่างลื่นไหล สอดคล้องกับคำสั่ง และคงคุณภาพเชิงความหมาย

ประเภทของ LLM (Large Language Models)

ในเชิงเทคนิคแล้ว LLM สามารถจำแนกได้ออกเป็น 6 ประเภทตามโครงสร้างโมเดล วิธีการเรียนรู้ และจุดประสงค์ในการใช้งาน โดยการเข้าใจประเภทเหล่านี้จะช่วยให้ผู้ใช้สามารถเลือกใช้โมเดลได้เหมาะสมกับความต้องการมากที่สุด อันได้แก่

1. Autoregressive Models

Autoregressive Models หรือโมเดลทำนายคำถัดไปโมเดลประเภทนี้ทำงานโดยการทำนายคำถัดไปจากคำก่อนหน้าในลำดับ เช่น การเขียนบทความหรือบทสนทนาที่ต้องไหลลื่นและมีบริบท การฝึกโมเดลลักษณะนี้จะเน้นการสร้างคำตามลำดับจากซ้ายไปขวา ซึ่งเหมาะอย่างยิ่งกับงานสร้างข้อความ การเป็นแชทบอทตอบแชท และการเขียนโค้ด ตัวอย่างของโมเดลกลุ่มนี้ ได้แก่ GPT-3 / GPT-4 จาก OpenAI และ Claude จาก Anthropic ซึ่งล้วนเป็นโมเดลที่โดดเด่นในการสร้างภาษาที่ลื่นไหล เข้าใจได้ง่าย และสามารถปรับสำนวนให้เหมาะกับผู้ใช้งาน

2. Autoencoding Models

โมเดล Autoencoding Models มักถูกฝึกให้เข้าใจภาษาผ่านการเดาคำที่ถูกซ่อนไว้ (masked) โดยพิจารณาคำทั้งก่อนหน้าและถัดไปในประโยค จึงมีความเข้าใจบริบทแบบสองทาง (bidirectional) ซึ่งเหมาะกับงานที่ต้องการความเข้าใจเชิงลึก เช่น การวิเคราะห์ความรู้สึก การสรุปเนื้อหา และการค้นหาเอนทิตีในข้อความ ตัวอย่างของโมเดลประเภทนี้ได้แก่ BERT จาก Google, RoBERTa จาก Meta (Facebook AI), และ ELECTRA ที่เด่นในด้านความแม่นยำและใช้ทรัพยากรคอมพิวเตอร์น้อยกว่ารุ่นก่อน โดยโมเดลเหล่านี้ล้วนใช้พื้นฐานของ machine learning ในการเรียนรู้ความสัมพันธ์ของคำและความหมายในระดับลึก

3. Seq2Seq Models

Sequence-to-Sequence หรือ Encoder–Decoder Models เป็นสถาปัตยกรรมที่ใช้สำหรับงานที่ต้องแปลงรูปแบบข้อความ เช่น แปลภาษา สรุปข้อความ หรือถามตอบ โดย Encoder จะทำหน้าที่วิเคราะห์อินพุต แล้ว Decoder จะสร้างเอาต์พุตใหม่จากความเข้าใจนั้น ตัวอย่างที่ใช้กันแพร่หลายคือ T5 (Text-to-Text Transfer Transformer) จาก Google และ MarianMT ซึ่งเป็นโมเดลแปลภาษาที่แม่นยำและประหยัดทรัพยากร เหมาะกับการใช้งานที่ต้องการเปลี่ยนข้อความจาก A ไปเป็น B อย่างชัดเจน

4. Domain-Specific Models

โมเดลกเฉพาะทางอย่าง Domain-Specific Models ถูกออกแบบมาเพื่องานเฉพาะในแต่ละอุตสาหกรรม เช่น การแพทย์ กฎหมาย การเงิน โดยฝึกกับข้อมูลที่เป็นภาษาทางเทคนิค หรือข้อมูลเชิงลึกของสาขานั้นโดยเฉพาะ ทำให้สามารถตอบคำถามได้อย่างแม่นยำและสอดคล้องกับความรู้เฉพาะทาง ตัวอย่างเช่น BioGPT ที่ใช้ในงานวิจัยการแพทย์, FinBERT ที่ใช้กับข่าวและเอกสารการเงิน หรือ LegalBERT ที่เข้าใจภาษากฎหมายได้อย่างลึกซึ้งกว่ารุ่นทั่วไป

5. Multilingual Models

โมเดลหลายภาษา Multilingual Models ที่ถูกออกแบบมาเพื่อรองรับภาษาหลายภาษาในโมเดลเดียว โดยฝึกกับข้อมูลจากหลายภาษาและใช้การเรียนรู้ร่วมกันของโครงสร้างภาษาเพื่อยกระดับความเข้าใจข้ามภาษา เหมาะสำหรับการแปลภาษาหลายคู่, การสื่อสารแบบข้ามวัฒนธรรม, และแชทบอทที่ให้บริการในหลายประเทศ ตัวอย่างเช่น XLM-R จาก Facebook AI, mBART จาก Meta และ BLOOM ซึ่งสามารถประมวลผลและสร้างข้อความได้หลายภาษาในโมเดลเดียว

6. Open-Source Models

โมเดลโอเพ่นซอร์ส(Open-Source Models) เน้นไปที่การเปิดให้ใช้งาน แก้ไข และพัฒนาได้อย่างเสรี มักมีชุมชนนักพัฒนาเข้ามาร่วมทดสอบและขยายความสามารถของโมเดล เหมาะสำหรับองค์กรที่ต้องการควบคุมการปรับแต่งโมเดลด้วยตนเอง และลดต้นทุนการใช้งาน ตัวอย่างที่โดดเด่นคือ LLaMA 2 จาก Meta และ Falcon จาก TII UAE ซึ่งได้รับความนิยมในวงการนักพัฒนาและสายวิจัยที่ต้องการนำโมเดลไปปรับใช้กับงานเฉพาะทางแบบลึก

การพัฒนาต่อยอดของ LLM

หลังจากการเทรนเบื้องต้น โมเดล llm เหล่านี้ยังสามารถถูก จูนเฉพาะทาง(Fine-tuning) หรือ ตั้งบริบทชั่วคราว(Prompt-tuning) ได้อีกทอดหนึ่ง เพื่อปรับให้เหมาะกับการใช้งานเฉพาะ เช่น ใช้กับงานกฎหมาย งานการแพทย์ งานบริการลูกค้า หรือใช้สร้างบอทในองค์กรที่ต้องการควบคุมคำตอบอย่างเข้มงวด

หากพูดในฉบับที่เข้าใจให้ง่ายที่สุด LLM ก็คือสมองกลอัจฉริยะที่สามารถเขียน พูด อ่าน และเข้าใจภาษามนุษย์ได้ในระดับที่เกือบจะเป็นธรรมชาติ และกำลังกลายเป็นแกนหลักของเทคโนโลยี AI แทบทุกประเภทในยุคนี้นั่นเอง

LLM กับ AI

LLM (Large Language Model) คือหนึ่งในเทคโนโลยีย่อยของ AI (Artificial Intelligence) โดยเฉพาะในหมวด Generative AI ที่เน้นการสร้างภาษาหรือเนื้อหาใหม่ ๆ ได้อย่างใกล้เคียงมนุษย์ LLM ถูกออกแบบมาเพื่อประมวลผลและสร้างภาษาธรรมชาติ โดยเรียนรู้จากข้อมูลข้อความจำนวนมหาศาลผ่านเทคนิค Deep Learning ซึ่งทำงานเลียนแบบสมองมนุษย์ ทำให้สามารถนำไปใช้กับงานต่าง ๆ เช่น การตอบคำถาม แปลภาษา สรุปเนื้อหา หรือสร้างข้อความใหม่แบบมีบริบท ขณะที่ AI เป็นแนวคิดโดยกว้างที่รวมเทคโนโลยีทุกประเภทที่จำลองความฉลาดของมนุษย์ ไม่ว่าจะเป็นการมองเห็น การตัดสินใจ หรือการใช้ภาษา ซึ่ง LLM ก็เป็นหนึ่งในเทคโนโลยีที่ทรงพลังและใช้งานแพร่หลายที่สุดในกลุ่มนี้ในปัจจุบัน

การใช้ R A G กับ LLM

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ช่วยให้ LLM ตอบคำถามได้แม่นยำและอ้างอิงข้อมูลจริงมากขึ้น โดยแทนที่ LLM จะพยายามจำทุกอย่างจากข้อมูลที่เคยฝึกไว้เพียงอย่างเดียว RAG จะเสริมด้วยการ ค้นหาข้อมูลจากแหล่งภายนอกแบบเรียลไทม์ แล้วค่อยนำข้อมูลนั้นมาช่วยในการสร้างคำตอบที่เป็นปัจจุบันและเชื่อถือได้

RAG จึงเหมาะอย่างยิ่งกับการใช้งานที่ต้องการข้อมูลล่าสุด เช่น การตอบคำถามจากเอกสารภายในบริษัท ฐานความรู้ขององค์กร หรือข้อมูลข่าวสารล่าสุดบนเว็บไซต์ ทำให้ LLM ไม่จำกัดอยู่แค่ฐานความรู้เดิมที่ฝึกมา แต่สามารถ “อ้างอิง” และ “สังเคราะห์” ข้อมูลจากแหล่งอื่นได้แบบมีบริบท RAG จึงเป็นรากฐานสำคัญในการสร้างแชทบอทสำหรับธุรกิจที่ต้องการความถูกต้อง โปร่งใส และลดปัญหาการแต่งเรื่อง (hallucination) ของ AI ได้อย่างมีประสิทธิภาพ

ปรึกษาเราวันนี้ฟรี
แผนวิเคราะห์ธุรกิจ

ร่วมเป็นส่วนหนึ่งของพันธมิตรที่ประสบความสำเร็จของเรา

llm(Large Language Model) คืออะไร?

LLM คืออะไร?

หลักการทำงานของ LLM