← Back to general-ai

Hiểu về Large Language Models

LLM hoạt động như thế nào? Transformer, tokenization, và kiến trúc đằng sau GPT/Claude/Gemini.

Large Language Model (LLM) là gì?

Large Language Model là mô hình AI được huấn luyện trên lượng text khổng lồ để hiểu và sinh ra ngôn ngữ tự nhiên. Các LLM nổi tiếng: GPT (OpenAI), Claude (Anthropic), Gemini (Google).

Kiến trúc Transformer

LLM hiện đại dựa trên kiến trúc Transformer (2017, Google) với cơ chế Self-Attention:

  • Tokenization: Chia text thành các token (từ hoặc subword)
  • Embedding: Chuyển token thành vector số
  • Attention: Mỗi token "nhìn" tất cả token khác để hiểu ngữ cảnh
  • Generation: Dự đoán token tiếp theo dựa trên xác suất

Tại sao LLM mạnh?

  1. Scale: Huấn luyện trên hàng trăm tỷ parameter
  2. Pretraining: Học từ internet-scale data
  3. Fine-tuning: Tối ưu cho task cụ thể (chat, code, reasoning...)
  4. RLHF: Human feedback giúp model an toàn và hữu ích hơn

Video giải thích

So sánh các LLM phổ biến

Model Hãng Điểm mạnh
GPT-4o OpenAI Đa năng, multimodal
Claude 3.5 Anthropic Reasoning, code, an toàn
Gemini 2.0 Google Multimodal, tích hợp Google
Llama 3 Meta Open source, community

Ứng dụng thực tế

  • Chatbot & Assistant: Trợ lý ảo thông minh
  • Code Generation: GitHub Copilot, Cursor
  • Content Creation: Viết bài, dịch thuật, tóm tắt
  • Research: Phân tích tài liệu, trích xuất thông tin