Llama 3.1 405B – mô hình AI mới nhất của Meta

  • Sunday 04/08/2024

Llama 3.1 405B là mô hình ngôn ngữ lớn (LLM) công khai đầu tiên có thể sánh ngang với các mô hình AI hàng đầu về khả năng tiên tiến trong kiến ​​thức chung, khả năng điều khiển, toán học, sử dụng công cụ và dịch đa ngôn ngữ.

Llama 3.1

1. Giới thiệu Llama 3.1

Năm 2024 đang trở thành một trong những năm tốt nhất về mặt tiến triển của AI tạo sinh. Chỉ tuần trước, chúng ta đã có Open AI ra mắt GPT-4o mini, và mới đây vào ngày 23 tháng 7 năm 2024, chúng ta đã có Meta ra mắt Llama 3.1, một lần nữa lại gây chấn động thế giới.

Với 405 tỷ tham số – con số khổng lồ đại diện cho sức mạnh xử lý thông tin đáng kinh ngạc – Llama 3.1 405B không chỉ là một sản phẩm công nghệ thuần túy. Nó là minh chứng hùng hồn cho tham vọng “phổ cập hóa” AI của Meta, mở ra cánh cửa đến với một tương lai nơi mọi người đều có thể tiếp cận và khai thác sức mạnh của trí tuệ nhân tạo.

Bên cạnh đó, Meta cũng đã tung ra 2 biến thể nhỏ hơn của Llama 3.1 và biến nó thành một trong những LLM đa ngôn ngữ và đa năng tốt nhất tập trung vào nhiều tác vụ nâng cao khác nhau. Các mô hình này có hỗ trợ gốc cho việc sử dụng công cụ và một cửa sổ ngữ cảnh lớn.

Llama 3.1 không chỉ là một mô hình AI mạnh mẽ, nó còn là tuyên ngôn về triết lý phát triển công nghệ của Meta. Zuckerberg nhấn mạnh vào ba yếu tố then chốt làm nên sức mạnh của Llama 3.1: hiệu suất vượt trội so với các mô hình đóng (close source model), khả năng tùy biến cho phép người dùng tinh chỉnh theo nhu cầu riêng và hiệu quả chi phí đáng kinh ngạc. Ông cũng giới thiệu về hệ sinh thái đối tác hùng hậu đang hình thành xung quanh Llama 3.1, bao gồm những tên tuổi lớn như Amazon, Databricks, Nvidia, Groq, Scale AI, Dell, Deloitte,… Sự hợp tác này hứa hẹn sẽ mang đến cho người dùng những giải pháp AI toàn diện và dễ tiếp cận hơn bao giờ hết

2. Đánh giá mô hình

Trong phần này, chúng ta hãy cố gắng hiểu tất cả các chi tiết về mô hình Llama 3 mới của Meta. Dựa trên thông báo gần đây của họ, mô hình nguồn mở hàng đầu của họ có 405 tỷ tham số. Mô hình này được cho là đã đánh bại các LLM khác trong hầu hết mọi điểm chuẩn hiện có (sẽ nói thêm về điều này sau). Mô hình này được cho là có khả năng vượt trội, đặc biệt là khi xét đến kiến ​​thức chung, khả năng điều khiển, toán học, sử dụng công cụ và dịch đa ngôn ngữ. Llama 3.1 cũng có hỗ trợ thực sự tốt cho việc tạo dữ liệu tổng hợp. Meta cũng đã tinh chế mô hình hàng đầu này để phát hành hai mô hình biến thể khác của Llama 3.1, bao gồm Llama 3.1 8B và 70B.

– Dựa vào bảng dưới đây, có thể thấy rõ ràng rằng nó đã nhanh chóng trở thành LLM (SOTA) hiện đại nhất, đánh bại các mô hình mạnh mẽ khác trong hầu hết mọi tập dữ liệu và nhiệm vụ chuẩn.

 Llama 3.1

– Meta cũng đã công bố kết quả chuẩn cho hai mô hình Llama 3.1 nhỏ hơn (8B và 70B), so sánh chúng với các mô hình tương tự. Thật đáng kinh ngạc khi thấy rằng ngay cả mô hình 8B cũng đánh bại mô hình Open AI GPT-3.5 Turbo 175B trong hầu hết mọi chuẩn. Sự tiến bộ và tập trung vào các mô hình ngôn ngữ nhỏ (SLM) khá rõ ràng trong các kết quả này từ mô hình Meta Llama 3.1 8B.

Llama 3.1

Screenshot from 2024 07 27 14 53 02

Nhìn vào biểu đồ so sánh kết quả đánh giá bởi con người (các chuyên gia) (“Llama 3.1 405B Human Evaluation”), chúng ta có thể thấy Llama 3.1 405B đã thể hiện khả năng cạnh tranh sòng phẳng với các “ông lớn” trong làng mô hình ngôn ngữ lớn hiện nay.

3. Kiến trúc mô hình

– Là mô hình lớn nhất của Meta đến nay, việc đào tạo Llama 3.1 405B trên hơn 15 nghìn tỷ token là một thách thức lớn. Để có thể chạy đào tạo ở quy mô này và đạt được kết quả trong khoảng thời gian hợp lý, Meta đã tối ưu hóa đáng kể toàn bộ ngăn xếp đào tạo của mình và đẩy quá trình đào tạo mô hình của mình lên hơn 16 nghìn GPU H100, khiến 405B trở thành mô hình Llama đầu tiên được đào tạo ở quy mô này.

Screenshot from 2024 07 27 15 17 48

– Meta cũng đề cập rằng họ đã sử dụng kiến ​​trúc mô hình decoder-only chỉ giải mã chuẩn (về cơ bản là mô hình auto-regressive) với các điều chỉnh nhỏ thay vì mô hình hỗn hợp mixture-of-experts để tối đa hóa tính ổn định của quá trình đào tạo.

– Bảng sau cho thấy khá rõ ràng rằng các siêu tham số chính của họ mô hình Llama 3.1 là Llama 3.1 405B sử dụng kiến ​​trúc có 126 lớp, Model Dimension là 16.384 và 128 Attension Heads. Ngoài ra, không có gì ngạc nhiên khi họ đào tạo mô hình này với tốc độ học thấp hơn một chút so với hai mô hình nhỏ hơn kia.

Screenshot from 2024 07 27 15 25 08

4. Phương pháp huấn luyện

Xương sống của chiến lược đào tạo của Meta cho Llama 3.1 là mô hình reward model và language model. Sử dụng dữ liệu sở thích human-annotated, trước tiên họ đào tạo một mô hình reward model trên điểm kiểm tra Llama 3.1 được đào tạo trước. Mô hình này giúp lấy mẫu từ chối trên dữ liệu human-annotated và bộ dữ liệu dựa trên phương pháp fine-tuning task-based của họ là sự kết hợp giữa dữ liệu human-generated tạo ra và dữ liệu tổng hợp, như được mô tả trong hình sau.

Screenshot from 2024 07 27 16 05 49

5. So sánh hiệu suất

Artificial Analysis, một tổ chức độc lập cung cấp thông tin chuẩn và liên quan cho nhiều LLM và SLM khác nhau. Hình ảnh sau đây so sánh các mô hình khác nhau trong họ Llama 3.1 với các LLM và SLM phổ biến khác, xét về chất lượng (Quality), tốc độ (Speed) và giá cả (Price) . Nhìn chung, mô hình này có vẻ hoạt động khá tốt trong mỗi 3 mục, như được mô tả trong hình bên dưới.

Screenshot from 2024 07 27 16 11 07

6. Tính khả dụng và giá cả của Llama 3.1

Meta tập trung vào việc cung cấp Llama 3.1 cho tất cả mọi người. Các trọng số mô hình Llama có thể tải xuống và bạn có thể dễ dàng truy cập chúng trên HuggingFace. Các nhà phát triển có thể tùy chỉnh hoàn toàn các mô hình cho nhu cầu và ứng dụng của họ, đào tạo trên các tập dữ liệu mới và thực hiện tinh chỉnh bổ sung. Dựa trên những gì Meta đã đề cập trên trang web của họ . Ngay trong ngày đầu tiên, các nhà phát triển có thể tận dụng tất cả các khả năng nâng cao của Llama 3.1 và bắt đầu xây dựng ngay lập tức. Developers cũng có thể khám phá các quy trình làm việc nâng cao như tạo dữ liệu tổng hợp dễ sử dụng, làm theo hướng dẫn trọn gói để chưng cất mô hình và kích hoạt RAG liền mạch với các giải pháp từ các đối tác, bao gồm AWS, NVIDIA, Databricks, Groq, v.v., như minh họa trong hình sau.

Screenshot from 2024 07 27 16 24 13

Sau đây là so sánh chi tiết từ Artificial Analysis về chi phí sử dụng Llama 3.1 so với các mô hình phổ biến khác.  Giá (Price)  được hiển thị theo cả lời nhắc nhập và phản hồi đầu ra tính bằng USD cho 1M (triệu) token. Llama 3.1 khá rẻ và rất gần với GPT-4o mini. Các biến thể lớn hơn, như Llama 3.1 405B, khá đắt và tương tự như mô hình GPT-4o lớn hơn.

Screenshot from 2024 07 27 16 27 27

7. Lợi ích của Llama 3.1 405B cho thế giới

 a. Công bằng khả năng tiếp cận AI

Trước đây, việc tiếp cận và sử dụng các mô hình AI mạnh mẽ như GPT-4 hay Claude 3.5 Sonnet thường bị giới hạn bởi rào cản chi phí đắt đỏ, khiến cho nhiều cá nhân, tổ chức nhỏ lẻ… không có cơ hội trải nghiệm và khai thác sức mạnh của những công nghệ tiên tiến này.

Tuy nhiên, Llama 3.1 405B đã phá vỡ rào cản đó. Với việc được cung cấp dưới dạng mã nguồn mở và chi phí sử dụng thấp hơn đáng kể, Llama 3.1 405B đã mở ra cánh cửa cho phép người dùng phổ thông, các nhà phát triển độc lập, các công ty khởi nghiệp… có thể tiếp cận và trải nghiệm sức mạnh của AI một cách dễ dàng hơn bao giờ hết. Điều này sẽ thúc đẩy sự sáng tạo và đổi mới trong cộng đồng, tạo ra một sân chơi bình đẳng cho tất cả mọi người.

 b. Bảo vệ quyền riêng tư

Một trong những vấn đề nhức nhối hiện nay khi sử dụng các mô hình AI close source chính là nguy cơ lộ thông tin cá nhân. Việc phải phụ thuộc vào các API của bên thứ ba khiến cho dữ liệu của người dùng dễ bị thu thập và sử dụng cho mục đích thương mại mà không có sự cho phép. Với khả năng tùy biến cao, cho phép người dùng kiểm soát hoàn toàn dữ liệu của mình, doanh nghiệp và cá nhân có thể tải và chạy Llama 3.1 405B trên chính hệ thống của mình, loại bỏ hoàn toàn nguy cơ dữ liệu bị gửi và lưu trữ trên server của bên thứ ba. Điều này giúp bảo vệ quyền riêng tư của người dùng một cách tối đa, tạo dựng niềm tin và thúc đẩy sự phát triển bền vững của hệ sinh thái AI.

 c. Thúc đẩy sự đổi mới

Việc cung cấp mã nguồn mở của Llama 3.1 405B giống như việc trao cho cộng đồng AI một “hạt giống” tiềm năng. Các nhà phát triển có thể tự do nghiên cứu, tinh chỉnh và tùy biến mô hình cho phù hợp với nhu cầu cụ thể của mình mà không bị giới hạn bởi những quy định khắt khe của mô hình đóng (close source model). Các công ty và tổ chức có thể phát triển các mô hình ngôn ngữ lớn cho riêng mình, tập trung vào các lĩnh vực chuyên biệt như y tế, giáo dục, dịch vụ khách hàng…

 

Trên đây là bài viết chia sẻ cho bạn về Llama 3.1 405B – mô hình AI mới nhất của Meta. Mong rằng những thông tin này sẽ hữu ích cho bạn

Xem thêm các bài viết công nghệ hữu ích khác tại đây.

Tham khảo các ưu đãi tại PA Việt Nam: https://www.pavietnam.vn/vn/tin-khuyen-mai/

 

5/5 - (1 bình chọn)