Thứ 3, 01/04/2025, 02:31 AM
Bạn đọc đăng tin
Hotline: 0918658465

DeepSeek âm thầm ra mắt mô hình AI mới miễn phí

DeepSeek âm thầm ra mắt mô hình AI mới miễn phí
(Tieudung.vn) - DeepSeek chính thức giới thiệu DeepSeek V3-0324, phiên bản mới nhất trong dòng mô hình ngôn ngữ lớn (LLM) V3.

Sự xuất hiện của mô hình 641GB này đang gây xôn xao trong ngành công nghiệp trí tuệ nhân tạo (AI), không chỉ bởi hiệu năng ấn tượng mà còn bởi cách tiếp cận "mở" và miễn phí, thách thức trực tiếp mô hình kinh doanh của OpenAI.

DeepSeek âm thầm ra mắt mô hình AI mới miễn phí

Ảnh minh họa. (Nguồn ảnh: Internet)

Điểm nổi bật nhất của DeepSeek-V3-0324 là việc mô hình này được phát hành dưới giấy phép MIT, cho phép sử dụng miễn phí cho mục đích thương mại. Đây là một động thái "gây sốc", đi ngược lại với mô hình kinh doanh của các "ông lớn" AI như OpenAI, vốn thường giữ kín các mô hình của mình và cung cấp quyền truy cập thông qua các API trả phí.

DeepSeek-V3-0324 không đi theo hướng phát triển các mô hình AI "khổng lồ" (với hàng nghìn tỷ tham số) như các công ty Mỹ. Thay vào đó, DeepSeek áp dụng kiến trúc "mixture-of-experts" (MoE) độc đáo, giúp tối ưu hóa hiệu suất và giảm chi phí.

Mixture-of-Experts (MoE): Thay vì kích hoạt toàn bộ tham số cho mọi tác vụ, MoE chỉ sử dụng một phần nhỏ (khoảng 37 tỷ trong tổng số 685 tỷ tham số) cho từng tác vụ cụ thể. Điều này giúp tăng hiệu suất và giảm yêu cầu tính toán.

Multi-Head Latent Attention (MLA): Nâng cao khả năng duy trì ngữ cảnh của mô hình trong các đoạn văn bản dài.

Multi-Token Prediction (MTP): Cho phép mô hình tạo ra nhiều token (đơn vị ngôn ngữ) mỗi bước, thay vì chỉ một token như các phương pháp truyền thống.

Nhờ những cải tiến này, DeepSeek-V3-0324 có thể đạt được hiệu suất tương đương với các mô hình lớn hơn nhiều, trong khi giảm đáng kể yêu cầu về phần cứng.

Một điểm đáng chú ý khác là DeepSeek-V3-0324 có thể chạy trực tiếp trên các cá nhân cao cấp, như Apple Mac Studio với chip M3 Ultra.

Nhà nghiên cứu AI Awni Hannun cho biết, DeepSeek-V3-0324 phiên bản 4-bit có thể chạy với tốc độ trên 20 token/giây trên Mac Studio M3 Ultra 512GB.

Mặc dù Mac Studio có giá không hề rẻ (9.499 USD), nhưng việc một mô hình AI lớn có thể chạy cục bộ trên máy tính cá nhân là một bước tiến quan trọng, cho thấy tiềm năng của việc "dân chủ hóa" AI.

DeepSeek trở thành công ty AI Trung Quốc được chú ý nhất vào tháng 12/2024 khi tung ra DeepSeek-V3. Mô hình này đạt hiệu suất ngang ngửa GPT-4o nhưng chỉ dùng một phần nhỏ tài nguyên tính toán.

Không lâu sau, DeepSeek tiếp tục ra mắt mô hình lý luận DeepSeek-R1. Theo TechCrunch, R1 vượt trội o1 của OpenAI  trên các tiêu chuẩn đánh giá như AIME, MATH-500 và SWE-bench Verified.

Đồng thời, con số 5,6 triệu USD để huấn luyện giai đoạn cuối của mô hình của DeepSeek cũng gây sốc, so với hàng trăm triệu USD mà các công ty hàng đầu của Mỹ phải chi để huấn luyện các mô hình của mình.

Tags:
4.1 7 5 Nhấn vào đây để đánh giá

Chuyên trang Tiêu dùng - Báo Kinh tế & Đô thị điện tử, Cơ quan của UBND TP. Hà Nội
Giấy phép số: 27/GP-CBC do Bộ Thông tin & Truyền thông cấp ngày 17/05/2022
Tổng Biên tập: Nguyễn Thành Lợi

() Không sao chép dưới mọi hình thức khi chưa có sự đồng ý bằng văn bản của Tieudung.kinhtedothi.vn

Share facebook Share google Share twitter Share linkedin Share pinterest
1.78453 sec| 773.266 kb