Giải mã kỹ thuật “chưng cất” mang lại thành công cho DeepSeek

Sự thành công đến từ công ty khởi nghiệp AI DeepSeek của Trung Quốc đã dẫn đến một khái niệm mang tên “chưng cất”.

Kể từ khi DeepSeek phát hành mô hình ngôn ngữ lớn mạnh mẽ có tên R1, nó đã tạo nên làn sóng lan tỏa khắp Thung lũng Silicon và thị trường chứng khoán Mỹ, gây ra nhiều cuộc thảo luận và tranh luận rộng rãi.

Giáo sư thống kê của Đại học Michigan (Mỹ) Ambuj Tewari, một chuyên gia hàng đầu về AI và máy học, đã chia sẻ hiểu biết của mình về các khía cạnh kỹ thuật, đạo đức và thị trường liên quan đến đột phá của DeepSeek.

Kỹ thuật chưng cất mà OpenAI cáo buộc DeepSeek sử dụng là gì?

OpenAI đã cáo buộc DeepSeek sử dụng kỹ thuật “chưng cất mô hình” để đào tạo các mô hình của riêng mình dựa trên công nghệ của OpenAI. Tuy nhiên, điều này có nghĩa là gì? Về cơ bản, việc chưng cất mô hình hoặc kiến thức thường liên quan đến việc tạo ra các phản hồi từ mô hình mạnh hơn để đào tạo một mô hình yếu hơn nhằm giúp mô hình yếu hơn được cải thiện.

Đây là một hoạt động hoàn toàn bình thường nếu mô hình mạnh hơn được phát hành với giấy phép cho phép sử dụng như vậy. Nhưng các điều khoản sử dụng ChatGPT của OpenAI rõ ràng cấm sử dụng mô hình của họ cho các mục đích như chưng cất mô hình, vì vậy nếu đúng DeepSeek thực hiện như vậy, điều này vi phạm hoạt động tuân thủ các quy định phát triển AI.

Ngoài OpenAI, DeepSeek cũng có thể

Ngoài OpenAI, DeepSeek cũng có thể "chưng cất" kiến thức từ các công cụ suy luận dựa trên AI khác.

Liệu DeepSeek có thể sử dụng các mô hình nguồn mở khác?

Ngay cả khi DeepSeek sử dụng phương pháp chưng cất, họ không nhất thiết vi phạm quy định Điều này xảy ra nếu DeepSeek sử dụng các mô hình nguồn mở khác như LLaMA của Meta Platforms hoặc Qwen của Alibaba, để chắt lọc kiến thức mà không phải dựa trên mô hình độc quyền của OpenAI.

Việc không nhất thiết DeepSeek vi phạm quy định bắt nguồn từ việc ngay cả trong cùng một họ mô hình, chẳng hạn như LlaMA hay Qwen, không phải tất cả các mô hình đều được phát hành với cùng một giấy phép. Nếu giấy phép của một mô hình cho phép chưng cất mô hình thì không có gì là bất hợp pháp hoặc phi đạo đức khi làm điều đó.

Khá thú vị, trong một phân tích trên ArXiv về DeepSeek R1, các chuyên gia về AI đề cập rằng quá trình này thực sự diễn ra theo hướng ngược lại, với kiến thức được chưng cất từ R1 sang LlaMA và Qwen để tăng cường khả năng lý luận của các mô hình sau.

Sử dụng kỹ thuật chưng cất giúp chi phí hoạt động của DeepSeek rẻ hơn rất nhiều.

Làm thế nào để DeepSeek chứng minh mô hình của họ được phát triển độc lập?

Vì có những suy đoán về vi phạm của DeepSeek, gánh nặng chứng minh sẽ thuộc về OpenAI khi công ty làm thế nào để chứng minh rằng DeepSeek thực sự đã vi phạm các điều khoản dịch vụ của họ. Đây là một việc làm khó bởi chỉ có mô hình cuối cùng do DeepSeek phát triển được công khai chứ không phải dữ liệu đào tạo của nó, vì vậy rất khó để chứng minh lời buộc tội. Do OpenAI vẫn chưa công khai bằng chứng của mình nên khó có thể nói rằng lập luận của họ đối với DeepSeek là chính xác.

Có tiêu chuẩn nào để đảm bảo quá trình phát triển AI không vi phạm?

Hiện tại có rất ít tiêu chuẩn được chấp nhận rộng rãi liên quan đến việc phát triển các mô hình AI của các công ty. Những người ủng hộ các mô hình mở cho rằng tính cởi mở dẫn đến tính minh bạch hơn. Nhưng việc mở các trọng số mô hình không giống như việc mở toàn bộ quy trình, từ thu thập dữ liệu đến đào tạo. Ngoài ra còn có những lo ngại rằng liệu việc sử dụng các tài liệu có bản quyền như sách để đào tạo các mô hình AI có phải là sử dụng hợp lý hay không. Một ví dụ nổi bật là vụ kiện do The New York Times đệ trình chống lại OpenAI nêu bật các cuộc tranh luận về mặt pháp lý và đạo đức xung quanh vấn đề này.

Ở thời điểm hiện tại vẫn chưa rõ phương pháp hoạt động của DeepSeek nhưng đó vẫn là ứng dụng miễn phí được tải về nhiều nhất trên App Store.

Có những câu hỏi xung quanh sự thiên vị xã hội trong dữ liệu đào tạo ảnh hưởng đến kết quả của mô hình. Cũng có những lo ngại xung quanh nhu cầu năng lượng ngày càng tăng và tác động của nó đến biến đổi khí hậu. Hầu hết các vấn đề này đang được tranh luận tích cực với ít sự đồng thuận.

Liệu DeepSeek có thể gây ra rủi ro cho an ninh Mỹ như các quan chức Mỹ lo ngại?

Theo Giáo sư Ambuj Tewari, sẽ rất đáng lo ngại nếu dữ liệu của công dân Mỹ được lưu trữ trên máy chủ của DeepSeek và chính phủ Trung Quốc có quyền truy cập vào dữ liệu đó. Tuy nhiên, trọng số mô hình là mở nên các dữ liệu này cũng có thể được chạy trên máy chủ do các công ty Mỹ sở hữu. Trên thực tế, Microsoft đã bắt đầu lưu trữ các mô hình của DeepSeek.