Tác giả: Jeff Amico

Biên soạn bởi: Deep Wave TechFlow

giới thiệu

Folding@home đã đạt được một cột mốc quan trọng trong đại dịch COVID-19. Dự án nghiên cứu đã nhận được 2,4 exaFLOPS sức mạnh tính toán, được cung cấp bởi 2 triệu thiết bị tình nguyện trên toàn thế giới. Con số này gấp 15 lần sức mạnh xử lý của các siêu máy tính lớn nhất thế giới vào thời điểm đó, cho phép các nhà khoa học mô phỏng động lực học của protein COVID trên quy mô lớn. Công việc của họ đã nâng cao hiểu biết của chúng ta về virus và cơ chế bệnh sinh của nó, đặc biệt là ở giai đoạn đầu của dịch bệnh.

Sự phân bổ toàn cầu của người dùng Folding@home, 2021

Folding@home được xây dựng dựa trên lịch sử lâu dài của điện toán tình nguyện, một dự án huy động nguồn lực điện toán từ cộng đồng để giải quyết các vấn đề quy mô lớn. Ý tưởng này đã thu hút được sự chú ý rộng rãi vào những năm 1990 với SETI@home, một dự án quy tụ hơn 5 triệu máy tính tình nguyện trong việc tìm kiếm sự sống ngoài Trái đất. Ý tưởng này kể từ đó đã được áp dụng cho nhiều lĩnh vực khác nhau, bao gồm vật lý thiên văn, sinh học phân tử, toán học, mật mã và trò chơi điện tử. Trong mỗi trường hợp, sức mạnh tập thể đã nâng cao khả năng của từng dự án riêng lẻ vượt xa những gì họ có thể đạt được riêng lẻ. Điều này thúc đẩy sự tiến bộ và cho phép nghiên cứu được tiến hành theo cách cởi mở và hợp tác hơn.

Nhiều người thắc mắc liệu chúng ta có thể áp dụng mô hình cung cấp dịch vụ cộng đồng này vào deep learning hay không. Nói cách khác, liệu chúng ta có thể huấn luyện một mạng lưới thần kinh lớn trên số đông không? Đào tạo mô hình tiên tiến là một trong những nhiệm vụ tính toán chuyên sâu nhất trong lịch sử loài người. Cũng như nhiều dự án @home, chi phí hiện tại nằm ngoài tầm với của những người chơi lớn nhất. Điều này có thể cản trở sự tiến bộ trong tương lai khi chúng ta ngày càng dựa vào ít công ty hơn để tìm ra những bước đột phá mới. Điều này cũng tập trung quyền kiểm soát hệ thống AI của chúng tôi vào tay một số ít người. Cho dù bạn cảm thấy thế nào về công nghệ thì đây vẫn là một tương lai đáng theo dõi.

Hầu hết các nhà phê bình đều bác bỏ ý tưởng đào tạo phi tập trung vì không tương thích với công nghệ đào tạo hiện tại. Tuy nhiên, quan điểm này ngày càng lỗi thời. Các công nghệ mới đã xuất hiện giúp giảm nhu cầu liên lạc giữa các nút, cho phép đào tạo hiệu quả trên các thiết bị có kết nối mạng kém. Những công nghệ này bao gồm DiLoCo, SWARM Parallelism, lo-fi và đào tạo phi tập trung các mô hình cơ bản trong môi trường không đồng nhất. Nhiều trong số chúng có khả năng chịu lỗi và hỗ trợ tính toán không đồng nhất. Ngoài ra còn có các kiến ​​trúc mới được thiết kế đặc biệt cho các mạng phi tập trung, bao gồm DiPaCo và mô hình chuyên gia lai phi tập trung.

Chúng tôi cũng thấy nhiều loại mật mã nguyên thủy khác nhau bắt đầu trưởng thành, cho phép các mạng phối hợp các tài nguyên trên quy mô toàn cầu. Những công nghệ này hỗ trợ các kịch bản ứng dụng như tiền kỹ thuật số, thanh toán xuyên biên giới và thị trường dự đoán. Không giống như các dự án tình nguyện trước đó, các mạng này có thể tổng hợp sức mạnh tính toán đáng kinh ngạc, thường có cường độ lớn hơn các cụm đào tạo đám mây lớn nhất hiện được hình dung.

Cùng với nhau, những yếu tố này tạo thành một mô hình đào tạo mô hình mới. Mô hình này tận dụng tối đa các tài nguyên điện toán của thế giới, bao gồm số lượng lớn các thiết bị biên có thể được sử dụng nếu được kết nối với nhau. Điều này sẽ giảm chi phí của hầu hết khối lượng công việc đào tạo bằng cách đưa ra các cơ chế cạnh tranh mới. Nó cũng có thể mở khóa các định dạng đào tạo mới, giúp việc phát triển mô hình mang tính hợp tác và mô-đun thay vì đơn lẻ và nguyên khối. Các mô hình có thể học trong thời gian thực bằng cách sử dụng tính toán và dữ liệu từ công chúng. Các cá nhân có thể sở hữu các bộ phận của mô hình mà họ tạo ra. Các nhà nghiên cứu cũng có thể chia sẻ lại một cách công khai những phát hiện mới mà không cần phải kiếm tiền từ những phát hiện của mình để trang trải ngân sách tính toán cao.

Báo cáo này xem xét hiện trạng đào tạo mô hình lớn và các chi phí liên quan. Nó xem xét các nỗ lực điện toán phân tán trước đây—từ SETI đến Folding đến BOINC—là nguồn cảm hứng để khám phá các con đường thay thế. Báo cáo thảo luận về những thách thức lịch sử của đào tạo phi tập trung và đề cập đến những đột phá gần đây có thể giúp vượt qua những thách thức này. Cuối cùng, nó tóm tắt những cơ hội và thách thức trong tương lai.

Thực trạng đào tạo mô hình tiên tiến hiện nay

Chi phí đào tạo các mô hình tiên tiến đã trở nên quá cao đối với những người chơi không lớn. Xu hướng này không phải là mới, nhưng tình hình đang trở nên nghiêm trọng hơn khi các phòng thí nghiệm tiên tiến tiếp tục thách thức các giả định về tỷ lệ. OpenAI được cho là đã chi hơn 3 tỷ USD cho việc đào tạo trong năm nay. Anthropic dự đoán đến năm 2025, chúng ta sẽ bắt đầu đào tạo 10 tỷ USD, và những mô hình 100 tỷ USD không còn xa nữa.

Xu hướng này dẫn đến sự tập trung của ngành vì chỉ một số ít công ty có đủ khả năng tham gia. Điều này đặt ra một câu hỏi chính sách trọng tâm cho tương lai – liệu chúng ta có thể chấp nhận tình huống tất cả các hệ thống AI hàng đầu đều do một hoặc hai công ty kiểm soát không? Điều này cũng hạn chế tốc độ tiến bộ, điều này thể hiện rõ trong cộng đồng nghiên cứu vì các phòng thí nghiệm nhỏ hơn không đủ khả năng cung cấp tài nguyên máy tính cần thiết để mở rộng quy mô thí nghiệm. Các nhà lãnh đạo ngành đã đề cập đến điều này nhiều lần:

Joe Spisak của Meta: Để thực sự hiểu được khả năng của kiến ​​trúc [mô hình], bạn phải khám phá nó trên quy mô lớn và tôi nghĩ đó là điều còn thiếu trong hệ sinh thái hiện tại. Nếu bạn nhìn vào giới học thuật - có rất nhiều người xuất sắc trong giới học thuật, nhưng họ thiếu khả năng tiếp cận với tài nguyên máy tính, và điều đó trở thành một vấn đề vì họ có những ý tưởng tuyệt vời này nhưng thực sự không có công cụ để triển khai chúng ở mức độ cần thiết. đường.

Max Ryabinin, Together: Nhu cầu về phần cứng đắt tiền gây áp lực lớn cho cộng đồng nghiên cứu. Hầu hết các nhà nghiên cứu không thể tham gia phát triển mạng lưới thần kinh quy mô lớn vì việc thực hiện các thí nghiệm cần thiết sẽ rất tốn kém. Nếu chúng tôi tiếp tục tăng quy mô của mô hình bằng cách mở rộng quy mô, cuối cùng chúng tôi sẽ có thể cạnh tranh

Francois Chollet, Google: Chúng tôi biết rằng các mô hình ngôn ngữ lớn (LLM) vẫn chưa đạt được trí tuệ nhân tạo tổng quát (AGI). Trong khi đó, tiến trình hướng tới AGI đã bị đình trệ. Những hạn chế mà chúng tôi gặp phải với các mô hình ngôn ngữ lớn cũng chính là những hạn chế mà chúng tôi gặp phải 5 năm trước. Chúng ta cần những ý tưởng và đột phá mới. Tôi nghĩ bước đột phá tiếp theo có thể đến từ các nhóm bên ngoài trong khi tất cả các phòng thí nghiệm lớn đang bận rộn đào tạo các mô hình ngôn ngữ lớn hơn. Một số người hoài nghi về những lo ngại này, cho rằng cải tiến phần cứng và chi tiêu vốn cho điện toán đám mây sẽ giải quyết được vấn đề. Nhưng điều này có vẻ không thực tế. Có một điều là vào cuối thập kỷ này, các thế hệ chip Nvidia mới sẽ có nhiều FLOP hơn đáng kể, có thể gấp 10 lần so với H100 ngày nay. Điều này sẽ giảm giá mỗi FLOP xuống 80-90%. Tương tự như vậy, tổng nguồn cung FLOP dự kiến ​​sẽ tăng khoảng 20 lần vào cuối thập kỷ này, cùng với những cải tiến về mạng lưới và cơ sở hạ tầng liên quan. Tất cả điều này sẽ làm tăng hiệu quả đào tạo trên mỗi đô la.

Nguồn: Mô hình TCO đám mây AI bán phân tích

Đồng thời, tổng nhu cầu FLOP cũng sẽ tăng đáng kể khi các phòng thí nghiệm tìm cách mở rộng quy mô hơn nữa. Nếu xu hướng tính toán đào tạo trong 10 năm được giữ vững, FLOP dành cho đào tạo tiên tiến dự kiến ​​sẽ đạt ~2e29 vào năm 2030. Việc đào tạo ở quy mô này sẽ cần khoảng 20 triệu GPU tương đương H100, dựa trên thời gian đào tạo và mức sử dụng hiện tại. Giả sử vẫn còn nhiều phòng thí nghiệm tiên tiến trong khu vực này, tổng số FLOPS cần thiết sẽ gấp vài lần con số này vì tổng nguồn cung sẽ được chia cho chúng. EpochAI dự đoán chúng ta sẽ cần khoảng 100 triệu GPU tương đương H100 vào thời điểm đó, khoảng 50x lô hàng vào năm 2024. SemiAnalysis đưa ra dự đoán tương tự, lập luận rằng nhu cầu đào tạo tiên tiến và nguồn cung cấp GPU sẽ tăng trưởng song song trong giai đoạn này.

Điều kiện năng lực có thể trở nên căng thẳng hơn vì một số lý do. Ví dụ: trường hợp này thường xảy ra nếu tắc nghẽn sản xuất làm trì hoãn thời gian vận chuyển ước tính. Hoặc nếu chúng ta không sản xuất đủ năng lượng để cung cấp năng lượng cho các trung tâm dữ liệu. Hoặc nếu chúng ta gặp khó khăn khi kết nối các nguồn năng lượng này vào lưới điện. Hoặc nếu việc tăng cường giám sát chi tiêu vốn cuối cùng sẽ dẫn đến việc thu hẹp quy mô ngành, cùng với các yếu tố khác. Trong trường hợp tốt nhất, các phương pháp tiếp cận hiện tại của chúng tôi chỉ cho phép một số công ty tiếp tục thúc đẩy nghiên cứu và điều đó có thể là chưa đủ.

Rõ ràng, chúng ta cần một cách tiếp cận mới. Thay vì liên tục mở rộng các trung tâm dữ liệu, chi phí vốn và tiêu thụ năng lượng để tìm kiếm bước đột phá tiếp theo, phương pháp này sử dụng hiệu quả cơ sở hạ tầng hiện có của chúng tôi với khả năng mở rộng quy mô linh hoạt khi nhu cầu biến động. Điều này sẽ cho phép có nhiều khả năng thử nghiệm hơn trong nghiên cứu, vì các hoạt động đào tạo sẽ không còn cần phải đảm bảo lợi tức đầu tư cho ngân sách điện toán trị giá hàng tỷ đô la. Sau khi thoát khỏi giới hạn này, chúng ta có thể vượt ra ngoài mô hình mô hình ngôn ngữ lớn (LLM) hiện tại, vì nhiều người tin rằng cần thiết để đạt được trí tuệ nhân tạo tổng quát (AGI). Để hiểu giải pháp thay thế này trông như thế nào, chúng ta có thể lấy cảm hứng từ các phương pháp tính toán phân tán trước đây.

Điện toán đám đông: Lược sử lịch sử

SETI@home đã phổ biến khái niệm này vào năm 1999, cho phép hàng triệu người tham gia phân tích tín hiệu vô tuyến để tìm kiếm trí thông minh ngoài Trái đất. SETI thu thập dữ liệu điện từ từ kính thiên văn Arecibo, chia thành từng đợt và gửi cho người dùng qua Internet. Người dùng phân tích dữ liệu trong hoạt động hàng ngày của họ và gửi lại kết quả. Không cần giao tiếp giữa những người dùng và các lô có thể được xem xét độc lập, cho phép xử lý song song ở mức độ cao. Vào thời kỳ đỉnh cao, SETI@home có hơn 5 triệu người tham gia và sức mạnh xử lý mạnh hơn cả những siêu máy tính lớn nhất thời bấy giờ. Cuối cùng nó đã đóng cửa vào tháng 3 năm 2020, nhưng thành công của nó đã truyền cảm hứng cho phong trào điện toán tự nguyện sau đó.

Folding@home tiếp tục ý tưởng này vào năm 2000, sử dụng điện toán biên để mô phỏng quá trình gấp protein trong các bệnh như Alzheimer, ung thư và bệnh Parkinson. Các tình nguyện viên dành thời gian rảnh rỗi trên PC để thực hiện mô phỏng protein, giúp các nhà nghiên cứu nghiên cứu cách thức các protein cuộn sai và dẫn đến bệnh tật. Tại nhiều thời điểm khác nhau trong lịch sử, sức mạnh tính toán của nó đã vượt quá sức mạnh tính toán của các siêu máy tính lớn nhất vào thời điểm đó, kể cả vào cuối những năm 2000 và trong thời kỳ COVID, khi nó trở thành dự án điện toán phân tán đầu tiên vượt quá một exaFLOPS. Kể từ khi thành lập, các nhà nghiên cứu của Folding đã xuất bản hơn 200 bài báo được bình duyệt, mỗi bài đều dựa vào khả năng tính toán của các tình nguyện viên.

Cơ sở hạ tầng mở cho điện toán mạng Berkeley (BOINC) đã phổ biến ý tưởng này vào năm 2002, cung cấp nền tảng điện toán có nguồn lực từ cộng đồng cho nhiều dự án nghiên cứu khác nhau. Nó hỗ trợ một số dự án như SETI@home và Folding@home, cũng như các dự án mới trong các lĩnh vực như vật lý thiên văn, sinh học phân tử, toán học và mật mã. Đến năm 2024, BOINC liệt kê 30 dự án đang triển khai và gần 1.000 bài báo khoa học đã xuất bản, được sản xuất bằng mạng máy tính của mình.

Ngoài nghiên cứu khoa học, điện toán tình nguyện còn được sử dụng để đào tạo các công cụ trò chơi như cờ vây (LeelaZero, KataGo) và cờ vua (Stockfish, LeelaChessZero). LeelaZero được đào tạo từ năm 2017 đến năm 2021 thông qua điện toán tình nguyện, cho phép nó chơi hơn 10 triệu trò chơi với chính nó, tạo ra một trong những công cụ cờ vây mạnh nhất hiện nay. Tương tự, Stockfish đã được đào tạo liên tục trên mạng lưới tình nguyện viên kể từ năm 2013, khiến nó trở thành một trong những công cụ cờ vua mạnh mẽ và phổ biến nhất.

Về những thách thức của học sâu

Nhưng liệu chúng ta có thể áp dụng mô hình này vào deep learning không? Chúng ta có thể kết nối các thiết bị biên trên khắp thế giới để tạo ra một cụm đào tạo công cộng chi phí thấp không? Phần cứng tiêu dùng — từ máy tính xách tay Apple đến card đồ họa chơi game Nvidia — đang ngày càng có khả năng học sâu tốt hơn. Trong nhiều trường hợp, hiệu suất của các thiết bị này vượt quá hiệu suất trên mỗi đô la của card đồ họa của trung tâm dữ liệu.

Tuy nhiên, để sử dụng hiệu quả các tài nguyên này trong môi trường phân tán, chúng ta cần vượt qua nhiều thách thức khác nhau.

Đầu tiên, các kỹ thuật đào tạo phân tán hiện tại giả định liên lạc thường xuyên giữa các nút.

Các mô hình tiên tiến hiện nay đã phát triển lớn đến mức việc đào tạo phải được chia thành hàng nghìn GPU. Điều này đạt được thông qua nhiều kỹ thuật song song hóa, thường là chia tách mô hình, tập dữ liệu hoặc cả hai cùng lúc trên các GPU có sẵn. Điều này thường yêu cầu mạng có băng thông cao và độ trễ thấp, nếu không, các nút sẽ không hoạt động và chờ dữ liệu đến.

Ví dụ: song song dữ liệu phân tán (DDP) phân phối tập dữ liệu trên các GPU, trong đó mỗi GPU đào tạo một mô hình hoàn chỉnh trên phần dữ liệu cụ thể của nó, sau đó chia sẻ các bản cập nhật độ dốc của nó để tạo trọng số mô hình mới ở mỗi bước. Điều này đòi hỏi chi phí liên lạc tương đối hạn chế, vì các nút chỉ chia sẻ các cập nhật độ dốc sau mỗi lần truyền ngược và các hoạt động liên lạc tập thể có thể trùng lặp một phần với tính toán. Tuy nhiên, cách tiếp cận này chỉ hiệu quả với các mô hình nhỏ hơn vì nó yêu cầu mỗi GPU lưu trữ toàn bộ trọng số, kích hoạt và trạng thái tối ưu hóa của mô hình trong bộ nhớ. Ví dụ: GPT-4 yêu cầu hơn 10TB bộ nhớ khi đào tạo, trong khi một chiếc H100 chỉ có 80GB.

Để giải quyết vấn đề này, chúng tôi cũng sử dụng nhiều kỹ thuật khác nhau để phân chia mô hình phân phối trên các GPU. Ví dụ: tính song song tensor phân chia các trọng số riêng lẻ trong một lớp duy nhất, cho phép mỗi GPU thực hiện các hoạt động cần thiết và chuyển đầu ra sang các GPU khác. Điều này làm giảm yêu cầu bộ nhớ của từng GPU nhưng yêu cầu liên lạc liên tục giữa chúng, do đó yêu cầu kết nối băng thông cao, độ trễ thấp để đạt hiệu quả.

Tính song song của đường ống phân phối các lớp của mô hình trên các GPU, trong đó mỗi GPU thực hiện công việc của mình và chia sẻ các bản cập nhật với GPU tiếp theo trong đường ống. Mặc dù điều này đòi hỏi ít giao tiếp hơn so với song song tensor, "bong bóng" (ví dụ: thời gian nhàn rỗi) có thể xảy ra khi GPU ở phía sau quy trình chờ thông tin từ GPU ở phía trước để bắt đầu Công việc.

Để giải quyết những thách thức này, nhiều công nghệ khác nhau đã được phát triển. Ví dụ: ZeRO (Zero Redundancy Optimizer) là một kỹ thuật tối ưu hóa bộ nhớ giúp giảm mức sử dụng bộ nhớ bằng cách tăng chi phí liên lạc, cho phép đào tạo các mô hình lớn hơn trên các thiết bị cụ thể. ZeRO giảm yêu cầu về bộ nhớ bằng cách phân tách các tham số mô hình, độ dốc và trạng thái tối ưu hóa giữa các GPU nhưng dựa vào giao tiếp rộng rãi để thiết bị có thể lấy được dữ liệu phân tách. Đây là cách tiếp cận cơ bản cho các công nghệ phổ biến như Song song dữ liệu được phân chia hoàn toàn (FSDP) và DeepSpeed.

Những kỹ thuật này thường được kết hợp trong đào tạo mô hình lớn để tối đa hóa việc sử dụng tài nguyên, được gọi là song song 3D. Trong cấu hình này, tính song song tensor thường được sử dụng để phân phối trọng số trên các GPU trong một máy chủ do yêu cầu giao tiếp rộng rãi giữa mỗi lớp phân chia. Sau đó, tính song song của đường ống được sử dụng để phân phối các tầng giữa các máy chủ khác nhau (nhưng trong cùng một hòn đảo trong trung tâm dữ liệu) vì nó yêu cầu ít giao tiếp hơn. Tiếp theo, song song dữ liệu hoặc song song dữ liệu được phân chia hoàn toàn (FSDP) được sử dụng để phân chia tập dữ liệu trên các đảo máy chủ khác nhau, vì nó có thể chứa các tập dữ liệu dài hơn bằng cách chia sẻ các bản cập nhật không đồng bộ và/hoặc nén độ trễ của Mạng. Meta sử dụng phương pháp kết hợp này để huấn luyện Llama 3.1, như minh họa trong sơ đồ bên dưới.

Những cách tiếp cận này đặt ra những thách thức cốt lõi cho các mạng đào tạo phi tập trung dựa trên các thiết bị được kết nối qua Internet cấp tiêu dùng (chậm hơn và dễ biến động hơn). Trong môi trường này, chi phí liên lạc có thể nhanh chóng vượt xa lợi ích của điện toán biên vì các thiết bị thường không hoạt động, chờ dữ liệu đến. Lấy một ví dụ đơn giản, việc đào tạo song song dữ liệu phân tán của mô hình bán chính xác với 1 tỷ tham số yêu cầu mỗi GPU chia sẻ 2GB dữ liệu trong mỗi bước tối ưu hóa. Lấy băng thông Internet thông thường (ví dụ: 1 gigabit mỗi giây) làm ví dụ và giả sử rằng tính toán và giao tiếp không chồng chéo, việc truyền các bản cập nhật độ dốc mất ít nhất 16 giây, dẫn đến tình trạng nhàn rỗi đáng kể. Các kỹ thuật như song song tensor (đòi hỏi nhiều giao tiếp hơn) tất nhiên sẽ hoạt động kém hơn.

Thứ hai, kỹ thuật đào tạo hiện tại thiếu khả năng chịu lỗi. Giống như bất kỳ hệ thống phân tán nào, các cụm đào tạo dễ bị lỗi hơn khi chúng tăng kích thước. Tuy nhiên, vấn đề này càng trở nên trầm trọng hơn trong quá trình đào tạo vì công nghệ hiện tại của chúng tôi chủ yếu là đồng bộ, nghĩa là các GPU phải làm việc cùng nhau để hoàn thành quá trình đào tạo mô hình. Lỗi của một GPU trong số hàng nghìn GPU có thể làm dừng toàn bộ quá trình đào tạo, buộc các GPU khác phải bắt đầu đào tạo lại từ đầu. Trong một số trường hợp, GPU không bị lỗi hoàn toàn mà thay vào đó trở nên chậm chạp vì nhiều lý do, làm chậm hàng nghìn GPU khác trong cụm. Với quy mô của các cụm ngày nay, điều này có thể đồng nghĩa với việc phải trả thêm chi phí từ hàng chục đến hàng trăm triệu đô la.

Meta đã giải thích chi tiết hơn về những vấn đề này trong quá trình đào tạo Llama, trong đó họ đã trải qua hơn 400 lần gián đoạn không mong muốn, trung bình khoảng 8 lần gián đoạn mỗi ngày. Những lần ngừng hoạt động này chủ yếu là do sự cố phần cứng, chẳng hạn như lỗi GPU hoặc phần cứng máy chủ. Điều này dẫn đến việc sử dụng GPU của họ chỉ ở mức 38-43%. OpenAI thậm chí còn hoạt động kém hơn trong quá trình đào tạo trên GPT-4, chỉ ở mức 32-36%, cũng do thường xuyên gặp trục trặc trong quá trình đào tạo.

Nói cách khác, các phòng thí nghiệm tiên tiến vẫn gặp khó khăn để đạt được mức sử dụng 40% khi đào tạo trong môi trường được tối ưu hóa hoàn toàn bao gồm hệ thống phần cứng, mạng, nguồn và làm mát đồng nhất, hiện đại. Điều này chủ yếu là do lỗi phần cứng và sự cố mạng, vốn càng trở nên trầm trọng hơn trong môi trường đào tạo biên vì thiết bị có sự mất cân bằng về sức mạnh xử lý, băng thông, độ trễ và độ tin cậy. Chưa kể, các mạng phi tập trung rất dễ bị tấn công bởi những tác nhân độc hại, những kẻ có thể cố gắng phá hoại tổng thể dự án hoặc gian lận khối lượng công việc cụ thể vì nhiều lý do. Ngay cả SETI@home, một mạng lưới tình nguyện thuần túy, cũng từng gặp phải sự gian lận của nhiều người tham gia khác nhau.

Thứ ba, đào tạo mô hình tiên tiến đòi hỏi sức mạnh tính toán quy mô lớn. Mặc dù các dự án như SETI và Folding đã đạt đến quy mô ấn tượng nhưng chúng vẫn kém cỏi so với sức mạnh tính toán cần thiết cho hoạt động đào tạo tiên tiến ngày nay. GPT-4 đã được huấn luyện trên cụm 20.000 chiếc A100 và đạt được thông lượng cao nhất là 6,28 ExaFLOPS với độ chính xác chỉ bằng một nửa. Đó là sức mạnh tính toán gấp ba lần so với Folding@home ở thời kỳ đỉnh cao. Llama 405b được huấn luyện sử dụng 16.000 chiếc H100 và đạt thông lượng cực đại là 15,8 ExaFLOPS, gấp 7 lần đỉnh Folding. Khoảng cách này sẽ chỉ ngày càng rộng hơn khi nhiều phòng thí nghiệm có kế hoạch xây dựng các cụm trên 100.000 H100, mỗi cụm có công suất tính toán đáng kinh ngạc là 99 ExaFLOPS.

Điều này có ý nghĩa vì dự án @home là do tình nguyện viên điều hành. Những người đóng góp quyên góp bộ nhớ và chu trình xử lý của họ và chịu các chi phí liên quan. Điều này đương nhiên giới hạn quy mô của chúng so với các dự án thương mại.

những phát triển gần đây

Mặc dù những vấn đề này trong lịch sử đã gây khó khăn cho các nỗ lực đào tạo phi tập trung nhưng chúng dường như không còn có thể vượt qua được nữa. Các công nghệ đào tạo mới đã xuất hiện giúp giảm nhu cầu liên lạc giữa các nút, cho phép đào tạo hiệu quả trên các thiết bị kết nối internet. Nhiều công nghệ trong số này bắt nguồn từ các phòng thí nghiệm lớn muốn tăng quy mô lớn hơn cho hoạt động đào tạo mô hình và do đó yêu cầu công nghệ truyền thông hiệu quả giữa các trung tâm dữ liệu. Chúng tôi cũng đang chứng kiến ​​sự tiến bộ trong các phương pháp đào tạo có khả năng chịu lỗi và hệ thống khuyến khích bằng mật mã có thể hỗ trợ đào tạo quy mô lớn hơn trong môi trường biên.

Công nghệ truyền thông hiệu quả

DiLoCo là một nỗ lực gần đây của Google nhằm giảm chi phí liên lạc bằng cách thực hiện tối ưu hóa cục bộ trước khi chuyển trạng thái mô hình đã cập nhật giữa các thiết bị. Cách tiếp cận của họ (dựa trên nghiên cứu học tập liên kết trước đó) cho thấy kết quả tương đương với đào tạo đồng bộ truyền thống trong khi giảm giao tiếp giữa các nút xuống hệ số 500. Cách tiếp cận này đã được các nhà nghiên cứu khác nhân rộng và mở rộng quy mô để huấn luyện các mô hình lớn hơn (hơn 1 tỷ tham số). Nó cũng mở rộng sang đào tạo không đồng bộ, có nghĩa là các nút có thể chia sẻ các cập nhật độ dốc vào các thời điểm khác nhau thay vì chia sẻ tất cả chúng cùng một lúc. Điều này phù hợp hơn với phần cứng biên với khả năng xử lý và tốc độ mạng khác nhau.

Các phương pháp tiếp cận song song dữ liệu khác, chẳng hạn như lo-fi và DisTrO, nhằm mục đích giảm hơn nữa chi phí truyền thông. Lo-fi đề xuất một phương pháp tinh chỉnh hoàn toàn cục bộ, có nghĩa là các nút được huấn luyện độc lập và chỉ có trọng số mới được chuyển vào cuối. Cách tiếp cận này đạt được hiệu suất tương đương với đường cơ sở đồng thời loại bỏ hoàn toàn chi phí liên lạc khi tinh chỉnh các mô hình ngôn ngữ với hơn 1 tỷ tham số. Trong một báo cáo sơ bộ, DisTrO tuyên bố sẽ sử dụng một trình tối ưu hóa phân tán mới mà họ tin rằng có thể giảm yêu cầu liên lạc từ 4 đến 5 bậc độ lớn, mặc dù phương pháp này vẫn chưa được xác nhận.

Các phương pháp song song mô hình mới cũng đã xuất hiện, giúp đạt được quy mô lớn hơn. DiPaCo (cũng của Google) chia mô hình thành các mô-đun, mỗi mô-đun chứa các mô-đun chuyên gia khác nhau để tạo điều kiện đào tạo cho các nhiệm vụ cụ thể. Dữ liệu huấn luyện sau đó được phân chia theo "đường dẫn", là các chuỗi chuyên gia tương ứng với từng mẫu dữ liệu. Với một phân đoạn, mỗi nhân viên có thể đào tạo một đường dẫn cụ thể gần như độc lập, ngoại trừ giao tiếp cần thiết để chia sẻ các mô-đun do DiLoCo xử lý. Kiến trúc này giúp giảm hơn một nửa thời gian đào tạo của mô hình tỷ tham số.

Tính song song SWARM và Đào tạo phi tập trung các mô hình cơ sở trong môi trường không đồng nhất (DTFMHE) cũng đề xuất các phương pháp song song mô hình để cho phép đào tạo mô hình lớn trong môi trường không đồng nhất. SWARM nhận thấy rằng khi kích thước mô hình tăng lên, các hạn chế về giao tiếp song song trong đường ống giảm xuống, giúp đào tạo các mô hình lớn hơn một cách hiệu quả ở băng thông mạng thấp hơn và độ trễ cao hơn. Để áp dụng ý tưởng này trong một môi trường không đồng nhất, họ sử dụng các “kết nối đường ống” tạm thời giữa các nút có thể được cập nhật theo thời gian thực sau mỗi lần lặp. Điều này cho phép nút gửi đầu ra của nó tới bất kỳ nút ngang hàng nào cho giai đoạn quy trình tiếp theo. Điều này có nghĩa là nếu một người ngang hàng nhanh hơn những người khác hoặc nếu bất kỳ người tham gia nào ngắt kết nối, thì đầu ra có thể được định tuyến lại một cách linh hoạt để đảm bảo quá trình đào tạo tiếp tục miễn là có ít nhất một người tham gia tích cực trong mỗi giai đoạn. Họ đã sử dụng phương pháp này để đào tạo một mô hình có hơn 1 tỷ tham số trên các GPU không đồng nhất giá thành thấp với khả năng kết nối chậm (như minh họa trong hình bên dưới).

DTFMHE tương tự đề xuất một thuật toán lập lịch mới, cùng với song song đường ống và song song dữ liệu, để đào tạo các mô hình lớn trên các thiết bị trên khắp 3 châu lục. Mặc dù tốc độ mạng của họ chậm hơn 100 lần so với Deepspeed tiêu chuẩn nhưng cách tiếp cận của họ chỉ chậm hơn 1,7-3,5 lần so với việc sử dụng Deepspeed tiêu chuẩn trong trung tâm dữ liệu. Tương tự như SWARM, DTFMHE cho thấy chi phí truyền thông có thể được ẩn đi một cách hiệu quả khi kích thước mô hình tăng lên, ngay cả trong các mạng phân tán về mặt địa lý. Điều này cho phép chúng tôi khắc phục các kết nối yếu hơn giữa các nút thông qua các kỹ thuật khác nhau, bao gồm tăng kích thước của các lớp ẩn và thêm nhiều lớp hơn cho mỗi giai đoạn đường ống.

khả năng chịu lỗi

Theo mặc định, nhiều phương pháp song song dữ liệu ở trên có khả năng chịu lỗi vì mỗi nút lưu trữ toàn bộ mô hình trong bộ nhớ. Sự dư thừa này thường có nghĩa là các nút vẫn có thể hoạt động độc lập ngay cả khi các nút khác bị lỗi. Điều này rất quan trọng đối với việc đào tạo phi tập trung, vì các nút thường không đáng tin cậy, không đồng nhất và thậm chí có thể hoạt động độc hại. Tuy nhiên, như đã đề cập trước đó, các phương pháp song song dữ liệu thuần túy chỉ phù hợp với các mô hình nhỏ hơn, do đó kích thước mô hình bị hạn chế bởi dung lượng bộ nhớ của nút nhỏ nhất trong mạng.

Để giải quyết các vấn đề trên, một số người đã đề xuất các kỹ thuật chịu lỗi phù hợp cho việc huấn luyện mô hình song song (hoặc song song lai). SWARM ứng phó với các lỗi nút ngang hàng bằng cách ưu tiên các nút ngang hàng ổn định với độ trễ thấp hơn và định tuyến lại các tác vụ trong các giai đoạn quy trình trong trường hợp xảy ra lỗi. Các cách tiếp cận khác, chẳng hạn như Oobleck, thực hiện cách tiếp cận tương tự bằng cách tạo nhiều "mẫu đường dẫn" để cung cấp dự phòng trong trường hợp nút bị lỗi một phần. Mặc dù đã được thử nghiệm trong các trung tâm dữ liệu, cách tiếp cận của Oobleck mang lại sự đảm bảo về độ tin cậy mạnh mẽ, áp dụng như nhau cho các môi trường phi tập trung.

Chúng tôi cũng thấy một số kiến ​​trúc mô hình mới (chẳng hạn như Hỗn hợp chuyên gia phi tập trung (DMoE)) để hỗ trợ đào tạo khả năng chịu lỗi trong môi trường phi tập trung. Tương tự như các mô hình kết hợp chuyên gia truyền thống, DMoE bao gồm nhiều mạng "chuyên gia" độc lập được phân bổ trên một tập hợp các nút công nhân. DMoE sử dụng bảng băm phân tán để theo dõi và hợp nhất các bản cập nhật không đồng bộ theo cách phi tập trung. Cơ chế này (cũng được sử dụng trong SWARM) có khả năng chống lại các lỗi nút rất tốt, vì nó có thể loại trừ một số chuyên gia nhất định khỏi tính toán trung bình nếu một số nút không thành công hoặc không phản hồi kịp thời.

tỉ lệ

Cuối cùng, các hệ thống khuyến khích mật mã như hệ thống được Bitcoin và Ethereum sử dụng có thể giúp đạt được quy mô cần thiết. Cả hai mạng đều huy động nguồn lực tính toán bằng cách trả cho những người đóng góp một tài sản gốc có giá trị tăng lên khi mức độ áp dụng tăng lên. Thiết kế này khuyến khích những người đóng góp sớm bằng cách trao cho họ những phần thưởng hào phóng, phần thưởng này có thể giảm dần khi mạng đạt đến quy mô khả thi tối thiểu.

Thật vậy, có nhiều cạm bẫy khác nhau cần phải tránh với cơ chế này. Cạm bẫy chính là nguồn cung bị kích thích quá mức và không tạo ra được nhu cầu tương ứng. Ngoài ra, điều này có thể gây ra các vấn đề về quy định nếu mạng cơ bản không đủ phân cấp. Tuy nhiên, khi được thiết kế hợp lý, các hệ thống khuyến khích phi tập trung có thể đạt được quy mô đáng kể trong một khoảng thời gian dài.

Ví dụ: mức tiêu thụ điện hàng năm của Bitcoin là khoảng 150 terawatt giờ (TWh), lớn hơn hai bậc so với mức tiêu thụ điện của cụm đào tạo AI lớn nhất hiện đang được hình thành (100.000 H100 chạy hết công suất trong một năm). Để tham khảo, GPT-4 của OpenAI đã được đào tạo trên 20.000 chiếc A100 và mẫu Llama 405B hàng đầu của Meta đã được đào tạo trên 16.000 chiếc H100. Tương tự như vậy, vào thời kỳ đỉnh cao, mức tiêu thụ năng lượng của Ethereum là khoảng 70 TWh, trải rộng trên hàng triệu GPU. Ngay cả khi cho phép các trung tâm dữ liệu AI phát triển nhanh chóng trong những năm tới, các mạng điện toán được khuyến khích như thế này sẽ vượt quá quy mô của chúng nhiều lần.

Tất nhiên, không phải tất cả các tính toán đều có thể thay thế được và việc đào tạo có những yêu cầu riêng liên quan đến việc khai thác cần được xem xét. Tuy nhiên, các mạng này cho thấy quy mô có thể đạt được thông qua các cơ chế này.

Con đường phía trước

Buộc những mảnh này lại với nhau, chúng ta có thể thấy sự khởi đầu của một con đường mới phía trước.

Chẳng bao lâu nữa, các công nghệ đào tạo mới sẽ cho phép chúng ta vượt ra khỏi giới hạn của trung tâm dữ liệu vì các thiết bị không còn cần phải đặt cùng vị trí để hoạt động hiệu quả nữa. Việc này sẽ mất thời gian vì các phương pháp đào tạo phi tập trung hiện tại của chúng tôi vẫn ở quy mô nhỏ hơn, chủ yếu nằm trong khoảng từ 1 tỷ đến 2 tỷ tham số, nhỏ hơn nhiều so với các mô hình như GPT-4. Cần có những đột phá hơn nữa để tăng quy mô của các phương pháp này mà không làm mất đi các đặc tính chính như hiệu quả truyền thông và khả năng chịu lỗi. Hoặc chúng ta cần các kiến ​​trúc mô hình mới khác với các mô hình nguyên khối lớn ngày nay - có lẽ nhỏ hơn và nhiều mô-đun hơn, chạy trên các thiết bị biên thay vì trên đám mây

Trong mọi trường hợp, thật hợp lý khi mong đợi sự tiến bộ hơn nữa theo hướng này. Chi phí cho các phương pháp hiện tại của chúng tôi là không bền vững, điều này tạo ra động lực thị trường mạnh mẽ cho sự đổi mới. Chúng ta đã nhìn thấy xu hướng này khi các nhà sản xuất như Apple đang xây dựng các thiết bị biên mạnh mẽ hơn để chạy cục bộ nhiều khối lượng công việc hơn thay vì dựa vào đám mây. Chúng tôi cũng nhận thấy sự hỗ trợ ngày càng tăng đối với các giải pháp nguồn mở—ngay cả trong các công ty như Meta—để thúc đẩy nghiên cứu và phát triển phi tập trung hơn. Những xu hướng này sẽ chỉ tăng tốc theo thời gian.

Đồng thời, chúng ta cũng cần cơ sở hạ tầng mạng mới để kết nối các thiết bị biên để có thể sử dụng chúng theo cách này. Những thiết bị này bao gồm máy tính xách tay, máy tính để bàn chơi game và thậm chí có thể là điện thoại di động có card đồ họa hiệu suất cao và dung lượng bộ nhớ lớn. Điều này sẽ cho phép chúng tôi xây dựng một "cụm toàn cầu" về sức mạnh tính toán luôn hoạt động, chi phí thấp, có thể xử lý song song các nhiệm vụ đào tạo. Đây cũng là một vấn đề đầy thách thức đòi hỏi sự tiến bộ trong nhiều lĩnh vực.

Chúng ta cần các kỹ thuật lập kế hoạch tốt hơn để đào tạo trong môi trường không đồng nhất. Hiện tại không có cách nào để tự động song song hóa một mô hình để tối ưu hóa, đặc biệt khi các thiết bị có thể bị ngắt kết nối hoặc kết nối bất kỳ lúc nào. Đây là bước quan trọng tiếp theo trong việc tối ưu hóa hoạt động đào tạo trong khi vẫn duy trì được lợi thế về quy mô của các mạng dựa trên biên.

Chúng tôi cũng phải giải quyết sự phức tạp chung của các mạng phi tập trung. Để tối đa hóa quy mô, mạng phải được xây dựng dưới dạng giao thức mở—một bộ tiêu chuẩn và hướng dẫn quy định sự tương tác giữa những người tham gia, giống như TCP/IP nhưng dành cho điện toán máy học. Điều này sẽ cho phép mọi thiết bị tuân thủ các thông số kỹ thuật cụ thể có thể kết nối với mạng, bất kể chủ sở hữu và vị trí. Nó cũng đảm bảo rằng mạng vẫn ở trạng thái trung lập, cho phép người dùng đào tạo các mô hình mà họ thích.

Mặc dù điều này tối đa hóa quy mô nhưng nó cũng yêu cầu một cơ chế để xác minh tính chính xác của tất cả các nhiệm vụ đào tạo mà không cần dựa vào một thực thể duy nhất. Điều này rất quan trọng vì có những động cơ cố hữu để gian lận – ví dụ: tuyên bố đã hoàn thành nhiệm vụ đào tạo để được trả tiền nhưng thực tế không phải làm như vậy. Điều này đặc biệt khó khăn vì các thiết bị khác nhau thường thực hiện các hoạt động học máy khác nhau, gây khó khăn cho việc xác minh tính chính xác bằng các kỹ thuật sao chép tiêu chuẩn. Để giải quyết chính xác vấn đề này đòi hỏi phải nghiên cứu chuyên sâu về mật mã và các ngành khác.

May mắn thay, chúng tôi tiếp tục nhận thấy sự tiến bộ trên tất cả các mặt trận này. Những thách thức này dường như không còn là không thể vượt qua so với những năm trước. Họ cũng nhạt nhòa so với những cơ hội. Google tóm tắt điều này tốt nhất trong bài báo DiPaCo của họ, chỉ ra các cơ chế phản hồi tiêu cực mà hoạt động đào tạo phi tập trung có khả năng bị phá vỡ:

Những tiến bộ trong đào tạo phân tán của các mô hình học máy có thể tạo điều kiện thuận lợi cho việc xây dựng cơ sở hạ tầng đơn giản hóa, cuối cùng dẫn đến nguồn tài nguyên máy tính sẵn có rộng rãi hơn. Hiện tại, cơ sở hạ tầng được thiết kế dựa trên các phương pháp tiêu chuẩn để đào tạo các mô hình nguyên khối lớn và các mô hình học máy được thiết kế để tận dụng cơ sở hạ tầng và phương pháp đào tạo hiện tại. Vòng phản hồi này có thể khiến cộng đồng rơi vào tình trạng tối thiểu cục bộ sai lệch, trong đó tài nguyên tính toán bị hạn chế hơn mức thực sự cần thiết.

Có lẽ điều thú vị nhất là sự nhiệt tình ngày càng tăng trong cộng đồng nghiên cứu nhằm giải quyết những câu hỏi này. Nhóm của chúng tôi tại Gensyn đang xây dựng cơ sở hạ tầng mạng được mô tả ở trên. Các nhóm như Hivemind và BigScience áp dụng nhiều kỹ thuật này vào thực tế. Các dự án như Petals, sahajBERT và Bloom chứng tỏ khả năng của những công nghệ này cũng như mối quan tâm ngày càng tăng đối với việc học máy dựa vào cộng đồng. Nhiều người khác cũng đang thúc đẩy nghiên cứu với mục tiêu xây dựng một hệ sinh thái đào tạo mô hình hợp tác và cởi mở hơn. Nếu bạn quan tâm đến công việc này, vui lòng liên hệ với chúng tôi để tham gia.