Giải thích công nghệ lưu trữ: AI và lưu trữ dữ liệu

  • Post category:computer


Trí tuệ nhân tạo (AI) và học máy (ML) hứa hẹn một bước thay đổi trong nền tảng tự động hóa CNTT, với các ứng dụng từ chatbot đơn giản đến mức độ phức tạp, tạo và kiểm soát nội dung gần như không thể tưởng tượng được.

Lưu trữ là một phần quan trọng của AI, để cung cấp dữ liệu cho việc đào tạo và lưu trữ khối lượng dữ liệu khổng lồ có thể được tạo ra hoặc trong quá trình suy luận khi kết quả của AI được áp dụng cho khối lượng công việc trong thế giới thực.

Trong bài viết này, chúng ta xem xét các đặc điểm chính của khối lượng công việc AI, hồ sơ đầu vào/đầu ra (I/O) lưu trữ của chúng, các loại lưu trữ phù hợp với AI, tính phù hợp của lưu trữ đối tượng và đám mây cho AI cũng như chiến lược và sản phẩm của nhà cung cấp lưu trữ cho AI.

Các tính năng chính của khối lượng công việc AI là gì?

AI và ML dựa trên việc đào tạo một thuật toán để phát hiện các mẫu trong dữ liệu, hiểu rõ hơn về dữ liệu và thường kích hoạt phản hồi dựa trên những phát hiện đó. Đó có thể là những đề xuất rất đơn giản dựa trên dữ liệu bán hàng, chẳng hạn như loại đề xuất “những người đã mua sản phẩm này cũng đã mua”. Hoặc chúng có thể là loại nội dung phức tạp mà chúng ta thấy từ các mô hình ngôn ngữ lớn (LLM) trong AI tổng quát (GenAI) được đào tạo trên nhiều bộ dữ liệu rộng lớn để cho phép nó tạo ra văn bản, hình ảnh và video thuyết phục.

Có ba giai đoạn chính và loại triển khai đối với khối lượng công việc AI:

  1. Đào tạo, trong đó thuật toán được đưa vào hoạt động nhận dạng từ bộ dữ liệu mô hình AI, với mức độ giám sát khác nhau của con người;
  2. Suy luận, trong đó các mẫu được xác định trong giai đoạn đào tạo được đưa vào hoạt động, trong quá trình triển khai AI độc lập và/hoặc;
  3. Triển khai AI cho một ứng dụng hoặc bộ ứng dụng.

Vị trí và cách thức đào tạo và chạy khối lượng công việc AI và ML có thể khác nhau đáng kể. Một mặt, chúng có thể giống với quá trình đào tạo và suy luận theo đợt hoặc một lần giống như quá trình xử lý điện toán hiệu năng cao (HPC) trên các tập dữ liệu cụ thể trong môi trường khoa học và nghiên cứu. Mặt khác, AI, sau khi được đào tạo, có thể được áp dụng cho khối lượng công việc ứng dụng liên tục, chẳng hạn như các loại hoạt động bán hàng và tiếp thị được mô tả ở trên.

Các loại dữ liệu trong bộ dữ liệu huấn luyện và vận hành có thể khác nhau, từ rất nhiều tệp nhỏ, chẳng hạn như kết quả đọc cảm biến trong khối lượng công việc trên Internet vạn vật (IoT), đến các đối tượng rất lớn như tệp hình ảnh và phim hoặc các lô dữ liệu khoa học rời rạc. Kích thước tệp khi nhập cũng phụ thuộc vào khung AI đang sử dụng (xem bên dưới).

Các bộ dữ liệu cũng có thể là một phần của việc lưu trữ dữ liệu chính hoặc phụ, chẳng hạn như hồ sơ bán hàng hoặc dữ liệu được lưu giữ trong các bản sao lưu, vốn ngày càng được coi là nguồn thông tin có giá trị của công ty.

Các đặc điểm I/O của khối lượng công việc AI là gì?

Việc đào tạo và suy luận về khối lượng công việc AI thường yêu cầu xử lý song song trên diện rộng, sử dụng bộ xử lý đồ họa (GPU) hoặc phần cứng tương tự để giảm tải việc xử lý từ các bộ xử lý trung tâm (CPU).

Hiệu suất xử lý cần phải vượt trội để xử lý việc đào tạo và suy luận AI trong khung thời gian hợp lý và lặp lại nhiều lần nhất có thể để tối đa hóa chất lượng.

Cơ sở hạ tầng cũng cần có khả năng mở rộng quy mô lớn để xử lý các tập dữ liệu đào tạo rất lớn và kết quả đầu ra từ quá trình đào tạo và suy luận. Nó cũng yêu cầu tốc độ I/O giữa lưu trữ và xử lý, đồng thời có khả năng quản lý tính di động của dữ liệu giữa các vị trí để cho phép xử lý hiệu quả nhất.

Dữ liệu có thể không có cấu trúc và có khối lượng lớn, thay vì có cấu trúc và trong cơ sở dữ liệu.

Khối lượng công việc AI cần loại lưu trữ nào?

Như chúng ta đã thấy, xử lý song song quy mô lớn bằng GPU là cốt lõi của cơ sở hạ tầng AI. Vì vậy, tóm lại, nhiệm vụ của bộ lưu trữ là cung cấp các GPU đó càng nhanh càng tốt để đảm bảo những phần cứng rất tốn kém này được sử dụng một cách tối ưu.

Thông thường, điều đó có nghĩa là bộ nhớ flash có độ trễ thấp trong I/O. Công suất cần thiết sẽ thay đổi tùy theo quy mô khối lượng công việc và quy mô kết quả xử lý AI, nhưng có thể lên tới hàng trăm terabyte, thậm chí là petabyte.

Thông lượng phù hợp cũng là một yếu tố vì các khung AI khác nhau lưu trữ dữ liệu theo cách khác nhau, chẳng hạn như giữa PyTorch (số lượng lớn tệp nhỏ hơn) và TensorFlow (ngược lại). Vì vậy, đây không chỉ là trường hợp truyền dữ liệu đến GPU một cách nhanh chóng mà còn ở mức âm lượng phù hợp và khả năng I/O phù hợp.

Gần đây, các nhà cung cấp dịch vụ lưu trữ đã đẩy mạnh lưu trữ dựa trên flash – thường sử dụng flash QLC mật độ cao – làm phương tiện lưu trữ có mục đích chung tiềm năng, bao gồm cả các tập dữ liệu cho đến nay được coi là “thứ cấp”, chẳng hạn như dữ liệu sao lưu, vì giờ đây khách hàng có thể muốn truy cập nó tại tốc độ cao hơn bằng cách sử dụng AI.

Bộ nhớ cho các dự án AI sẽ bao gồm từ bộ nhớ mang lại hiệu suất rất cao trong quá trình đào tạo và suy luận cho đến các hình thức lưu giữ lâu dài khác nhau vì không phải lúc nào ngay từ đầu dự án AI sẽ biết rõ dữ liệu nào sẽ hữu ích.

Lưu trữ đám mây có tốt cho khối lượng công việc AI không?

Lưu trữ đám mây có thể là một sự cân nhắc khả thi cho dữ liệu khối lượng công việc AI. Ưu điểm của việc lưu giữ dữ liệu trên đám mây mang lại yếu tố về tính di động, dữ liệu có thể được “di chuyển” đến gần vị trí xử lý của nó hơn.

Nhiều dự án AI bắt đầu trên đám mây vì bạn có thể sử dụng GPU vào thời điểm bạn cần. Đám mây không hề rẻ, nhưng để triển khai phần cứng tại chỗ, bạn cần phải cam kết thực hiện một dự án sản xuất trước khi thực hiện.

Tất cả các nhà cung cấp đám mây quan trọng đều cung cấp các dịch vụ AI từ mô hình được đào tạo trước, giao diện lập trình ứng dụng (API) đến mô hình, tính toán AI/ML với triển khai GPU có thể mở rộng (Nvidia và của riêng họ) và cơ sở hạ tầng lưu trữ có thể mở rộng lên nhiều petabyte.

Lưu trữ đối tượng có tốt cho khối lượng công việc AI không?

Lưu trữ đối tượng phù hợp với dữ liệu phi cấu trúc, có khả năng mở rộng quy mô lớn, thường được tìm thấy trên đám mây và có thể xử lý hầu hết mọi loại dữ liệu dưới dạng đối tượng. Điều đó làm cho nó rất phù hợp với khối lượng công việc dữ liệu lớn, phi cấu trúc có thể có trong các ứng dụng AI và ML.

Sự hiện diện của siêu dữ liệu phong phú là một điểm cộng khác cho việc lưu trữ đối tượng. Nó có thể được tìm kiếm và đọc để giúp tìm và sắp xếp dữ liệu phù hợp cho các mô hình đào tạo AI. Dữ liệu có thể được lưu giữ ở hầu hết mọi nơi, kể cả trên đám mây với giao tiếp qua giao thức S3.

Nhưng siêu dữ liệu, vì tất cả những lợi ích của nó, cũng có thể làm quá tải các bộ điều khiển lưu trữ và ảnh hưởng đến hiệu suất. Và, nếu đám mây là nơi lưu trữ đám mây thì cần phải tính đến chi phí đám mây khi dữ liệu được truy cập và di chuyển.

Các nhà cung cấp dịch vụ lưu trữ cung cấp những gì cho AI?

Nvidia cung cấp các kiến ​​trúc tham chiếu và ngăn xếp phần cứng bao gồm máy chủ, GPU và kết nối mạng. Đây là kiến ​​trúc tham chiếu DGX BasePOD và cơ sở hạ tầng chìa khóa trao tay DGX SuperPOD, có thể được chỉ định cho các ngành dọc.

Các nhà cung cấp bộ lưu trữ cũng tập trung vào nút cổ chai I/O để dữ liệu có thể được phân phối hiệu quả tới số lượng lớn GPU (rất tốn kém).

Những nỗ lực đó bao gồm việc tích hợp với cơ sở hạ tầng Nvidia – nhân tố chính trong công nghệ máy chủ GPU và AI – thông qua các dịch vụ vi mô như NeMo để đào tạo và NIM để suy luận nhằm xác thực sản phẩm lưu trữ với cơ sở hạ tầng AI và đến toàn bộ cơ sở hạ tầng lưu trữ nhắm vào AI.

Các sáng kiến ​​của nhà cung cấp cũng tập trung vào việc phát triển các đường dẫn thế hệ tăng cường truy xuất (RAG) và kiến ​​trúc phần cứng để hỗ trợ nó. RAG xác nhận những phát hiện trong quá trình đào tạo AI bằng cách tham khảo thông tin đáng tin cậy bên ngoài, một phần để giải quyết cái gọi là ảo giác.

Nhà cung cấp bộ lưu trữ nào cung cấp sản phẩm được chứng nhận cho Nvidia DGX?

Nhiều nhà cung cấp dịch vụ lưu trữ có sản phẩm được xác nhận bằng các dịch vụ DGX, bao gồm những sản phẩm sau.

DataDirect Networks (DDN) cung cấp các thiết bị lưu trữ toàn NVMe A³I AI400X2 với SuperPOD. Mỗi thiết bị cung cấp thông lượng lên tới 90Gbps và ba triệu IOPS.

Nhà máy AI của Dell là một ngăn xếp phần cứng tích hợp bao gồm máy tính để bàn, máy tính xách tay và máy chủ điện toán PowerEdge XE9680, bộ lưu trữ, phần mềm và dịch vụ PowerScale F710 và được xác thực bằng cơ sở hạ tầng AI của Nvidia. Nó có sẵn thông qua chương trình dịch vụ Apex của Dell.

IBM có Bộ lưu trữ quang phổ cho AI với Nvidia DGX. Đây là một giải pháp điện toán, lưu trữ và kết nối mạng hội tụ nhưng có khả năng mở rộng riêng biệt được xác thực cho Nvidia BasePOD và SuperPod.

Nhà cung cấp dịch vụ sao lưu Cohesity đã công bố tại sự kiện GTC 2024 của Nvidia rằng họ sẽ tích hợp các dịch vụ vi mô Nvidia NIM và Nvidia AI Enterprise vào nền tảng dữ liệu đa đám mây Gaia, cho phép sử dụng dữ liệu sao lưu và lưu trữ để tạo thành nguồn dữ liệu đào tạo.

Hammerspace có chứng nhận GPUDirect với Nvidia. Hammerspace tiếp thị NAS Hyperscale của mình dưới dạng hệ thống tệp toàn cầu được xây dựng cho khối lượng công việc AI/ML và xử lý dựa trên GPU.

Hitachi Vantara có Hitachi iQ, chuyên cung cấp các hệ thống AI dành riêng cho ngành sử dụng GPU Nvidia DGX và HGX với bộ lưu trữ của công ty.

HPE có hệ thống doanh nghiệp và siêu máy tính GenAI với các thành phần Nvidia, kiến ​​trúc tham chiếu RAG và có kế hoạch xây dựng các dịch vụ vi mô NIM. Vào tháng 3 năm 2024, HPE đã nâng cấp mảng lưu trữ Alletra MP của mình để kết nối số lượng máy chủ gấp hai lần và dung lượng gấp bốn lần trong cùng một không gian rack với kết nối 100Gbps giữa các nút trong một cụm.

NetApp có tích hợp sản phẩm với BasePOD và SuperPOD. Tại GTC 2024 NetApp đã công bố tích hợp microservice NeMo Retriever của Nvidia, một sản phẩm phần mềm RAG, với bộ lưu trữ đám mây lai dành cho khách hàng OnTap.

Pure Storage có AIRI, cơ sở hạ tầng AI dựa trên flash được chứng nhận với máy chủ DGX và Nvidia OVX và sử dụng bộ lưu trữ FlashBlade//S của Pure. Tại GTC 2024, Pure thông báo họ đã tạo ra một quy trình RAG sử dụng các vi dịch vụ dựa trên Nvidia NeMo với GPU Nvidia và bộ lưu trữ của nó, cùng với RAG cho các ngành dọc cụ thể.

Vast Data đã ra mắt Nền tảng dữ liệu rộng lớn vào năm 2023, kết hợp các hệ thống con lưu trữ bộ nhớ đệm flash và nhanh QLC với các khả năng giống như cơ sở dữ liệu ở cấp độ I/O lưu trữ gốc và chứng nhận DGX.

Vào tháng 3 năm 2024, nhà sản xuất NAS đám mây lai Weka đã công bố một thiết bị phần cứng được chứng nhận hoạt động với cơ sở hạ tầng trung tâm dữ liệu DGX SuperPod AI của Nvidia.

Trả lời