Bốn tác động chính của AI đến việc lưu trữ dữ liệu

  • Post category:computer


Trí tuệ nhân tạo (AI) là một trong những công nghệ doanh nghiệp phát triển nhanh nhất.

Theo IBM, 42% doanh nghiệp có hơn 1.000 nhân viên hiện đang sử dụng AI trong hoạt động kinh doanh của mình. Hơn 40% đang thử nghiệm hoặc thử nghiệm nó.

Phần lớn sự đổi mới đó đang được thúc đẩy bởi AI tổng quát (GenAI) hoặc các mô hình ngôn ngữ lớn (LLM), chẳng hạn như ChatGPT. Ngày càng có nhiều dạng AI này được sử dụng trong các ứng dụng doanh nghiệp hoặc thông qua các chatbot tương tác với khách hàng.

Hiện tại, hầu hết các hệ thống GenAI đều dựa trên đám mây, nhưng các nhà cung cấp đang nỗ lực để giúp tích hợp LLM với dữ liệu doanh nghiệp dễ dàng hơn.

LLM và các dạng AI và học máy “thông thường” khác cần tài nguyên lưu trữ dữ liệu và tính toán đáng kể, tại chỗ hoặc trên đám mây.

Ở đây, chúng tôi xem xét một số điểm áp lực xung quanh việc lưu trữ dữ liệu, cũng như nhu cầu tuân thủ trong giai đoạn đào tạo và vận hành của AI.

Đào tạo AI đặt ra yêu cầu lớn về I/O lưu trữ

Các mô hình AI cần được đào tạo trước khi sử dụng. Đào tạo càng tốt thì mô hình càng đáng tin cậy – và khi nói đến đào tạo mô hình, càng nhiều dữ liệu thì càng tốt.

Roy Illsley, nhà phân tích chính về thực hành trung tâm dữ liệu và đám mây tại Omdia cho biết: “Khía cạnh quan trọng của bất kỳ mô hình nào là nó tốt như thế nào”. “Đây là sự phỏng theo câu nói, ‘Dữ liệu kém cộng với một mô hình hoàn hảo đồng nghĩa với việc dự đoán kém’, câu nói này đã nói lên tất cả. Dữ liệu phải sạch sẽ, đáng tin cậy và có thể truy cập được.”

Do đó, giai đoạn đào tạo là giai đoạn mà các dự án AI đặt ra yêu cầu cao nhất về cơ sở hạ tầng CNTT, bao gồm cả lưu trữ.

Nhưng không có kiến ​​trúc lưu trữ duy nhất nào hỗ trợ AI. Loại lưu trữ sẽ phụ thuộc vào loại dữ liệu.

Đối với các mô hình ngôn ngữ lớn, hầu hết việc đào tạo được thực hiện với dữ liệu phi cấu trúc. Điều này thường sẽ được lưu trữ trên tập tin hoặc đối tượng.

Trong khi đó, các mô hình tài chính sử dụng dữ liệu có cấu trúc, trong đó lưu trữ khối phổ biến hơn và sẽ có các dự án AI sử dụng cả ba loại lưu trữ.

Một yếu tố khác là nơi diễn ra quá trình đào tạo mô hình. Lý tưởng nhất là dữ liệu cần càng gần với tài nguyên điện toán càng tốt.

Đối với mô hình dựa trên đám mây, điều này khiến lưu trữ đám mây trở thành lựa chọn điển hình. Tắc nghẽn trong I/O trong cơ sở hạ tầng đám mây ít gây ra vấn đề hơn so với độ trễ khi di chuyển dữ liệu đến hoặc từ đám mây và các nhà cung cấp đám mây siêu quy mô hiện cung cấp nhiều tùy chọn lưu trữ hiệu suất cao.

Điều ngược lại cũng được áp dụng. Nếu dữ liệu được đặt tại chỗ, chẳng hạn như trong cơ sở dữ liệu công ty hoặc hệ thống hoạch định nguồn lực doanh nghiệp, thì việc sử dụng điện toán cục bộ để chạy mô hình là hợp lý. Điều này cho phép các nhà phát triển AI kiểm soát nhiều hơn cấu hình phần cứng.

Các mô hình AI sử dụng rộng rãi các bộ xử lý đồ họa (GPU), vốn đắt tiền, do đó, việc làm cho bộ lưu trữ theo kịp nhu cầu GPU là điều quan trọng. Tuy nhiên, trong một số trường hợp, các bộ xử lý trung tâm có nhiều khả năng bị tắc nghẽn hơn là bộ lưu trữ. Nó phụ thuộc vào loại mô hình, dữ liệu đang được đào tạo và cơ sở hạ tầng sẵn có.

Patrick Smith, giám đốc công nghệ khu vực EMEA tại Pure Storage cho biết: “Nó cần phải hiệu quả nhất có thể”. “Đó là điểm mấu chốt. Bạn cần một môi trường cân bằng về khả năng và hiệu suất của GPU, mạng và bộ lưu trữ phụ trợ.”

Cách một doanh nghiệp dự định sử dụng mô hình AI của mình cũng sẽ ảnh hưởng đến việc lựa chọn lưu trữ cục bộ hoặc đám mây. Khi giai đoạn đào tạo của AI diễn ra trong thời gian ngắn, lưu trữ đám mây có thể sẽ tiết kiệm chi phí nhất và hạn chế về hiệu suất ít nghiêm trọng hơn. Doanh nghiệp có thể giảm dung lượng lưu trữ sau khi quá trình đào tạo hoàn tất.

Tuy nhiên, nếu dữ liệu cần được giữ lại trong giai đoạn vận hành – để tinh chỉnh hoặc đào tạo liên tục hoặc để xử lý dữ liệu mới – thì lợi thế theo yêu cầu của đám mây sẽ bị suy yếu.

Suy luận AI cần độ trễ thấp

Khi một mô hình được huấn luyện, nhu cầu lưu trữ dữ liệu của nó sẽ giảm đi. Hệ thống AI sản xuất chạy các truy vấn của người dùng hoặc khách hàng thông qua các thuật toán được điều chỉnh và những thuật toán này có thể mang lại hiệu quả cao.

Christof Stührmann, giám đốc kỹ thuật đám mây tại Taiga Cloud, một phần của Northern Data, cho biết: “Mô hình thu được từ quá trình đào tạo AI nhìn chung có quy mô nhỏ so với quy mô tài nguyên máy tính được sử dụng để đào tạo nó và không yêu cầu quá nhiều dung lượng lưu trữ”. Nhóm.

Tuy nhiên, hệ thống vẫn có dữ liệu đầu vào và đầu ra. Người dùng hoặc ứng dụng nhập các truy vấn vào mô hình và mô hình sau đó cung cấp các kết quả đầu ra tương tự.

Trong giai đoạn vận hành hoặc suy luận này, AI cần I/O hiệu suất cao để hoạt động hiệu quả. Khối lượng dữ liệu cần thiết có thể nhỏ hơn nhiều so với dữ liệu dành cho đào tạo, nhưng khoảng thời gian để nhập dữ liệu và trả về các truy vấn có thể được đo bằng mili giây.

Một số trường hợp sử dụng AI chính, chẳng hạn như phát hiện mối đe dọa và an ninh mạng, tự động hóa quy trình CNTT và quét sinh trắc học để bảo mật hoặc nhận dạng hình ảnh trong sản xuất, tất cả đều cần kết quả nhanh chóng.

Ngay cả những lĩnh vực mà GenAI được sử dụng để tạo ra các chatbot tương tác như con người, hệ thống cũng cần phải đủ nhanh để phản hồi có vẻ tự nhiên.

Một lần nữa, điều quan trọng là phải xem xét mô hình và hệ thống AI đang muốn làm gì. Illsley cho biết: “Một số ứng dụng sẽ yêu cầu độ trễ rất thấp. “Như vậy, AI phải được đặt càng gần người dùng càng tốt và dữ liệu có thể là một phần rất nhỏ của ứng dụng. Các ứng dụng khác có thể ít nhạy cảm hơn với độ trễ nhưng liên quan đến lượng lớn dữ liệu và do đó cần phải đặt AI gần bộ lưu trữ với dung lượng và hiệu suất cần thiết.”

Quản lý dữ liệu cho AI

Tác động thứ ba của AI đối với việc lưu trữ là nhu cầu thu thập và xử lý dữ liệu liên tục.

Đối với AI và học máy “thông thường”, các nhà khoa học dữ liệu muốn truy cập vào càng nhiều dữ liệu càng tốt, trên cơ sở rằng nhiều dữ liệu hơn sẽ tạo ra một mô hình chính xác hơn.

Điều này gắn liền với cách tiếp cận rộng hơn của tổ chức đối với việc quản lý dữ liệu và lưu trữ. Những cân nhắc ở đây bao gồm liệu dữ liệu được lưu trữ trên đĩa flash hay đĩa quay, nơi lưu trữ các tài liệu lưu trữ và các chính sách lưu giữ dữ liệu lịch sử.

Quá trình đào tạo AI và giai đoạn suy luận sẽ thu thập dữ liệu từ khắp tổ chức, có thể từ nhiều ứng dụng, đầu vào của con người và cảm biến.

Các nhà phát triển AI đã bắt đầu xem kết cấu dữ liệu như một cách để “nuôi dưỡng” hệ thống AI, nhưng hiệu suất có thể là một vấn đề. Có khả năng kết cấu dữ liệu sẽ cần được xây dựng trên các tầng lưu trữ khác nhau để cân bằng giữa hiệu suất và chi phí.

Hiện tại, GenAI ít thách thức hơn vì LLM được đào tạo trên dữ liệu internet, nhưng điều này sẽ thay đổi khi nhiều công ty tìm cách sử dụng LLM bằng dữ liệu của riêng họ.

AI, lưu trữ dữ liệu và tuân thủ

Các doanh nghiệp cần đảm bảo dữ liệu AI của họ được bảo mật và lưu giữ theo luật pháp và quy định của địa phương.

Điều này sẽ ảnh hưởng đến nơi lưu giữ dữ liệu, khiến các cơ quan quản lý ngày càng quan tâm hơn đến chủ quyền dữ liệu. Trong các dịch vụ AI dựa trên đám mây, điều này mang đến nhu cầu hiểu dữ liệu được lưu trữ ở đâu trong giai đoạn đào tạo và suy luận. Các tổ chức cũng cần kiểm soát cách họ lưu trữ đầu vào và đầu ra của mô hình.

Điều này cũng áp dụng cho các mô hình chạy trên hệ thống cục bộ, mặc dù các chính sách tuân thủ và bảo vệ dữ liệu hiện có sẽ bao gồm hầu hết các trường hợp sử dụng AI.

Tuy nhiên, nó trả tiền để thận trọng. Richard Watson-Bruhn, chuyên gia bảo mật dữ liệu tại PA Consulting, cho biết: “Cách tốt nhất là thiết kế dữ liệu nào được đưa vào nhóm đào tạo để học AI và xác định rõ ràng dữ liệu nào bạn muốn và không muốn giữ lại trong mô hình”. .

“Khi các công ty sử dụng một công cụ như ChatGPT, việc dữ liệu đó được lưu giữ trên đám mây và chuyển ra nước ngoài là điều hoàn toàn bình thường, nhưng cần phải có các điều khoản hợp đồng để chi phối việc chia sẻ này.”

Trả lời