Phỏng vấn điều hành: Thêm ý thức chung vào khả năng sáng tạo AI mang tính sáng tạo

  • Post category:computer


Theo Jim Webber, nhà khoa học trưởng tại Neo4j, có một mối quan hệ lành mạnh giữa các mô hình ngôn ngữ lớn (LLM) và cơ sở dữ liệu đồ thị, được sử dụng để thu thập thông tin trên các mạng dữ liệu khác nhau.

Computer Weekly đã nói chuyện với Webber sau khi phê chuẩn tiêu chuẩn GQL ISO, tiêu chuẩn này cung cấp một cách tiêu chuẩn để chạy tìm kiếm trên cơ sở dữ liệu đồ thị và tương tự như tiêu chuẩn ISO SQL-86 cho các hệ thống quản lý cơ sở dữ liệu quan hệ.

Cơ sở dữ liệu đồ thị có cách tiếp cận truy vấn dữ liệu rất khác so với cơ sở dữ liệu quan hệ. Webber đã làm việc với cơ sở dữ liệu đồ thị trong khoảng 16 năm, 14 trong số đó là với Neo4j. Mặc dù anh ấy thấy vai trò của cơ sở dữ liệu quan hệ, nhưng điểm chính của Webber là hiệu suất thời gian chạy trong cơ sở dữ liệu quan hệ bị suy giảm.

Ý tưởng cơ bản đằng sau hệ thống cơ sở dữ liệu quan hệ là nó tổ chức dữ liệu theo kiểu định hướng hàng và liên kết các nội dung dữ liệu với nhau bằng cách sử dụng “nối” để liên kết các hàng trong bảng cơ sở dữ liệu này với các hàng trong bảng khác nhằm hình thành mối quan hệ giữa hai bảng đó. Một ví dụ đơn giản là một hàng xác định tham chiếu khách hàng duy nhất trong một bảng liên kết với chi tiết liên hệ của khách hàng được lưu trong một bảng khác.

“Trớ trêu thay, cơ sở dữ liệu quan hệ lại có khả năng kết nối rất kém,” ông nói. Webber cho biết: “Đây là điều bạn không muốn thực hiện trong cơ sở dữ liệu quan hệ vì bạn đang thực hiện nó trong thời gian chạy ở phần đắt tiền của hệ thống”.

Ông chỉ ra rằng điều này là do các phép nối được chạy hiệu quả trong bộ nhớ và xảy ra khi một ứng dụng hoặc người dùng chạy một truy vấn yêu cầu thẩm vấn nhiều bảng cơ sở dữ liệu.

Tuy nhiên, bất chấp sự kém hiệu quả rõ ràng này, cơ sở dữ liệu quan hệ vẫn là nền tảng dữ liệu cốt lõi cho nhiều ứng dụng doanh nghiệp.

“Mạng đồ thị cho phép bạn lập mô hình (dữ liệu lộn xộn) theo cách có độ chính xác cao mà không gặp khó khăn và phức tạp khi phải xây dựng các bảng và lược đồ phức tạp cũng như thực hiện các phép nối trong thời gian chạy”

Jim Webber, Neo4j

Ông nói thêm: “Ngày xưa, việc sử dụng cơ sở dữ liệu quan hệ là điều hợp lý vì tất cả dữ liệu đều giống hệt nhau”. Webber đang đề cập đến thực tế là một thứ gì đó giống như hệ thống trả lương chứa hàng nghìn trường hợp dữ liệu được định dạng giống hệt nhau cho hàng nghìn nhân viên.

Ông nói: “Thế giới mà chúng ta sống trong những năm 1980 là đồng nhất và thế giới mà chúng ta sống trong những năm 1990 hầu hết đều đồng nhất, vì vậy việc sử dụng cơ sở dữ liệu quan hệ là điều hoàn toàn hợp lý”.

Nhưng với sự bùng nổ của các hệ thống xảy ra gần đây, Webber cho rằng dữ liệu đã trở nên lộn xộn hơn. Ông nói: “Mạng đồ thị cho phép bạn lập mô hình mớ hỗn độn đó theo cách có độ chính xác cao mà không gặp phải vấn đề kiểu ‘kết hợp bom’ cũng như sự phức tạp của việc phải xây dựng các bảng và lược đồ phức tạp cũng như thực hiện các phép nối trong thời gian chạy”.

Niềm tin vào GQL

Webber tin rằng tiêu chuẩn ISO mới được phê chuẩn cho ngôn ngữ truy vấn đồ thị (GQL) thể hiện một bước ngoặt quan trọng đối với công nghệ. Tiêu chuẩn ISO cho ngôn ngữ truy vấn có cấu trúc (SQL), được gọi là SQL-86, được xuất bản vào năm 1986.

Nhớ lại tầm quan trọng của tiêu chuẩn, Webber nói rằng anh ấy đang “lập trình ZX Spectrum vào thời điểm đó” nên hồi đó “SQL chẳng có ý nghĩa gì với tôi”. Nhưng tiêu chuẩn SQL-86 đã giải quyết một cuộc tranh luận bắt đầu từ những năm 1970 về cách quản lý cơ sở dữ liệu. Edgar Cobb, khi làm việc tại IBM đã phát triển mô hình cơ sở dữ liệu quan hệ. Tiêu chuẩn SQL – được Viện Tiêu chuẩn Quốc gia Hoa Kỳ (ANSI) áp dụng vào năm 1986 và Tổ chức Tiêu chuẩn hóa Quốc tế (ISO) vào năm 1987 – đã mang lại cho các nhà phát triển ứng dụng và người mua phần mềm doanh nghiệp sự tự tin khi sử dụng cơ sở dữ liệu quan hệ.

Một đề xuất thay thế, cơ sở dữ liệu mạng do Charles Bachman phát triển đã thất bại. Nhưng theo Webber, cách tiếp cận của Bachman là tiền thân cổ xưa của cơ sở dữ liệu đồ thị.

Ông tin rằng các tiêu chuẩn rất quan trọng khi những người ra quyết định về CNTT phải đặt cược vào công nghệ. “Các CIO lo lắng vì nếu bạn đầu tư đáng kể vào một hệ thống, bạn không muốn bị ràng buộc hoặc thấy rằng hệ thống đó không có tương lai và bạn đã đi sai hướng. Đó là sự tương tự VHS và Betamax. Tôi nghĩ SQL đã tạo ra một lực đẩy đáng kể vào thị trường phần mềm ứng dụng vì nó cho mọi người biết rằng công nghệ cơ sở dữ liệu quan hệ đã hoàn thiện và an toàn.”

Theo Webber, tiêu chuẩn ISO GQL, giống như SQL-86, bảo vệ người mua CNTT khỏi đưa ra những quyết định thương mại sai lầm. Mặc dù có nhiều phương ngữ SQL khác nhau nhưng cú pháp cơ bản vẫn giống nhau. Điều tương tự cũng đúng với GQL.

“Về nguyên tắc, bạn luôn có thể chuyển đổi nhà cung cấp vì ngôn ngữ của bạn sẽ không thay đổi,” ông nói. “Việc học thêm mà tôi phải làm để chuyên sâu về hệ thống quản lý cơ sở dữ liệu quan hệ như SQL Server hoặc Oracle là không đáng kể.”

AI thông thường

Nhà phân tích Gartner gần đây đã đặt biểu đồ tri thức vào trung tâm của radar tác động dành cho trí tuệ nhân tạo tổng hợp (GenAI).

Webber cho biết: “Cơ sở dữ liệu biểu đồ là các biểu đồ tri thức, một mạng lưới các sự kiện, mang lại đối trọng phù hợp nhất cho GenAI”. Nếu GenAI giống như bán cầu não phải sáng tạo thì anh ấy cảm thấy đồ thị giống như bán cầu não trái, tập trung nhiều hơn vào lý luận.

Cơ sở dữ liệu biểu đồ là các biểu đồ tri thức, một mạng lưới các sự kiện, mang lại đối trọng phù hợp nhất cho GenAI

Jim Webber, Neo4j

“Bạn có một công cụ xác suất trong AI tổng hợp. Tôi thích nó. Tôi biết đó là một con robot, nhưng nó vẫn có cảm giác rất nguy hiểm, gần giống như có tia sáng của trí tưởng tượng vậy,” anh nói. “Nhưng tia lửa này cần phải được tiết chế và hóa ra là đồ thị tri thức đặc biệt tốt trong việc này bằng cách sử dụng một phương pháp gọi là đồ thị RAG.” Đây là nơi cơ sở dữ liệu đồ thị cung cấp thông tin theo ngữ cảnh cho LLM.

“Đây có lẽ là cách tốt nhất mà chúng tôi biết để tận dụng tối đa AI sáng tạo, đồng thời ngăn chặn những thông tin sai lệch và gây hiểu lầm rò rỉ đến người dùng cuối. Đó là não trái làm việc với não phải.”

Trong cuộc thảo luận, Webber nói về một ví dụ được đề cập trong chương trình phát sóng của Đài phát thanh công cộng quốc gia (NPR), trong đó một nhà nghiên cứu AI đã hỏi một LLM sẽ mất bao lâu để làm khô hai chiếc áo sơ mi trên dây phơi của cô ấy, nếu một chiếc phải mất ba giờ để làm khô. Câu trả lời rõ ràng là ba, nhưng LLM có thể lý luận rằng hai chiếc áo sơ mi sẽ dài gấp đôi.

Webber cho biết: “Bạn có thể ngăn những thông tin sai lệch đó rò rỉ bằng cách đưa bản đồ của vectơ đó vào các biểu đồ tri thức để có thể duyệt qua”.

Ví dụ, ông nói rằng khi nhìn thấy từ “quả táo”, người dùng có thể muốn hệ thống AI hiểu rằng quả táo được đề cập là công ty sản xuất iPod và iPhone ở Cupertino. Với các biểu đồ, anh ấy nói: “Bạn có thể xem qua một mạng lưới thông tin phong phú về Apple, công ty công nghệ. Nó không phải là quả táo, cũng không phải trái cây, cũng không phải Apple, hãng thu âm của Beatles.” Trên thực tế, cơ sở dữ liệu đồ thị áp dụng mức độ hiểu biết thông thường cho LLM, dựa trên ngữ cảnh, giúp định hướng phản hồi của nó tới các câu trả lời có ý nghĩa hơn.

Webber tuyên bố: “Khi bạn có một mạng lưới dữ kiện để khai thác, không có mô hình dữ liệu nào khác cung cấp cho bạn mạng lưới dữ kiện đó”. “Ngày nay, cách bạn khai thác mạng lưới dữ kiện đó là viết mã truy vấn bằng SQL.”

Nhưng do Webber đề cập đến sự thiếu hiệu quả trong việc sử dụng SQL để thực hiện các phép nối trên nhiều nguồn dữ liệu, việc chạy GQL trên biểu đồ tri thức có thể là cách AI học cách hiểu thông thường trong tương lai.

Trả lời