
(SeaPRwire) – Các nhà nghiên cứu tại Mayo Clinic và Goodfire, một công ty khởi nghiệp nghiên cứu ở San Francisco, cho biết họ đã sử dụng một mô hình AI để dự đoán đột biến gen nào gây bệnh—và, quan trọng là, giải thích tại sao—mang đến một cách tiếp cận mới để chẩn đoán và nghiên cứu các rối loạn di truyền trên quy mô lớn.
Nghiên cứu sử dụng các kỹ thuật từ khả năng diễn giải AI—ngành khoa học mới chuyên tìm hiểu bộ não mờ đục của các hệ thống AI—để dự đoán và hiểu đột biến gen nào có thể là “gây bệnh”.
Chẩn đoán và điều trị sớm một số bệnh ung thư có thể là ranh giới giữa sự sống và cái chết, Matthew Callstrom, giáo sư X-quang và người đứng đầu chương trình AI tạo sinh tại Mayo Clinic cho biết. Tuy nhiên, bộ gen người bao gồm hơn 3 tỷ cặp base—một vấn đề tìm kim đáy bể khổng lồ.
Các nhà nghiên cứu đã làm việc với Evo 2—một “mô hình nền tảng hệ gen” mã nguồn mở được đào tạo bởi Arc Institute—để dự đoán đột biến DNA nào gây bệnh và hiểu các đặc điểm sinh học nào có thể chịu trách nhiệm. Evo 2 được huấn luyện để dự đoán “chữ cái” tiếp theo trong một chuỗi DNA—giống như cách các mô hình ngôn ngữ lớn (LLM) như ChatGPT được huấn luyện để dự đoán từ tiếp theo trong một đoạn văn bản. Đối với ChatGPT, việc được huấn luyện trên hầu hết văn bản trên internet dạy cho nó cấu trúc ngôn ngữ và các sự kiện về thế giới. Được huấn luyện trên 128.000 bộ gen trải dài khắp các lĩnh vực của sự sống—mỗi bộ gen chỉ được cấu thành từ bốn chữ cái (G, T, C và A), các phân tử tạo nên DNA—Evo 2 học được những trình tự di truyền nào ‘hỗ trợ sự sống’, Nicholas Wang, một trong các tác giả của bài báo cho biết.
Tuy nhiên, kiến thức này bị khóa trong bảy tỷ con số mã hóa bộ não nhân tạo của mô hình: các nhà nghiên cứu có thể nhìn thấy các con số, nhưng ý nghĩa của chúng thì mờ đục. Giống như một điện não đồ đo hoạt động điện trong não người không nói cho nhà thần kinh học biết bệnh nhân đang nghĩ gì, các nhà nghiên cứu AI có thể thấy điều gì đang xảy ra bên trong bộ não của AI nhưng gặp khó khăn trong việc diễn giải nó.
Các nhà nghiên cứu tại Goodfire đã cho Evo 2 xem các ví dụ về đột biến gen gây bệnh và lành tính, và đo lường phần nào trong bộ não của nó sáng lên để phản ứng—cho phép họ tách biệt phản ứng của AI đối với các đột biến gây bệnh. Họ phát hiện ra rằng họ có thể sử dụng điều này để dự đoán đột biến nào gây bệnh tốt hơn mọi công cụ tính toán hiện có mà họ đã thử nghiệm—mặc dù Evo 2 chưa bao giờ được đào tạo rõ ràng cho nhiệm vụ dự đoán đột biến nào gây bệnh. Giống như với LLM, quy mô dữ liệu mà Evo 2 được đào tạo—gấp khoảng mười lần so với mô hình nền tảng hệ gen lớn nhất trước đây—đã cho phép nó suy ra các mẫu hình chung của DNA khỏe mạnh.
Tuy nhiên, trong lâm sàng, chỉ dự đoán là chưa đủ. “Điều cực kỳ quan trọng là chúng ta phải hiểu tại sao một mô hình lại đưa ra quyết định,” Matt Redlon, Chủ tịch chương trình AI của Mayo Clinic và đồng tác giả bài báo cho biết.
Việc thăm dò thêm cho thấy Evo 2 đã suy ra các đặc điểm sinh học có ý nghĩa của một chuỗi DNA. Ví dụ, Evo 2 đã học cách xác định ranh giới giữa các phần khác nhau của DNA, mặc dù thực tế là các bộ gen mà nó được đào tạo không có nhãn rõ ràng cho các ranh giới này.
Những đặc điểm sinh học này giúp giải thích tại sao một số đột biến gây bệnh và số khác thì không. Một đột biến ngay tại ranh giới của hai phần DNA có nhiều khả năng tạo ra một protein bị lỗi, dẫn đến một rối loạn di truyền. Một đột biến bên trong một phần bị loại bỏ trước khi protein được xây dựng thường là vô hại.
Khả năng của bài báo trong việc xác định các đặc điểm sinh học của đột biến thay vì chỉ cung cấp một điểm số gây bệnh mờ đục là một “bước tiến đáng kể,” Bo Wang, nhà khoa học AI trưởng tại Mạng lưới Y tế Đại học Canada cho biết.
Khi chi phí giải trình tự gen giảm—với các hệ thống gần đây tuyên bố có thể giải trình tự toàn bộ bộ gen với giá 100 USD—các phương pháp diễn giải dữ liệu di truyền, như phương pháp này, có thể giúp các nhà khoa học “quay trở lại với sinh học” và tạo ra “các liệu pháp cá nhân hóa” cho từng cá nhân, Redlon nói.
Tuy nhiên, trước khi phương pháp của Goodfire sẵn sàng cho lâm sàng, nó sẽ cần thực hiện các thử nghiệm lớn hơn để hiểu hiệu suất của nó trên các quần thể rộng hơn và sau đó trải qua quá trình phê duyệt của FDA. Hơn nữa, trong khi các nhà nghiên cứu tìm thấy các khái niệm sinh học được lưu trữ bên trong Evo 2, “không có gì đảm bảo” rằng mô hình thực sự đang sử dụng những khái niệm đó để xác định đột biến nào là gây bệnh, James Zou, giáo sư khoa học dữ liệu y sinh tại Stanford cho biết.
Khả năng diễn giải đã ngày càng được quan tâm khi AI được áp dụng cho khoa học sự sống và hơn thế nữa. Goodfire, được thành lập vào năm 2023 để thúc đẩy khả năng diễn giải của các mô hình AI—một thách thức mà đồng sáng lập kiêm CTO Dan Balsam của công ty gọi là “vấn đề quan trọng nhất trên thế giới”—đã được định giá 1,25 tỷ USD vào tháng Hai. Vào tháng Một, Goodfire đã công bố nghiên cứu xác định các dấu ấn sinh học mới cho bệnh Alzheimer được lưu trữ trong bộ não của một mô hình AI, nâng cao triển vọng tìm thấy các khái niệm mới bên trong bộ não của các mô hình AI mà các nhà khoa học con người đã bỏ lỡ.
“Theo quan điểm của tôi, phần thú vị nhất của [khả năng diễn giải] là có thể mở hộp đen và xem, ‘Mô hình có thực sự học được điều gì đó về khoa học vượt ra ngoài những gì chúng ta đã biết không?'” Zou nói. Nghiên cứu mới được công bố của Goodfire không làm điều này, vì nó chỉ thăm dò Evo 2 cho các khái niệm đã biết, Zou nói thêm.
Khả năng diễn giải cũng đã được áp dụng cho các mô hình ngôn ngữ lớn, như ChatGPT và Claude. Gần đây, các nhà nghiên cứu tại Anthropic phát hiện ra rằng Claude Mythos, thế hệ mới nhất của mô hình AI hàng đầu của công ty, cho thấy các dấu hiệu nội bộ về nhận thức rằng nó đang được kiểm tra và sau đó gian lận trong các bài kiểm tra—mặc dù không bao giờ tuyên bố rõ ràng rằng nó biết mình đang được kiểm tra. Khả năng các mô hình AI có thể gian lận trong các bài kiểm tra liên quan đến an toàn làm tăng tầm quan trọng của các kỹ thuật cho phép các nhà nghiên cứu quét bộ não AI để tìm dấu hiệu hành vi sai trái.
“Nếu có một rào cản nào đó như, ‘Khả năng diễn giải có hữu ích không?’ Tôi nghĩ chúng tôi đã bắt đầu phá vỡ nó, và tôi nghĩ chúng tôi đã đập tan nó,” Balsam nói.
Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.
Lĩnh vực: Tin nổi bật, Tin tức hàng ngày
SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác.
