Khung Đánh Giá AI Y Tế: Tại Sao QALYs Thất Bại & Cách Đo Lường Giá Trị Thực

Bài viết này phân tích các phát hiện và khuyến nghị chính từ báo cáo tháng 10 năm 2025: “Evaluation framework for health professionals’ digital health and AI technologies” (Khung đánh giá cho các công nghệ y tế kỹ thuật số và Khung đánh giá AI y tế), được thực hiện bởi LSE Consulting với sự hỗ trợ tài chính từ Roche Diagnostics .

Vấn đề “Con gà & Quả trứng” của AI Y tế

Các hệ thống y tế trên toàn thế giới đang đứng trước một cơn bão hoàn hảo. Áp lực tài chính ngày càng tăng, tình trạng thiếu hụt nhân viên y tế toàn cầu dự kiến đạt 10 triệu người vào năm 2030 , và gánh nặng từ các bệnh không lây nhiễm (NCDs) đang chiếm tới 74% tổng số ca tử vong toàn cầu.

Giữa cơn bão này, công nghệ y tế kỹ thuật số và Trí tuệ nhân tạo (DHAITs) nổi lên như một giải pháp then chốt, hứa hẹn mang lại một nền y tế hiệu quả, bền vững và chất lượng hơn.

Tuy nhiên, có một rào cản khổng lồ đang kìm hãm cuộc cách mạng này. Đó là một vấn đề nan giải kiểu “con gà và quả trứng”:

Các nhà quản lý bệnh viện và các nhà hoạch định chính sách sẽ không phê duyệt chi tiêu cho các công nghệ AI mới nếu không có bằng chứng mạnh mẽ về giá trị lâu dài của chúng. Nhưng bản thân các nhà phát triển công nghệ lại không thể tạo ra bằng chứng đó, bởi vì các phương pháp đánh giá hiện tại hoàn toàn không phù hợp để đo lường giá trị của AI.

Một báo cáo chuyên sâu từ LSE Consulting và Roche Diagnostics đã chỉ rõ: Chúng ta đang cố gắng đo lường một công nghệ của thế kỷ 21 bằng các thước đo của thế kỷ 20. Các mô hình đánh giá “lỗi thời”, vốn được thiết kế cho dược phẩm và thiết bị y tế truyền thống, đang tỏ ra “không phù hợp” (ill-suited) để đánh giá các công cụ kỹ thuật số có tính thích ứng và thay đổi nhanh chóng.

Bài viết này sẽ phân tích sâu lý do tại sao các phương pháp đánh giá cũ thất bại và giới thiệu một khung đánh giá AI y tế mới, linh hoạt và thực tế hơn, giúp các nhà lãnh đạo y tế đưa ra quyết định đầu tư chính xác.

Tại sao Mô hình Đánh giá Cũ Kìm hãm AI Y tế?

Để được phê duyệt và đưa vào sử dụng, một công nghệ y tế mới phải trải qua Đánh giá Công nghệ Y tế (HTA). Tuy nhiên, quy trình HTA truyền thống đang thất bại trong việc ghi nhận giá trị thực của DHAITs vì hai lý do chính.

1. AI không phải là một viên thuốc (Vấn đề “Động” vs “Tĩnh”)

Một viên thuốc là một hợp chất hóa học tĩnh. Công thức của nó không thay đổi. Do đó, chúng ta có thể dành 5-10 năm và hàng trăm triệu đô la để thực hiện các Thử nghiệm ngẫu nhiên có đối chứng (RCTs) nhằm chứng minh hiệu quả của nó.

Nhưng AI thì khác.

Công nghệ AI và phần mềm về bản chất là “động”, “thích ứng” và “lặp lại nhanh” (iterative, adaptive, and faster-moving). Một thuật toán AI có thể được cập nhật hàng tháng, thậm chí hàng tuần.

Việc yêu cầu một thử nghiệm RCT kéo dài 3 năm là không thực tế. Đến khi thử nghiệm đó kết thúc và được công bố, phiên bản phần mềm được nghiên cứu đã trở nên lỗi thời. Báo cáo của LSE chỉ ra rằng các cơ quan quản lý hàng đầu cũng nhận thấy các RCT truyền thống “không phải lúc nào cũng khả thi hoặc phù hợp” (not always be feasible or appropriate) cho DHAITs.

2. Bỏ sót Giá trị Cốt lõi (Vấn đề chí mạng của QALYs)

Đây là “nỗi đau” lớn nhất đối với các nhà quản lý bệnh viện.

Mô hình HTA truyền thống bị ám ảnh bởi một chỉ số duy nhất: QALYs (Quality-Adjusted Life-Years), hay còn gọi là “Năm sống điều chỉnh theo chất lượng”. Chỉ số này đo lường tác động trực tiếp của một can thiệp (như thuốc) lên thời gian và chất lượng sống của bệnh nhân.

Vấn đề là, báo cáo của LSE tập trung vào các công nghệ AI dành cho chuyên gia y tế (HCP-facing) —ví dụ: phần mềm AI phân tích hình ảnh X-quang, công cụ hỗ trợ ra quyết định lâm sàng (CDS), hoặc nền tảng quản lý quy trình làm việc.

Giá trị lớn nhất của các công cụ này nằm ở:

Tối ưu hóa quy trình làm việc (Workflow optimization).
Tăng hiệu quả của nhà cung cấp (Provider efficiency).
Giảm gánh nặng hành chính cho bác sĩ và y tá.
Giảm sự “thay đổi không chính đáng trong chăm sóc” (unwarranted variation in care).

Các mô hình HTA hiện tại, vì quá tập trung vào QALYs, đã hoàn toàn “bỏ lỡ” các lợi ích cấp hệ thống và cấp chuyên gia này. Nói cách khác, chúng ta đang dùng sai thước đo.

Giải pháp: Khung Phân loại (Taxonomy) 7 Chiều cho DHAITs

Báo cáo của LSE giới thiệu một “taxonomy” (hệ thống phân loại) mới, linh hoạt, dựa trên bằng chứng, được xây dựng từ 7 “khối xây dựng” (building blocks). Khung này giúp chúng ta hiểu rõ bản chất của bất kỳ công nghệ nào.

1. Đối tượng hưởng lợi dự kiến (Intended Beneficiary)

Đây là ai? Khung này tập trung vào các chuyên gia y tế, bao gồm bác sĩ, bác sĩ đa khoa, y tá, nhà nghiên cứu bệnh học và nhân viên y tế đồng minh.

2. Trường hợp sử dụng dự kiến (Intended Use Case)

Công nghệ này được dùng để làm gì? Báo cáo vạch ra 6 chức năng chính, dựa trên phân loại của EU MDR/IVDR:

Chẩn đoán: Hỗ trợ xác định bệnh (ví dụ: AI phân tích hình ảnh y tế).
Quản lý: Hỗ trợ tổ chức và tối ưu hóa quy trình chăm sóc.
Theo dõi: Cho phép theo dõi sức khỏe bệnh nhân liên tục.
Điều trị: Hỗ trợ cung cấp các can thiệp trị liệu.
Tiên lượng: Giúp dự đoán diễn biến của bệnh hoặc kết quả của bệnh nhân.
Phòng ngừa: Giúp xác định các cá nhân có nguy cơ cao.

3. Tác động dự kiến (Intended Impact)

Đây là phần giải quyết trực tiếp vấn đề QALYs. Lợi ích của công nghệ này nhắm đến ai?

Cấp độ Chuyên gia: Cải thiện kỹ năng , hợp lý hóa việc theo dõi bệnh , cung cấp điều trị chất lượng hơn.
Cấp độ Bệnh nhân: Cải thiện sự hài lòng, chẩn đoán tốt hơn, kết quả sức khỏe lâu dài tốt hơn.
Cấp độ Hệ thống: Tăng hiệu quả , phân bổ nguồn lực tốt hơn , kiểm soát chi phí.

4. Dữ liệu đầu vào (Data Inputs)

Công nghệ này “học” từ dữ liệu nào?

Dữ liệu thế giới thực (Real-world data): Như Hồ sơ y tế điện tử (EHRs) , hình ảnh y khoa (như X-quang, MRI) , dữ liệu hành chính , dữ liệu phòng thí nghiệm , hoặc dữ liệu do bệnh nhân báo cáo (Patient-reported data).
Dữ liệu nghiên cứu (Research data): Như dữ liệu từ các thử nghiệm lâm sàng hoặc khảo sát.

5. Công nghệ điều khiển (Driving Technology)

Nó “thông minh” đến mức nào?

Phần mềm dựa trên quy tắc (Rule-based): Sử dụng các logic “nếu-thì” (if-then) đơn giản.
AI/Machine Learning: Sử dụng các mô hình thuật toán phức tạp hơn, như Mạng nơ-ron tích chập (CNNs) để xử lý hình ảnh, hoặc Transformer models để xử lý dữ liệu phi cấu trúc (như giọng nói) .

6. Nền tảng truy cập (Access Platform)

Chuyên gia y tế sử dụng công cụ này ở đâu?

Qua điện thoại di động/máy tính bảng , trình duyệt web , thiết bị đeo , công nghệ thực tế ảo/tăng cường (VR/AR) , hoặc được nhúng trực tiếp vào phần mềm CNTT của bệnh viện (ví dụ: trong hệ thống EHR).

7. Khả năng tương tác (Interoperability)

Đây là yếu tố then chốt để áp dụng thành công. Công nghệ này có thể “nói chuyện” với các hệ thống khác của bệnh viện không? Báo cáo chia 5 cấp độ trưởng thành, từ thấp đến cao:

Chỉ xem (View-Only Access): Hiển thị dữ liệu EHR nhưng không tương tác.
Truy xuất dữ liệu rời rạc (Discrete Data Retrieval): Có thể “lấy” các điểm dữ liệu cụ thể từ EHR.
Trao đổi dữ liệu hai chiều (Bidirectional Data Exchange): Có thể “lấy” và “ghi” dữ liệu trở lại EHR.
Tích hợp quy trình làm việc (Workflow Integration): Nhúng vào bên trong EHR, sử dụng thông tin đăng nhập của bác sĩ, kích hoạt cảnh báo.
Tương tác ngữ nghĩa (Semantic Interoperability): Cấp độ cao nhất. Hệ thống AI “hiểu” dữ liệu trong EHR, cho phép hỗ trợ quyết định theo thời gian thực.

Khung phân loại 7 chiều này cho phép một nhà quản lý bệnh viện lập bản đồ cho bất kỳ công nghệ AI mới nào, giúp họ hiểu rõ bản chất và xác định loại bằng chứng cần thiết để đánh giá nó.

Bằng chứng Y tế (RWE) & Phương pháp Đánh giá của Tương lai

Một khi đã phân loại đúng công nghệ, chúng ta cần phương pháp đánh giá phù hợp. Báo cáo của LSE (phân tích 6 quốc gia bao gồm Anh, Mỹ, Đức, Pháp) chỉ ra một xu hướng toàn cầu rõ ràng: dịch chuyển khỏi các tiêu chuẩn cũ cứng nhắc.

1. Sự trỗi dậy của Bằng chứng Thế giới thực (RWE)

Các cơ quan quản lý nhận ra rằng việc yêu cầu RCTs cho mọi phần mềm là không thực tế.

Anh (NICE): Hiện đã cập nhật khung của mình để chấp nhận các “nghiên cứu thực dụng” (pragmatic trials) và “nghiên cứu quan sát” (observational studies) khi RCTs là không khả thi.
Pháp (HAS): Cũng hỗ trợ các thiết kế thay thế, như “mô phỏng thử nghiệm mục tiêu” (target trial emulation).
Đức (DiGA): Đây là ví dụ tiên tiến nhất. Đức có quy trình “fast-track” (theo dõi nhanh) cho các ứng dụng sức khỏe kỹ thuật số (gọi là DiGA). Quy trình này cho phép các công nghệ được cấp phép và đưa ra thị trường, sau đó thu thập Bằng chứng Thế giới thực (Real-World Evidence – RWE) để chứng minh giá trị sau khi đã được áp dụng. Báo cáo của LSE lưu ý rằng mặc dù DiGA hiện tập trung vào công cụ cho bệnh nhân, cách tiếp cận này có thể là hình mẫu cho các công cụ AI dành cho chuyên gia y tế.

2. Đo lường Giá trị Kinh tế (Tìm giá trị ngoài QALYs)

Đây là thay đổi quan trọng nhất đối với các nhà quản lý bệnh viện. Làm thế nào để chứng minh ROI nếu không dùng QALYs?

Các phương pháp thay thế đang được chấp nhận, đặc biệt là ở Anh và Pháp.
Phân tích Chi phí-Tối thiểu hóa (CMA): Được chấp nhận khi một công cụ AI mới chứng minh được hiệu quả lâm sàng tương đương với tiêu chuẩn hiện tại, nhưng có chi phí thấp hơn.
Phân tích Chi phí-Hệ quả (CCA): Đây là chìa khóa. CCA được “chấp nhận có điều kiện” cho các công cụ mang lại lợi ích hệ thống gián tiếp. CCA trình bày chi phí và kết quả một cách riêng biệt, cho phép các nhà ra quyết định thấy rõ các giá trị như “hiệu quả quy trình làm việc” (workflow efficiency).

Giờ đây, một nhà phát triển AI có thể chứng minh giá trị bằng cách nói: “Công cụ của chúng tôi giúp giảm 15 phút làm việc hành chính cho mỗi bác sĩ mỗi ngày” — và đó được coi là một bằng chứng kinh tế hợp lệ.

4 Khuyến nghị Then chốt để Áp dụng AI Y tế thành công

Dựa trên những phân tích này, báo cáo của LSE đưa ra 8 khuyến nghị chính sách . Dưới đây là 4 khuyến nghị mang tính hành động cao nhất, ảnh hưởng trực tiếp đến cách các bệnh viện và nhà quản lý nên tiếp cận đánh giá AI y tế.

1. Mở rộng Thước đo Giá trị (Vượt xa QALYs)

Khuyến nghị: Mở rộng quy trình HTA (đánh giá) để chính thức kết hợp các chỉ số đo lường tác động cấp hệ thống và cấp chuyên gia.
Ý nghĩa thực tế: Các nhà quản lý bệnh viện phải yêu cầu và chấp nhận các bằng chứng về “tối ưu hóa quy trình làm việc” (workflow optimization) và “hiệu quả” (efficiency gains). Đây phải được coi là các kết quả (outcomes) hợp lệ, có giá trị ngang với các kết quả lâm sàng trực tiếp.

2. Chấp nhận bản chất “Động” của AI (Kế hoạch PCCPs)

Khuyến nghị: Thực hiện các Kế hoạch Kiểm soát Thay đổi (Predetermined Change Control Plans – PCCPs) cho các công nghệ dựa trên AI.
Ý nghĩa thực tế: AI không ngừng “học”. Một mô hình hôm nay có thể thông minh hơn ngày hôm qua. Thay vì yêu cầu nộp hồ sơ xin duyệt lại từ đầu mỗi khi thuật toán được cải thiện, PCCPs cho phép nhà sản xuất “đăng ký trước” các thay đổi dự kiến. Miễn là các bản cập nhật vẫn nằm trong “ranh giới” an toàn và hiệu quả đã được phê duyệt, công nghệ có thể liên tục cải tiến. Mô hình này đã được FDA (Mỹ) tiên phong và cũng được đưa vào EU AI Act .

3. Liên kết Phân loại (Taxonomy) với Bằng chứng

Khuyến nghị: Liên kết một cách có hệ thống các danh mục phân loại (từ khung 7 chiều) với các tiêu chuẩn bằng chứng và chỉ số đo lường “phù hợp với mục đích” (fit-for-purpose).
Ý nghĩa thực tế: Đừng dùng một bộ tiêu chuẩn duy nhất. Một công cụ AI rủi ro thấp (ví dụ: quản lý hệ thống) chỉ cần bằng chứng về khả năng sử dụng và hiệu suất. Ngược lại, một công cụ AI rủi ro cao (ví dụ: AI tự động ra quyết định) sẽ phải đối mặt với các yêu cầu khắt khe nhất, bao gồm thử nghiệm tiền cứu và giám sát RWE liên tục.

4. Hài hòa hóa Quy trình (HTA và Cấp phép)

Khuyến nghị: Thống nhất các quy trình HTA (đánh giá giá trị) và quy trình quản lý (regulatory – cấp phép) thông qua sự tham gia sớm của các bên liên quan.
Ý nghĩa thực tế: Hiện nay, các nhà phát triển công nghệ đang phải chịu gánh nặng “hai lần”: họ cần một bộ bằng chứng để được cấp phép (ví dụ: dấu CE hoặc FDA) và một bộ bằng chứng hoàn toàn khác (thường là HTA) để được chi trả/mua sắm. Việc này gây lãng phí nguồn lực. Các hệ thống cần làm việc cùng nhau, ví dụ như mô hình “MHRA-NICE Early Value Assessment” của Anh, để tạo ra một con đường duy nhất, hiệu quả hơn.

Đã đến lúc Đánh giá AI Y tế một cách Thông minh hơn

Cuộc cách mạng AI trong y tế không thể thành công nếu chúng ta tiếp tục bị trói buộc bởi các công cụ đo lường của thế kỷ trước. Báo cáo của LSE Consulting và Roche Diagnostics đã khẳng định rõ ràng: thách thức lớn nhất không phải là công nghệ, mà là cách chúng ta đo lường và công nhận giá trị của nó .

Tương lai của việc đánh giá công nghệ y tế DHAITs đòi hỏi một tư duy mới: linh hoạt, thích ứng, và tập trung vào bằng chứng thế giới thực.

Bằng cách áp dụng một khung đánh giá AI y tế mới như khung 7 chiều đã phân tích các nhà quản lý bệnh viện và các nhà hoạch định chính sách có thể chuyển trọng tâm câu hỏi. Thay vì chỉ hỏi: “Công cụ này có cải thiện QALYs không?”, chúng ta có thể tự tin hỏi: “Công cụ này có giúp bác sĩ của tôi giảm bớt gánh nặng hành chính không? Nó có tối ưu hóa quy trình làm việc của chúng tôi không?” .

Chỉ khi chúng ta bắt đầu đo lường những giá trị thực tế này, chúng ta mới có thể mở khóa toàn bộ tiềm năng của AI, hỗ trợ các chuyên gia y tế và xây dựng một hệ thống y tế bền vững và hiệu quả hơn cho tương lai.

Xem thêm:

Phòng thí nghiệm AI Lila Sciences: Liệu có phải bước ngoặt của cuộc đua trí tuệ nhân tạo toàn cầu