Trang chủ Chuyên trang sức khoẻ Tiêu hoá gan mật

Nội soi viên nang có sử dụng trí tuệ nhân tạo (Phần 2)

☰ Mục lục

Bài viết bởi Bác sĩ Mai Viễn Phương - Khoa Khám bệnh & Nội khoa - Bệnh viện Đa khoa Quốc tế Vinmec Central Park

Phân tích hình ảnh bằng trí tuệ nhân tạo, thông qua những tiến bộ như máy học hoặc học sâu, ngày càng được áp dụng nhiều hơn vào hình ảnh y học. Đã có sự quan tâm đáng kể đến việc sử dụng học sâu để phát hiện các rối loạn tiêu hóa khác nhau dựa trên hình ảnh WCE.

Phần 1: Nội soi viên nang có sử dụng trí tuệ nhân tạo

1. Sử dụng phương pháp học sâu để phân loại rối loạn tiêu hóa

Chỉ định phổ biến nhất để sử dụng WCE là đánh giá chảy máu ruột non. WCE cũng đã được sử dụng để chẩn đoán các rối loạn ruột non khác, chẳng hạn như bệnh celiac, bệnh Crohn, polyp và khối u, để đánh giá bệnh lý thực quản trong đau ngực không do tim và để tầm soát ung thư ruột kết.

Các nghiên cứu trước đây đã tập trung vào việc sử dụng học sâu để phân loại các bệnh và tổn thương đường tiêu hóa được xác định trên hình ảnh WCE. Không có gì đáng ngạc nhiên, một kết quả thường xuyên được điều tra trong các tài liệu đã xuất bản là chảy máu. Mô hình học sâu đã nâng cao khả năng của WCE trong việc phát hiện các tổn thương chảy máu (bao gồm hàm lượng máu nghi ngờ và chứng giãn mạch) với độ nhạy và độ đặc hiệu tương đối cao. Ngoài chảy máu, các nhà nghiên cứu cũng đã sử dụng mô hình học sâu trong WCE để phân loại các tổn thương đường tiêu hóa khác như loét, bệnh Crohn, polyp, celiac bệnh, và giun móc.

Kiến trúc mạng sâu

Kiến trúc mạng sâu là sự sắp xếp đầy đủ của mạng nơ-ron trong mô hình học sâu bao gồm lớp đầu vào, lớp ẩn và lớp đầu ra. Mặc dù có một số biến thể với kiến trúc mạng sâu, 16 trong số 17 nghiên cứu đã sử dụng kiến trúc dựa trên CNN trong các mô hình học sâu của họ. Việc lựa chọn kiến trúc mạng sâu phụ thuộc vào mục tiêu phân loại và từng nhóm nghiên cứu. Tuy nhiên, nhiều nhóm nghiên cứu thích sử dụng các kiến trúc dựa trên CNN nổi tiếng khi phân loại hình ảnh WCE hoặc đánh giá hiệu suất của các kiến trúc học sâu tùy chỉnh của họ. Các kiến trúc sư dựa trên CNN được xây dựng trước này bao gồm LeNet, AlexNet, GoogLeNet, VGG-Net, ResNet, RetinaNet, Single Shot MultiBox Detector và Xception.

Thiết bị nội soi viên nang WCE

Ngoài các biến thể trong kiến trúc học sâu, các nhà nghiên cứu đã có một số biến thể trong thiết bị WCE. Có ba nhãn hiệu thiết bị WCE được đề cập trong các nghiên cứu học sâu này: PillCam (Medtronics), NaviCam (Ankon Technologies) và MiroCam (IntroMedic). Các mô hình học sâu có thể được kết hợp với từng thiết bị. Tuy nhiên, các thiết bị khác nhau có kích thước và chất lượng hình ảnh thô, độ sáng và góc máy ảnh khác nhau. Vì các thiết bị này không được tiêu chuẩn hóa nên việc áp dụng một mô hình học sâu cụ thể có thể không hoạt động với cùng độ chính xác dự đoán khi được áp dụng phổ biến cho các thiết bị WCE khác.

Độ phân giải hình ảnh

Mặc dù kích thước và chất lượng của hình ảnh WCE gốc phụ thuộc vào thiết bị, độ phân giải hình ảnh phụ thuộc vào thời gian đào tạo, kiến trúc mạng sâu và các loại tổn thương. Theo trực giác, các bác sĩ thích độ phân giải hình ảnh cao hơn khi chẩn đoán dựa trên hình ảnh. Tuy nhiên, độ phân giải hình ảnh cao hơn có thể dẫn đến sự gia tăng các thông số có thể huấn luyện, hoạt động dấu phẩy động, yêu cầu bộ nhớ và thời gian đào tạo. Để chống lại điều này, hình ảnh gốc thường được sửa đổi (cắt hoặc thay đổi kích thước) để giảm độ phân giải hình ảnh. Phạm vi độ phân giải điển hình là 240 × 240 pixel đến 320 × 320 pixel. Điều đáng chú ý là tất cả các nghiên cứu sử dụng ảnh do NaviCam (Ankon Technologies) chụp đều chọn độ phân giải ảnh gốc là 480 × 480 pixel.

Hình ảnh nội soi viên nang có sử dụng trí tuệ nhân tạo

Phân vùng dữ liệu

Tập hợp các hình ảnh WCE được các bác sĩ gắn nhãn là nguồn dữ liệu chính, thường được gọi là tập dữ liệu. Là một phần của quá trình xử lý trước dữ liệu, tập dữ liệu thường được chia thành hai nhóm. Điều này tạo ra hai bộ dữ liệu khác nhau từ các hình ảnh WCE được gắn nhãn. Bộ dữ liệu đầu tiên dành cho việc đào tạo và xác nhận nội bộ các mô hình học sâu. Sau khi mô hình cuối cùng được chọn, tập dữ liệu thứ hai được sử dụng để kiểm tra hiệu suất của mô hình với dữ liệu mà mô hình chưa thấy. Do đó, phân vùng dữ liệu là một trong những yếu tố có thể tác động đến hiệu suất trước của các mô hình học sâu .

Có hai cách tiếp cận phổ biến để phân chia tập dữ liệu ban đầu được xác định trong quá trình tổng quan tài liệu. Đầu tiên là phân vùng dữ liệu dựa trên các hình ảnh tổng hợp. Thứ hai là phân vùng dữ liệu cho mỗi bệnh nhân hoặc video. Tỷ lệ của hai bộ dữ liệu khác nhau tùy thuộc vào nghiên cứu, nhưng tỷ lệ chung bao gồm 50:50, 70:30 và 80:20. Cách tiếp cận thứ hai để phân vùng thường được sử dụng khi đánh giá hiệu suất dự đoán trên mỗi bệnh nhân. Do đó, chúng ta có thể nhận thấy rằng cách tiếp cận phân vùng dữ liệu trong ảnh WCE phụ thuộc nhiều vào thiết kế nghiên cứu.

Chỉ số hiệu suất

Trong các tài liệu y khoa, các chỉ số đo lường hiệu suất phổ biến nhất là độ chính xác, độ nhạy, độ đặc hiệu và diện tích dưới đường cong (AUC). Trong trường hợp hình ảnh WCE, trong đó ít hình ảnh WCE là tổn thương thực sự, độ chính xác và độ đặc hiệu có thể bị sai lệch bởi các mô hình học sâu xác định chính xác niêm mạc bình thường. Vì lý do này, trong khoa học dữ liệu, trọng tâm đánh giá hiệu suất là phân loại tích cực thực sự . Nói cách khác, các nhà khoa học dữ liệu thích mô hình của họ phân loại chính xác số lượng nhỏ các hình ảnh tích cực ( ví dụ:tăng mạch máu, khối u hoặc loét) thay vì phân loại chính xác các hình ảnh niêm mạc bình thường. Thay vì độ chính xác và độ nhạy, độ chính xác [true positive / (true positive + false positive)], nhớ lại [true positive / (true positive + false negative)] và điểm F1 (giá trị trung bình hài hòa của độ chính xác và nhớ lại) là hiệu suất phổ biến số liệu được sử dụng bởi các nhà khoa học dữ liệu. Cần lưu ý rằng độ chính xác và độ thu hồi còn được gọi là giá trị tiên đoán dương và độ nhạy tương ứng. Thật không may, chỉ có một số nghiên cứu giới hạn báo cáo đầy đủ các bộ số liệu hiệu suất này, đặc biệt là điểm F1. Tóm lại, điều quan trọng là phải xem xét các chỉ số hiệu suất khi xác định hoặc so sánh hiệu suất của các mô hình học sâu.

2. Sử dụng học sâu để phân loại đối tượng không mắc bệnh

Mục tiêu chính khi phân tích hình ảnh WCE là để phát hiện các bất thường trong đường tiêu hóa. Tuy nhiên, việc phát hiện niêm mạc bình thường và các mốc giải phẫu cũng rất hữu ích. Hiện tại, chỉ có hai nghiên cứu được thiết kế để phân loại các đối tượng không mắc bệnh.

Nghiên cứu đầu tiên sử dụng học sâu để phân loại độ phức tạp trong cảnh nội mạc, bao gồm đục, bong bóng, đốm màu trong, nếp nhăn và thành hoá. Mặc dù những hình ảnh này có thể không góp phần vào chẩn đoán cuối cùng, nhưng chúng có thể được sử dụng để mô tả nhu động ruột non và giúp loại trừ hình ảnh âm tính.

Nghiên cứu thứ hai đã tạo ra một mô hình dự đoán để xác định các vị trí cơ quan như dạ dày, ruột và ruột kết. Phân loại cơ quan có thể được sử dụng để tính toán thời gian đi qua của WCE trong mỗi cơ quan và để xác định xem có bất kỳ rối loạn nhu động nào trong đường tiêu hóa hay không.

Một khía cạnh quan trọng của đánh giá bác sĩ đối với một nghiên cứu WCE là xác định các mốc giải phẫu như hình ảnh đầu tiên của dạ dày, tá tràng và manh tràng, cuối cùng giúp tính toán thời gian vận chuyển viên nang qua ruột non. Thời gian vận chuyển này rất quan trọng để xác định vị trí của tổn thương trong ruột non, có thể giúp hướng dẫn điều trị bằng kỹ thuật nội soi ruột sâu.

3. Công dụng của mô hình học sâu trong thực hành lâm sàng

Mục tiêu lý tưởng cho WCE là tạo ra một hệ thống hoàn toàn tự động để giải thích các hình ảnh WCE và tạo ra các báo cáo chính xác, ít nhất là tương đương với cách đọc thông thường của các bác sĩ. Hai nghiên cứu hồi cứu đã so sánh hiệu suất của việc đọc thông thường với việc đọc hỗ trợ học sâu. Thời gian đọc trung bình của bài đọc hỗ trợ học sâu trong cả hai nghiên cứu là dưới 6 phút. Thời gian đọc thông thường trung bình thay đổi từ 12 đến 97 phút tùy thuộc vào chuyên môn của người đọc và phạm vi đọc WCE. Về tỷ lệ phát hiện tổn thương tổng thể, có sự cải thiện 3% -8% của đọc hỗ trợ học sâu so với đọc thông thường.

Điều thú vị là độ chính xác của mô hình học sâu (được tính toán trong quá trình phát triển) cao hơn tỷ lệ phát hiện thực tế. Những phát hiện này có thể phản ánh những thách thức trong thế giới thực ảnh hưởng đến sự hợp tác giữa con người và mô hình học sâu. Một hạn chế bổ sung là không có định nghĩa rõ ràng về cách xác định thời gian đọc ( ví dụ: từ tiền xử lý dữ liệu đến tạo báo cáo cuối cùng).

Để đặt lịch khám tại viện, Quý khách vui lòng bấm số HOTLINE hoặc đặt lịch trực tiếp TẠI ĐÂY. Tải và đặt lịch khám tự động trên ứng dụng MyVinmec để quản lý, theo dõi lịch và đặt hẹn mọi lúc mọi nơi ngay trên ứng dụng.

Tài liệu tham khảo

Moglia A, Menciassi A, Schurr MO, Dario P. Wireless capsule endoscopy: from diagnostic devices to multipurpose robotic systems. Biomed Microdevices. 2007;9:235-243. [PubMed] [DOI]
Li B, Meng MQ, Xu L. A comparative study of shape features for polyp detection in wireless capsule endoscopy images. Annu Int Conf IEEE Eng Med Biol Soc. 2009;2009:3731-3734. [PubMed] [DOI]
Mishkin DS, Chuttani R, Croffie J, Disario J, Liu J, Shah R, Somogyi L, Tierney W, Song LM, Petersen BT; Technology Assessment Committee; American Society for Gastrointestinal Endoscopy. ASGE Technology Status Evaluation Report: wireless capsule endoscopy. Gastrointest Endosc. 2006;63:539-545. [PubMed] [DOI]
Amporn Atsawarungruangkit, và cộng sự, Understanding deep learning in capsule endoscopy: Can artificial intelligence enhance clinical practice? Artif Intell Gastrointest Endosc. Oct 28, 2020; 1(2): 33-43