Godkänd AI var undermålig – nu kan regioner utvärdera systemen före upphandling

Fredrik Strand
Sveriges regioner erbjuds nu möjligheten att kontrollera att AI-algoritmer som ska tolka mammografibilder är patientsäkra. Tidigare studier har visat att godkända AI-algoritmer kan missa en stor andel av alla bröstcancerfall.
Den nya nationella valideringsplattformen, VAI-B, innehåller i dagsläget mer än 100 000 mammografibilder från över 44 000 svenska kvinnor, varav 8080 har diagnostiserats med bröstcancer. Tre regioner har bidragit med bilder: Skåne, Södermanland och Östergötland. Nu söker forskarna samarbete med fler regioner så att bildbanken kan bli mer komplett. Målet är att den ska vara representativ för hela Sveriges kvinnliga befolkning och innehålla bilder tagna med röntgenutrustning från alla olika tillverkare.
– Tanken är att man till exempel kan använda plattformen vid en offentlig upphandling för att få en objektiv utvärdering av olika AI-algoritmer. Det går att sätta poäng på hur bra de är, enligt de kriterier man väljer, säger Fredrik Strand, röntgenläkare och forskare vid institutionen för onkologi-patologi, Karolinska Institutet, som har lett utvecklingen av plattformen.
AI-algoritmer var sämre än röntgenläkare
I dagsläget har EU godkänt tio olika AI-algoritmer för att tolka mammografibilder, men när Fredrik Strand testade tre av dessa år 2020 visade sig två av dem vara undermåliga.
– En av algoritmerna var i samma nivå som röntgenläkarna, men om man hade börjat använda de två andra algoritmerna skulle det ha blivit rena katastrofen. Kraven för CE-märkning är helt enkelt inte tillräckliga för att garantera diagnostisk träffsäkerhet i alla miljöer.
De algoritmer som var sämst missade 13 procent av de bröstcancerfall som den bästa algoritmen hittade.
Insikten om att EU:s krav för att godkänna AI-algoritmer var för låga, ledde till att Fredrik Strand och hans kollegor började utveckla den oberoende plattformen. I en publikation i Journal of Medical Imaging, beskriver de nu hur plattformen fungerar och hur de har gått till väga för att skydda känslig medicinsk information samtidigt som de kan tillgängliggöra bilderna för validering.
AI kan ersätta röntgenläkare och frigöra resurser
Förhoppningen är nu att plattformen ska kunna bidra till att AI kan börja användas av Sveriges regioner vid screeningen av mammografibilder för att lösa den stora bristen på röntgenläkare. Forskarna har testkört tre olika algoritmer på den nya plattformen och de presterar generellt bra. Fredrik Strand har också genom ett annat forskningsprojekt, ScreenTrustCAD, på Capio S:t Görans sjukhus i Stockholm, undersökt om AI-algoritmer på ett säkert vis kan ersätta en av de två röntgenläkare som normalt granskar mammografibilder.
– När AI ersatte en av det två röntgenläkarna hittade man några fler fall av cancer jämfört med två röntgenläkare, och utan att återkalla fler kvinnor i onödan, säger han.
Olika AI-algoritmer fungerar dock olika bra beroende på vilken röntgenutrustning som har använts för att få fram bilderna. I den nationella plattformen finns i dagsläget främst bilder tagna med utrustning från GE Healthcare och Philips, men regioner som använder andra tillverkare kan alltså komplettera plattformen med egna bilder. Då kommer AI-algoritmerna dessutom att kunna testas på den specifika åldersfördelning av kvinnor som finns i regionen.
Fredrik Strand uppmanar regionerna att ta vara på den här möjligheten för att säkerställa patientsäkerheten.
– AI-företagen föreslår ofta att man ska göra en mindre pilotstudie med deras utrustning. Det enda man testar då är hur smidigt utrustningen fungerar, vilket inte är oviktigt. Men det går inte att göra någon gedigen utvärdering av den diagnostiska träffsäkerheten på det sättet, säger han.
En framtid med bara AI-tolkning av bilder dröjer
Förutom att regionerna ska kunna använda plattformen för att kvalitetssäkra och kalibrera AI-algoritmer, erbjuder forskarna företagen som utvecklar AI-algoritmer att använda plattformen för att testa algoritmernas prestanda under svenska förhållanden.
Framtidsvisionen är att AI ska kunna sköta all tolkning av mammografibilder och ersätta båda de två röntgenläkare som granskar varje bild. Fredrik Strand tror dock att detta dröjer. När det finns misstankar om att en kvinna har bröstcancer håller läkarna i dagsläget en konsensusdiskussion innan de återkallar kvinnan. Läkarna har då tillgång till mer information än bara mammografibilden, exempelvis symptom som kvinnan har rapporterat till röntgensjuksköterskan.
– Studien på Capio S:t Görans sjukhus visade att konsensusdiskussionen är fortsatt viktig för att undvika resursslöseri och oroa kvinnor i onödan, säger Fredrik Strand.