Medaffcon’s Machine Learning Algorithm Adapts to Various Research Needs

Etusivu > Kaikki artikkelit > Medaffconin koneoppimisalgoritmi mukautuu erilaisiin tutkimustarpeisiin

Medaffconin koneoppimisalgoritmi mukautuu erilaisiin tutkimustarpeisiin

25.3.2025

Koneoppimisalgoritmi kehitettiin alun perin poimimaan tupakointitietoja potilasteksteistä, jotta voitiin analysoida tupakoinnin vaikutuksia leikkauksen jälkeisiin komplikaatioihin. Nykyään sitä hyödynnetään myös keuhkosyöpätutkimuksessa.

Hyvin suunniteltu koneoppimisväline voidaan mukauttaa erilaisiin tutkimustarkoituksiin. Juuri näin toimii Medaffconin tupakointitietoja poimiva algoritmi. Aluksi sitä käytettiin analysoimaan, miten tupakointi vaikuttaa leikkauksen jälkeisiin komplikaatioihin retrospektiivisessä tutkimuksessa. Medaffconin Data Scientist Olivia Hölsä esitteli mallin tammikuun lopussa 5. pohjoismaisessa RWE- ja AI-konferenssissa.

Medaffcon hyödynsi algoritmia ensin tutkimuksessa, johon osallistui puoli miljoonaa Helsingin yliopistollisessa sairaalassa (HUS) leikattua potilasta. Tupakoinnin tunnistaminen potilastiedoista saattaa kuulostaa yksinkertaiselta, mutta käytännössä se ei ole sitä. Tupakointiin liittyvät tiedot eivät ole strukturoituja, vaan ne on kirjattu vapaana tekstinä laajoihin potilasasiakirjoihin. Haasteena on: miten tupakointitilanne voidaan tehokkaasti poimia valtavasta tekstimäärästä?

Medaffcon ja tutkimusryhmä kehittivät koneoppimiseen perustuvan luokittelijan, joka auttaa tietojen analysoinnissa. Mallin kouluttamiseksi kliiniset asiantuntijat luokittelivat manuaalisesti yhteensä 20 000 tupakointiin liittyvää lausetta. Kaksi kliinistä asiantuntijaa suoritti tämän tehtävän yhdessä päivässä Medaffconin esikäsittelytekniikoiden ja erikoistyökalujen tukemana. Tämän jälkeen analysoitiin ja luokiteltiin yhteensä puoli miljoonaa tupakointiin liittyvää lausetta koneoppimisalgoritmin avulla.

Sittemmin algoritmia on sovellettu leikattuja potilaita koskevien tutkimusten lisäksi myös keuhkosyövän terveydenhuollon resurssien käyttöön, eloonjäämiseen ja ennustetekijöihin HUS-alueella.

Koneoppimismallien skaalautuvuuden mahdollisuudet

Olivia Hölsän mukaan skaalautuvuus edellyttää, että algoritmi koulutetaan riittävän suurella ja monipuolisella populaatiolla.

”Kehittämämme algoritmi perustuu suureen ja edustavaan potilaskohorttiin, johon kuuluu monenlaisia potilaita.”

Hölsä kertoo, että tästä syystä Medaffconin koneoppimismalli on riittävän vankka analysoimaan sekä suuria potilaspopulaatioita että tarkempia potilaiden alaryhmiä.

”Koneoppimisessa on ratkaisevan tärkeää varmistaa, että harjoitustiedot on johdonmukaisesti merkitty ja verrattavissa todelliseen dataan, jolle malli on tarkoitettu, jotta malli voi tulkita oikein ja poimia asiaankuuluvaa tietoa kliinisestä dokumentaatiosta.”

Hölsä sanoo, että olisi myös mielenkiintoista verrata tietylle potilasryhmälle kehitettyjä koneoppimismalleja eri yliopistosairaaloissa Suomessa, jotta voitaisiin arvioida, kuinka skaalautuvia mallit ovat eri alueilla.

Kun koneoppimismallia skaalataan erilaisiin tutkimustarpeisiin, on tärkeää varmistaa joustavuus ja välttää sen liiallinen sovittaminen yhteen tiettyyn käyttötarkoitukseen.

”Esimerkiksi tupakoinnin osalta on otettava huomioon, että tupakointitilanne voi muuttua ajan myötä. Henkilö voi olla tupakoitsija, mutta lopettaa myöhemmin tupakoinnin. Siksi malliin pitäisi pystyä sisällyttämään ajalliset rajoitukset.”

Laaja asiantuntemus RWE-tutkimuksessa

Laadukkaat tiedot ovat olennaisen tärkeitä tehokkaan koneoppimismallin kehittämiseksi. Medaffconilla on laaja kokemus Real-World Evidence (RWE) -tutkimuksista. Tämän ansiosta sen asiantuntijat tuntevat luotettavat tietolähteet ja osaavat ottaa huomioon kriittiset tekijät tiedonkeruun aikana.

”Ymmärrämme, missä tiedot on dokumentoitu ja mitä tietoja on saatavilla. Tiedämme, mitä kysymyksiä kliinikoilta kannattaa kysyä tietojen syöttämisestä, ja osaamme määritellä tarvittavat tiedot tiedonkeruuta varten.”

Hölsä korostaa, että on tärkeää tunnistaa tietojen rajoitukset. Kiinnostavat tiedot voivat olla tallennettuna esimerkiksi eri terveydenhuoltojärjestelmissä, kuten tietyt laboratoriokokeet, jotka tehdään perusterveydenhuollossa eikä erikoissairaanhoidossa. Tämä on otettava huomioon jo varhaisessa vaiheessa tutkimuksen suunnittelua, mukaan lukien tiedonkeruuta koskevat määrittelyt, ja sitä on tarkasteltava edelleen mallin kehittämisen aikana.

Tupakointistatuksen lisäksi muita hoitoon liittyviä kriittisiä tekijöitä, kuten syövän etenemistä ja etäpesäkkeitä, dokumentoidaan edelleen rakenteettomasti. Hölsän mukaan koneoppimista voitaisiin käyttää tehokkaasti näiden tietojen analysoimiseen ja arvokkaiden oivallusten poimimiseen.