Tieto Caretech

Satoja miljoonia rivejä tekstiä: miten tunnistetiedot poistetaan järkevästi?

Kun arkaluonteinen tieto on peitetty luotettavasti, tekstiaineistoja voidaan hyödyntää tutkimuksessa ja tekoälyn kehityksessä lainmukaisesti.

Simo Ihalainen20 huhtikuuta 2026

Monissa organisaatioissa merkittävä osa kriittisistä tiedoista on edelleen vapaamuotoisissa teksteissä, kuten sosiaali- ja terveydenhuollon kertomusteksteissä sekä viranomaisten päätöksissä, lausunnoissa ja asiakaspalautteissa.

Sisällysluettelo

Tekstiaineistot sisältävät henkilöiden tunnistamisen mahdollistavia suoria (nimet, osoitteet, henkilötunnukset) ja epäsuoria (ammatit, tapahtumapaikat, tapahtuma-ajat) tunnistetietoja. Monissa tapauksissa pelkkien epäsuorien tunnisteiden yhdistelmä, kuten esimerkiksi ammatti ja paikkakunta, riittävät yksilöimään tekstissä esiintyvän henkilön.

Tekoälymenetelmien kehittyminen on avannut laajamittaisen tekstiaineistojen hyödyntämisen tiedolla johtamisen, tutkimuksen, palvelujen tehostamisen ja uusien innovaatioiden kehittämisen käyttöön. Samalla EU:n tietosuoja-asetus (GDPR), eurooppalainen terveystietoalueen asetus (EHDS) ja toisiolaki asettavat tiukat vaatimukset vastuulliselle ja tietoturvalliselle sensitiivisen tekstiaineiston käsittelylle:

  • Dataa saa käyttää vain tarkkaan ennalta määriteltyihin tarkoituksiin.
  • Identifioiva tieto on minimoitava ennen analytiikkaa ja käyttöä tekoälymenetelmien kehityksessä.


Tutkimus- ja tekoälyprojekteissa on perinteisesti jätetty tekstiaineisto joko hyödyntämättä tai käytetty identifioivaa tietoa sisältävää tekstiä säädösten vastaisesti samaan perusteeseen vedoten: tekstien automaattinen tunnisteellisen tiedon poisto ei ole ollut mahdollista suurten tekstiaineistojen tapauksessa. Tämä peruste ei kuitenkaan enää pidä paikkaansa. Organisaatiot voivat halutessaan varmistaa tekstiaineistojen lainmukaisen käytön eri tutkimus- ja tekoälyprojektien käyttötapauksissa.

Oikeat työkalut suurten tekstimassojen käsittelyyn

Manuaalinen ihmisen tekemä tunnistetietojen peittäminen on hidasta, kallista ja monissa tapauksissa mahdotonta, kun tekstimassoja on jopa satoja miljoonia rivejä. Valtavien tekstimassojen tapauksessa myös laajoilla kielimalleilla toteutettu ratkaisu on laskentakustannuksiltaan liian kallis ja suoritusajaltaan liian hidas.

Ongelman ratkaisemiseksi Tieto Caretech on kehittänyt oman, tunnisteellisen tiedon löytämiseen erikoistuneen ratkaisun. Ratkaisu pohjautuu synteettisellä sosiaali- ja terveydenhuollon alan tekstimateriaalilla koulutettuun pieneen kielimalliin, mikä on opetettu löytämään ja poistamaan suoria ja epäsuoria tunnistetietoja vapaamuotoisesta tekstistä.

Lisäksi ratkaisu tuo mukanaan merkittäviä etuja:

  • Suorat ja epäsuorat tunnistetiedot löydetään korkealla tarkkuudella.
  • Suuret tekstiaineistot voidaan käsitellä kustannustehokkaasti ja nopeasti.
  • Pieni kielimalli ei hallusinoi, vaan toimii suoraviivaisesti peittämistehtävässä.

Tämä tekee identifioivan tiedon peittämisestä skaalautuvaa ja realistista myös suurille tekstimassoille.

 

When processing large free text datasets, the costs of large language models increase significantly compared to small language models.

Suurten tekstiaineistojen käsittelyssä laajojen kielimallien kustannukset nousevat moninkertaiseksi pieniin kielimalleihin verrattuna.

Turvallisempi data avaa ovet tekoälyn hyödyntämiseen

Kun arkaluonteinen tieto on poistettu tai peitetty riittävän luotettavasti, organisaatiot voivat hyödyntää suuria tekstiaineistoja turvallisesti ja lainmukaisesti. Tämä mahdollistaa:

  • tekstiaineistojen laajemman tutkimuskäytön
  • tekoälymallien vastuullisemman kehittämisen
  • viranomaisten päätösten ja muiden virallisten dokumenttien julkaisemisen
  • asiakaspalautteiden ja muiden tunnisteellisten tekstien vapaamman hyödyntämisen organisaatioissa
  • uusien palveluiden ja innovaatioiden kehittämisen aineistoilla, joissa henkilöiden tunnistamisen mahdollisuus on minimoitu.

Onko organisaatiossasi tarve hyödyntää arkaluontoisia tekstiaineistoja? Mietityttääkö tekstiaineistojen tämänhetkinen käsittely? Ota yhteyttä, pyrimme jatkuvasti kehittämään ja laajentamaan tarjontaamme erityyppisten tekstiaineistojen käsittelyyn.

Lue lisää 

Vaikuttavaa tiedolla johtamista ja edistynyttä analytiikkaa