Avoimia suomenkielisiä NLP-tekstiaineistoja

Avoimia suomenkielisiä tekstiaineistoja kieliteknologian menetelmien kehittämiseen ja testaamiseen.

English summary: A list of open Finnish NLP datasets.

Laajoja tekstikokoelmia #

Wikipedia

Wikipedian kaikki artikkelit Wiki markup -muodossa. Päivittyy kuukausittain.
CC BY‑SA GNU Free Documentation License

Hugging Facen latausskriptillä saa ladattua puhtaan tekstisisällön ilman markup-koodeja.

Suomenkielinen Wikipedia 2017

Suomenkielisten Wikipedia-artikkelien tekstit 1.1.2018. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän kehittämää dependenssijäsennintä.
CC BY 4.0

Common Crawl

Avoin, jatkuvasti päivittyvä hakurobotin keräämä koko julkisen webin sisältö. Suomenkieliset sivustot tunnistettu automaattisen kielentunnistuksen perusteella.
Common Crawl Terms of Use

OSCAR

Common Crawlin aineiston siivottu ja deduplikoitu versio.
CC BY 4.0

CC-100

Toinen Common Crawlista edelleenjalostettu aineisto, kielentunnistusta ja siivousta parannettu. Lisenssi: "No claims of intellectual property are made on the work of preparation of the corpus."

mc4

Kolmas Common Crawliin perustuva aineisto.
ODC‑BY Common Crawlin käyttöehdot

mc4_fi_cleaned

Edellisestä tuntemattomalla tavalla jatkokäsitelty versio. Sisältää vain suomenkieliset dokumentit.

Politiikkaan liittyviä tekstikokoelmia #

Eduskunnan avoin data

Eduskuntatyön tuloksena syntyvät valtiopäiväasiakirjat, esimerkiksi hallituksen esitykset ja asiantuntijalausunnot, yms. Kaikki valtiopäiväasiakirjat kokoteksteinä ovat saatavilla vuoden 1990 valtiopäivistä lähtien, osa jo vuodesta 1980 lähtien. Lisäksi valtiopäivävuosilta 1907–2000 koko painetun valtiopäiväasiakirjasarjan sisältö on saatavilla digitoituina.
CC BY 4.0

Ylen eduskuntavaalikone 2015

Ehdokkaiden vastaukset Ylen eduskuntavaalikoneiden kysymyksiin ja avoimet tekstivastaukset.
CC BY‑SA 1.0

Ylen eduskuntavaalikone 2019

Ehdokkaiden vastaukset Ylen eduskuntavaalikoneiden kysymyksiin ja avoimet tekstivastaukset. Lisenssi: "Avoin data on jaossa csv-tiedostona Creative Commons -lisenssillä. Julkaistuista tiedoista saa luoda uusia julkaisuja ja palveluita kun vain lähde mainitaan."

Ylen kuntavaalikone 2012

Ehdokkaiden vastaukset Ylen kuntavaalikoneiden kysymyksiin, vaalilupaukset ja avoimet tekstivastaukset.
CC BY‑SA 1.0

Ylen kuntavaalikone 2017

Ehdokkaiden vastaukset Ylen kuntavaalikoneiden kysymyksiin, vaalilupaukset ja avoimet tekstivastaukset.
CC BY‑SA 1.0

Ylen kuntavaalikone 2021

Ohjelma Ylen kuntavaalikoneen 2021 vastausten lataamiseen Ylen nettisivuilta. Yle ei ole julkaissut aineistoa ladattavana pakettina kuten edellisinä vuosina.
Apache 2.0

Kirjoista, elokuvista ja muista medioista syntyviä aineistoja #

Projekti Lönnrot

EU:n ns. 70+ säädösten mukaan tekijänoikeuksista vapautuneitta suomen- ja ruotsinkielisiä e-kirjoja kaikkien vapaasti saatavilla. Teokset ovat yleensä aina tarjolla puhtaina tekstitiedostoina.
public domain

Project Gutenberg

Vanhoja kirjoja, joiden tekijänoikeudet ovat rauenneet. Lisenssi: Tyypillisesti public domain, tarkista jokaisen yksittäisen kirjan kohdalla erikseen.

Finnish OpenSubtitles 2017

Aineisto kattaa Opensubtitles.org sivuston jakamat elokuvien ja tv-ohjelmien suomenkieliset tekstitykset. Aineisto on johdannainen monikielisestä Opensubtitles2018 korpuksesta. Aineisto on jaettu lähteisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän dependenssijäsennintä.
CC BY 4.0

Uutismedian tekstiaineistoja #

Vanhat aikakauslehdet

Kansalliskirjaston digitoimia vanhoja, ennen vuotta 1875 julkaistuja suomen- ja ruotsinkielisiä aikakauslehtiartikkeleita.
CC BY 4.0

Iltapäivälehtien uutisotsikoita

Iltapäivälehden verkkosivulla julkaistujen uutisten otsikot ja tiivistelmät alkaen vuodesta 2018.
MIT

News Crawl

Uutisartikkeleista poimittuja lauseita (lauseiden järjestys sekoitettu) suomeksi ja noin 60 muulla kielellä vuosilta 2014-2021.
CC0

Lauseita Ylen uutisarkistosta 2011-2018

Ylen uutisarkiston sisältö lausetasolla sekoitettuna.
CC BY

Lauseita Ylen selkouutisista 2011-2018

Ylen selkouutisten arkiston sisältö lausetasolla sekoitettuna.
CC BY

Lause- tai dokumenttitasolla annotoituja aineistoja #

Lauseet ministerien vastauksista kirjallisiin kysymyksiin

Lauseluokitteluaineisto. Perustuu ministerien vastauksiin kansanedustajien kirjallisiin kysymyksiin.
CC BY 4.0

FinnSentiment

Sentimenttiannotoituja lauseita. Sosiaalisesta mediasta poimittuja lauseita, jotka kolme ihmistä on toisistaan riippumattomasti luokitellut positiivisiksi, neutraaleiksi tai negatiiviseksi.
CC BY 4.0

FinCORE

Noin 2000 netistä poimittua dokumenttia, jotka on käsin luokiteltu kahdeksaan tekstityylilajiin (ml. tiedottava viestintä, vaikuttamaan pyrkivä viestintä, mielipidekirjoitus, jne.).
CC BY 4.0

MASSIVE

Lyhyitä käskyjä ja lausahduksia virtuaaliavustajalle. Jokaisen lausahduksen aie ja aikeen kohde on tunnistettu. Suomen lisäksi lausahdukset ovat saatavilla myös 51 muulla kielellä ihmiskääntäjien kääntämänä.
CC BY 4.0

Nimettyjen entiteettien tunnistus (Named-entity recognition, NER) #

Turku NER corpus

Useita aiheita käsitteleviä dokumenttja (UD-Finnish-TDT), joihin on merkitty kuusi entiteettityyppiä (organisaatio, paikka, henkilö, tuote, tapahtuma, aika).
CC BY‑SA 4.0

TurkuONE

Useita erilaisia aiheita käsitteleviä dokumentteja, joihin on merkitty 18 eri entiteettityypiä (OntoNotes-yhteensopiva luokittelu).
CC BY‑SA 3.0 CC BY‑SA 4.0 CC BY‑ND‑NC 1.0 (lähdeaineistosta riippuen)

FiNER

Uutis- ja Wikipedia-artikkeleita, joihin on käsin merkitty kuusi entiteettityyppiä (organisaatio, paikka, henkilö, tuote, tapahtuma, aika).
CC BY‑SA 3.0 CC BY‑ND‑NC 1.0 (lähdeaineistosta riippuen)

Kieliopillisesti jäsennettyjä dokumentteja #

Universal dependencies Finnish TDT

Kieliopillisesti jäsennettyjä dokumentteja UD-muodossa.
CC BY‑SA 4.0

Parallel Universal Dependencies (PUD) treebanks

1000 kieliopillisesti jäsennettyä lausetta UD-muodossa.
CC BY‑SA 4.0

Universal dependencies Finnish OOD

Kieliopillisesti jäsennettyjä dokumentteja UD-muodossa. Tekstit ovat lääketieteellisiä potilaskertomuksia, runoja, sosiaalisen median kommentteja ja satunnaisia webbisivuja.
CC BY‑SA 4.0

Universal dependencies FinnTreeBank 1

Kieliopillisesti jäsennettyjä lauseita UD-muodossa.
CC BY 4.0

Parafraasit (saman asian ilmeiseminen eri tavoin) #

Turku paraphrase corpus

Käsin annotoitu 100 000 parafraasin kokoelma. Tekstinpätkät on koottu TV-sarjojen tekstityksistä, uutisotsikoista, nettikeskusteluista ja muista kirjoituksista.
CC BY‑SA 4.0

Konekäännösaineistoja #

OPUS

Useita aineistoja, joissa on sama lause suomeksi ja muilla kielillä. Kerätty automaattisesti monikielisiltä nettisivuilta tai muista käännettyjä tekstejä sisältävistä lähteistä. Avoimia aineistoja, tarkista jokaisen aineiston tarkka lisenssi erikseen.

Paracrawl

Yli 7 miljoonaa lauseparia suomeksi ja englanniksi monikielisiltä webbi-sivustoilta.
CC0

EuroParl

Euroopan parlamentin kokousten puheita ammattikääntäjien suomeksi ja muille EU:n virallisille kielille kääntämänä. Lisenssi: "We are not aware of any copyright restrictions of the material. If you use this data in your research, please contact pkoehn@inf.ed.ac.uk."

WMT en-fi testset 2016

3000 ammattikääntäjien suomeksi ja englanniksi kääntämää lausetta.
CC BY 4.0

WMT en-fi testset 2017

3000 ammattikääntäjien suomeksi ja englanniksi kääntämää lausetta.
CC BY 4.0

WikiMatrix

Wikipediasta koneellisesti etsittyjä erikielisiä, mutta samaa tarkoittavia lauseita. 1620 kieliparia, mukaan lukien suomeksi.
CC BY‑SA

Fiskmö

Lausepareja suomeksi ja ruotsiksi. Fiskmö-projektin julkiset aineistot.
CC BY 4.0 CC BY‑NC‑SA 4.0 (vaihtelee aineistosta riippuen)

Kysymykset ja vastaukset #

The Multilingual Knowledge Questions and Answers dataset

Luonnollisella kielellä esitettyjä kysymyksiä ja niihin käsin etsityt lyhyet vastaukset. Kysymykset ja vastaukset ovat alkujaan englanninkielisiä ja ne on ihmisvoimin käännetty suomeksi (ja 24 muulle kielelle). Käännösten laatu on heikohko. Kysymyksiä on 10 000, mutta kaikkiin ei ole saatavilla vastausta.
CC BY‑SA 3.0

The Belebele Benchmark for Massively Multilingual NLU Evaluation

Luetun ymmärrystä mittaamaan tarkoitettuja monivalintakysymyksiä. 488 tekstipätkää joista jokaisesta 1-2 kysymstä ja 4 vastausvaihtoehtoa kysymystä kohden (1 vaihtoehdoista on oikea). 122 kielellä (mukaanlukien suomeksi).
CC BY‑SA 4.0

Aya Dataset

Reilut 700 kysymys-vastaus-paria suomeksi (ja useilla muilla kielillä). Aineisto on kerätty joukkoistetusti vapaaehtoisilta natiivipuhujilta.
Apache 2.0

Rajatun käyttöoikeuden aineistot #

Kaikkien ladattavissa olevat aineistot, joiden käytölle on kuitenkin asetettu rajoituksia esimerkiksi kaupallisen hyödyntämisen suhteen.

Ylilauta

Ylilauta-keskustelupalstan viestit vuosilta 2012-2014.
CC BY‑NC

Reddit

Reddit-keskustelualustan kaikki viestit vuodesta 2005 alkaen. Suomenkielistä keskustelua on esimerkiksi r/Suomi-keskustelualueella. Lisenssi epäselvä.

FinChat

86 chat-keskustelua arkisista aiheista. Keskustelijoina yliopiston opiskelijoita, henkilökuntaa ja yläkoulun oppilaita.
CC BY‑NC

Ylen eduskuntavaalikone 2011

Ehdokkaiden vastaukset Ylen eduskuntavaalikoneiden kysymyksiin ja avoimet tekstivastaukset.
CC BY‑NC‑SA 3.0

ScandiSent

Sentimenttianalyysi. Asiakkaiden arvioita verkkokaupoista. Arviot on luokitelut kahteen ryhmään, positiivisiksi ja negatiivisiksi. Lisenssi epäselvä.

Opusparcus

Samaa tarkoittavien lauseiden (parafraasit) kokoelma. Suomeksi ja viidellä muulla kielellä. Lauseet ovat peräisin elokuvien ja TV-sarjojen tekstityksiä sisältävästä OpenSubtitles2016-kokoelmasta.
CC BY‑NC

Jääkiekkouutiset

Jääkiekko-otteluiden tuloksista kertovia uutistekstejä ja ottelutapahtumat rakenteisessa muodossa. Datasettiä on käytetty opettamaan uutistekstigeneraattori.
CC BY‑NC‑SA 4.0

Puuttuuko sivulta jokin aineisto? Raportoi puute GitHubissa tai sähköpostilla.