Avoimia suomenkielisiä NLP-tekstiaineistoja
Avoimia suomenkielisiä tekstiaineistoja kieliteknologian menetelmien kehittämiseen ja testaamiseen.
English summary: A list of open Finnish NLP datasets.
Laajoja tekstikokoelmia #
Wikipedia
Wikipedian kaikki artikkelit Wiki markup -muodossa. Päivittyy kuukausittain. CC BY‑SA GNU Free Documentation LicenseHugging Facen latausskriptillä saa ladattua puhtaan tekstisisällön ilman markup-koodeja.
Suomenkielinen Wikipedia 2017
Suomenkielisten Wikipedia-artikkelien tekstit 1.1.2018. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän kehittämää dependenssijäsennintä. CC BY 4.0Common Crawl
Avoin, jatkuvasti päivittyvä hakurobotin keräämä koko julkisen webin sisältö. Suomenkieliset sivustot tunnistettu automaattisen kielentunnistuksen perusteella. Common Crawl Terms of UsePolitiikkaan liittyviä tekstikokoelmia #
Eduskunnan avoin data
Eduskuntatyön tuloksena syntyvät valtiopäiväasiakirjat, esimerkiksi hallituksen esitykset ja asiantuntijalausunnot, yms. Kaikki valtiopäiväasiakirjat kokoteksteinä ovat saatavilla vuoden 1990 valtiopäivistä lähtien, osa jo vuodesta 1980 lähtien. Lisäksi valtiopäivävuosilta 1907–2000 koko painetun valtiopäiväasiakirjasarjan sisältö on saatavilla digitoituina. CC BY 4.0Ylen eduskuntavaalikone 2015
Ehdokkaiden vastaukset Ylen eduskuntavaalikoneiden kysymyksiin ja avoimet tekstivastaukset. CC BY‑SA 1.0Ylen kuntavaalikone 2012
Ehdokkaiden vastaukset Ylen kuntavaalikoneiden kysymyksiin, vaalilupaukset ja avoimet tekstivastaukset. CC BY‑SA 1.0Ylen kuntavaalikone 2017
Ehdokkaiden vastaukset Ylen kuntavaalikoneiden kysymyksiin, vaalilupaukset ja avoimet tekstivastaukset. CC BY‑SA 1.0Ylen kuntavaalikone 2021
Ohjelma Ylen kuntavaalikoneen 2021 vastausten lataamiseen Ylen nettisivuilta. Yle ei ole julkaissut aineistoa ladattavana pakettina kuten edellisinä vuosina. Apache 2.0Kirjoista, elokuvista ja muista medioista syntyviä aineistoja #
Projekti Lönnrot
EU:n ns. 70+ säädösten mukaan tekijänoikeuksista vapautuneitta suomen- ja ruotsinkielisiä e-kirjoja kaikkien vapaasti saatavilla. Teokset ovat yleensä aina tarjolla puhtaina tekstitiedostoina. public domainFinnish OpenSubtitles 2017
Aineisto kattaa Opensubtitles.org sivuston jakamat elokuvien ja tv-ohjelmien suomenkieliset tekstitykset. Aineisto on johdannainen monikielisestä Opensubtitles2018 korpuksesta. Aineisto on jaettu lähteisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän dependenssijäsennintä. CC BY 4.0Uutismedian tekstiaineistoja #
Vanhat aikakauslehdet
Kansalliskirjaston digitoimia vanhoja, ennen vuotta 1875 julkaistuja suomen- ja ruotsinkielisiä aikakauslehtiartikkeleita. CC BY 4.0Iltapäivälehtien uutisotsikoita
Iltapäivälehden verkkosivulla julkaistujen uutisten otsikot ja tiivistelmät alkaen vuodesta 2018. MITNews Crawl
Uutisartikkeleista poimittuja lauseita (lauseiden järjestys sekoitettu) suomeksi ja noin 60 muulla kielellä vuosilta 2014-2021. CC0Lauseita Ylen selkouutisista 2011-2018
Ylen selkouutisten arkiston sisältö lausetasolla sekoitettuna. CC BYLause- tai dokumenttitasolla annotoituja aineistoja #
Lauseet ministerien vastauksista kirjallisiin kysymyksiin
Lauseluokitteluaineisto. Perustuu ministerien vastauksiin kansanedustajien kirjallisiin kysymyksiin. CC BY 4.0FinnSentiment
Sentimenttiannotoituja lauseita. Sosiaalisesta mediasta poimittuja lauseita, jotka kolme ihmistä on toisistaan riippumattomasti luokitellut positiivisiksi, neutraaleiksi tai negatiiviseksi. CC BY 4.0FinCORE
Noin 2000 netistä poimittua dokumenttia, jotka on käsin luokiteltu kahdeksaan tekstityylilajiin (ml. tiedottava viestintä, vaikuttamaan pyrkivä viestintä, mielipidekirjoitus, jne.). CC BY 4.0MASSIVE
Lyhyitä käskyjä ja lausahduksia virtuaaliavustajalle. Jokaisen lausahduksen aie ja aikeen kohde on tunnistettu. Suomen lisäksi lausahdukset ovat saatavilla myös 51 muulla kielellä ihmiskääntäjien kääntämänä. CC BY 4.0Nimettyjen entiteettien tunnistus (Named-entity recognition, NER) #
Turku NER corpus
Useita aiheita käsitteleviä dokumenttja (UD-Finnish-TDT), joihin on merkitty kuusi entiteettityyppiä (organisaatio, paikka, henkilö, tuote, tapahtuma, aika). CC BY‑SA 4.0TurkuONE
Useita erilaisia aiheita käsitteleviä dokumentteja, joihin on merkitty 18 eri entiteettityypiä (OntoNotes-yhteensopiva luokittelu). CC BY‑SA 3.0 CC BY‑SA 4.0 CC BY‑ND‑NC 1.0 (lähdeaineistosta riippuen)FiNER
Uutis- ja Wikipedia-artikkeleita, joihin on käsin merkitty kuusi entiteettityyppiä (organisaatio, paikka, henkilö, tuote, tapahtuma, aika). CC BY‑SA 3.0 CC BY‑ND‑NC 1.0 (lähdeaineistosta riippuen)Kieliopillisesti jäsennettyjä dokumentteja #
Universal dependencies Finnish TDT
Kieliopillisesti jäsennettyjä dokumentteja UD-muodossa. CC BY‑SA 4.0Parallel Universal Dependencies (PUD) treebanks
1000 kieliopillisesti jäsennettyä lausetta UD-muodossa. CC BY‑SA 4.0Universal dependencies Finnish OOD
Kieliopillisesti jäsennettyjä dokumentteja UD-muodossa. Tekstit ovat lääketieteellisiä potilaskertomuksia, runoja, sosiaalisen median kommentteja ja satunnaisia webbisivuja. CC BY‑SA 4.0Parafraasit (saman asian ilmeiseminen eri tavoin) #
Turku paraphrase corpus
Käsin annotoitu 100 000 parafraasin kokoelma. Tekstinpätkät on koottu TV-sarjojen tekstityksistä, uutisotsikoista, nettikeskusteluista ja muista kirjoituksista. CC BY‑SA 4.0Konekäännösaineistoja #
WikiMatrix
Wikipediasta koneellisesti etsittyjä erikielisiä, mutta samaa tarkoittavia lauseita. 1620 kieliparia, mukaan lukien suomeksi. CC BY‑SAFiskmö
Lausepareja suomeksi ja ruotsiksi. Fiskmö-projektin julkiset aineistot. CC BY 4.0 CC BY‑NC‑SA 4.0 (vaihtelee aineistosta riippuen)Kysymykset ja vastaukset #
The Multilingual Knowledge Questions and Answers dataset
Luonnollisella kielellä esitettyjä kysymyksiä ja niihin käsin etsityt lyhyet vastaukset. Kysymykset ja vastaukset ovat alkujaan englanninkielisiä ja ne on ihmisvoimin käännetty suomeksi (ja 24 muulle kielelle). Käännösten laatu on heikohko. Kysymyksiä on 10 000, mutta kaikkiin ei ole saatavilla vastausta. CC BY‑SA 3.0The Belebele Benchmark for Massively Multilingual NLU Evaluation
Luetun ymmärrystä mittaamaan tarkoitettuja monivalintakysymyksiä. 488 tekstipätkää joista jokaisesta 1-2 kysymstä ja 4 vastausvaihtoehtoa kysymystä kohden (1 vaihtoehdoista on oikea). 122 kielellä (mukaanlukien suomeksi). CC BY‑SA 4.0Aya Dataset
Reilut 700 kysymys-vastaus-paria suomeksi (ja useilla muilla kielillä). Aineisto on kerätty joukkoistetusti vapaaehtoisilta natiivipuhujilta. Apache 2.0Rajatun käyttöoikeuden aineistot #
Kaikkien ladattavissa olevat aineistot, joiden käytölle on kuitenkin asetettu rajoituksia esimerkiksi kaupallisen hyödyntämisen suhteen.
FinChat
86 chat-keskustelua arkisista aiheista. Keskustelijoina yliopiston opiskelijoita, henkilökuntaa ja yläkoulun oppilaita. CC BY‑NCYlen eduskuntavaalikone 2011
Ehdokkaiden vastaukset Ylen eduskuntavaalikoneiden kysymyksiin ja avoimet tekstivastaukset. CC BY‑NC‑SA 3.0Opusparcus
Samaa tarkoittavien lauseiden (parafraasit) kokoelma. Suomeksi ja viidellä muulla kielellä. Lauseet ovat peräisin elokuvien ja TV-sarjojen tekstityksiä sisältävästä OpenSubtitles2016-kokoelmasta. CC BY‑NCJääkiekkouutiset
Jääkiekko-otteluiden tuloksista kertovia uutistekstejä ja ottelutapahtumat rakenteisessa muodossa. Datasettiä on käytetty opettamaan uutistekstigeneraattori. CC BY‑NC‑SA 4.0Puuttuuko sivulta jokin aineisto? Raportoi puute GitHubissa tai sähköpostilla.