Raalprojekteerimine
Euroopa struktuurfondide logo
Automatiseerimise viide Mehhatroonikaseadmete viide Pneumoautomaatika viide Siemens LOGO! viide Siemens S7-1200 viide

ANDMEHALDUS JA ANDMEBAASID

Andmeaidad ja andmekaevandamine

Andmehoidla põhimõtted ja põhikomponendid

Vaatamata faktile, et relatsiooniliste andmebaaside (RAB) teooria määratleb, et ainult üksik andmebaas peab salvestama oma organisatsiooni kõik andmed, on mitmesuguseid põhjuseid mitmete andmebaaside olemasoluks ja nii on paljudes organisatsioonides palju andmebaase ja nad sisaldavad palju mitmesugust informatsiooni.

Täpsed suhted andmete vahel on juba defineeritud üksiku andmebaasi kavandamise faasis (näiteks seosed ostja ja arve vahel, arve ja makse vahel jne.). Sellegipoolest on selles valdkonnas mõned piirangud tänu erinevate andmebaaside olemasolule, mõni nendest on säilinud vanade rakenduste toetamiseks (defineeritud kui pärand (legacy)), teised lihtsalt erinevate tegevuste eraldamiseks (nagu turuanalüüsi tegevuste eraldamiseks firma ressursside planeerimise süsteemist) ja mõned erineval tehnoloogial põhinevad (näiteks uudistel põhinevad salvestussüsteemid, mis põhinevad tekstiotsingu toodetel, ei saa alati olla integreeritud relatsioonilise andmebaasiga, mis sisaldab firma andmeid).

Kui andmed võivad "ristuda" (on võimalik defineerida nendevahelisi suhteid), siis võib välja tulla huvitavat varjatud informatsiooni. Nagu märgitud punktis 2.3, mitmetest allikatest tulevate andmete integratsiooniprotsess ja sellele järgnev analüüsifaas on saanud nime andmeaidandus ja andmete kaevandamine.

"Andmeaida" ("data warehouse" - DW) võimekus ei tulene ainult erinevate allikate andmete liitmise tulemusest, vaid ka väga pikal ajaperioodil lisandunud andmetest. See toob kaasa ka eelised ja piirangud: eeliseks on võimalus avastada pika ajaperioodi dünaamikat ja korduvaid hooajalisi muutusi; piiranguks on võimetus hallata "muutuvaid" andmed nagu näiteks maksete seisund.

Andmeaida keskkond on kavandatud hõlbustama mittemuutuvate andmete analüüsi, mis saabuvad erinevatest allikatest, loogiliselt ja füüsiliselt teisendatud, uuendatud ja korjatud pika ajaperioodi vältel ning töödeldud vastavaks turuanalüüsi vajadustele, väljendatuna lihtsate andmetena ja kokkuvõtetena, mis võimaldab nende kiiret analüüsi.

Andmeaida süsteemid (data warehousing systems - DWS) - AAS on sageli loodud relatsioonilise andmebaasina koos mõne erilise tunnusega:

  • Andmeaida andmebaas on erinev nendest andmebaasidest, milliste andmed saadakse ja on sageli majutatud erinevates serverites. See ilmneb esimesena, sest AAS andmebaas integreerib andmeid, mis tulevad teistest andmebaasidest ja samuti tootlikkuse kaalutlustest. Kui andmed paiknevad erinevates andmebaasides ja masinates, siis AAS ja firma andmebaas ei mõjuta teineteist: analüüsi operatsioonid, milliseid teostab AAS ei suurenda firma informatsioonsüsteemi koormust ja vice versa.
  • Kuigi AAS kasutab relatsioonilist andmebaasi, ei kasuta ta ühtki normaalkuju (vt. järgnevaid punkte), luues palju laiendatud tabeleid analüüsi lihtsustamiseks.

Tavaliselt sisaldab AAS järgmisi komponente:

  • Tööriistad ligipääsuks mittehomogeensetele andmeallikatele, milliste andmeid kasutatakse andmeaida täitmisfaasis.
  • "täitmis"protsess, mis võtab andmeid homogeensetest allikatest ja valmistab neid ette toetavasse andmebaasi paigutamiseks.
  • Ülakirjeldatud erisustega andmebaas, mis sisaldab võetud andmeid.
  • Mitmesugused analüüsiprotsessid, millistega informatsioon võetakse andmebaasist.
  • Mõned andmekaevandamise protsessid (data mining processes), mis võimaldavad üksikasjaliku informatsioon võtmist vastavalt loogilistele teedele (radadele), mis ise võivad samuti olla üsna keerulised tulenevalt eelmine analüüsi protseduuridest.

AAS täiteprotsess, mis regulaarselt integreerib erinevatest andmeallikatest võetud informatsiooni on eriti oluline. See protsess sisaldama rea samme:

  • Normaliseerimise vastandprotsess, mille eesmärgiks on kokku koguda suur arhiiv alustades rohkem struktureeritud informatsioonist. Näiteks klientide ja maksete arhiivi võib ühendada üheks arhiiviks, et näidata iga kliendi andmeid koos iga sooritatud maksega. See on vastuolus relatsiooniliste andmebaaside teooriaga mille alusel andmebaase luuakse, aga samas valmistab see andmed ette lihtsamaks analüüsi teostamiseks.
  • Muutuvate elementide kõrvaldamine eesmärgiga vähendada "müra", mis võib raskendada järgnevat analüüsi. Muutuvad elemendid on need informatsioonitükid, mis ajas muutuvad. Arve makse seisund on muutuv element, mis teatud aja jooksul omab "ei" väärtust ja muutub teatud aja pärast "jah" väärtuseks. Arve makse ülekanne ei ole muutuv element, sest ükskord makstuna jääb ta salvestatuna nagu on.
  • Viimistlus (küürimine ik scrubbing) - vigade kõrvaldamine, mis tulenevad mittetäielikest andmetest, nimede õigekirja vigadest, tähtede või arvude valest asukohast, lingvistilistest muutustest, mis võivad põhjustada probleeme andmed analüüsifaasis.
  • Nomenklatuurne viimistlus vältimaks sama informatsiooni kordumist, mis tulevad erinevatest allikatest, olles tähistatud teistmoodi.
  • Tüüpide normaliseerimine tagamaks, et informatsioon, mis tuleb erinevatest allikatest on samas vormingus (formaadis).
  • "Null"-väärtuste haldus. Andmebaasides vastab null-väärtus (null) info puudumisele, millega peab andmete sisestamisel õigesti ümber käima.
  • Kokkuvõtvate andmete loomine järgneva analüüsi kiirendamiseks.

Lisalugemist: Erik Iter - Andmehoidlad teoorias ja praktikas.

Andmekaeve põhimõtted

Olles andmetega varustatud, võib andmeaita kasutada analüüsi tegemiseks. Neid analüüse tehakse kasutades tavalisi (normaalseid) päringuid andmebaasist, algselt töötades kokkuvõtvate andmetega, mis loodi andmeaida andmete sisestuse viimases faasis. Need esimesed analüüsid tavaliselt näitavad (paljastavad) analüüsitavate parameetrite dünaamikat, aga tavaliselt ei näita nad dünaamika põhjuseid.

Põhjalikuma ja kulukama analüüs võib teha mittesummeeritud andmetega: seda tüüpi analüüs on sarnane eelmisele nii vahendite, kui ka uuritavate andmete poolest ja kannab nime andmete kaevandamine (data mining). Andmekaevandamine on arenev teadus: kasutaja alustab kokkuvõtvatest andmetest ja siis jätkab üksikasjalike andmete analüüsiga, otsides oma hüpoteesile kinnitust või tagasilükkamist. Andmeaidas on andmekaevandamisega seotud tegevuste osakaal madal, aga see kaasab suure hulga töötlusvõimsust; igal juhtumil kaasatakse vahendeid nende operatsioonide kiirendamiseks. [5]

Andmehoidlate põhilised kasutusalad

Selle AAS põgusa kirjelduse lõpetuseks vaatame milleks nad kasulikud on:

  • Pikaajalised analüüsid, mis võivad välja tuua tendentse (kalduvus) või korduvaid tsükleid. Tavaliselt need analüüsid eelistatult käsitlevad majanduslikke aspekte.
  • Teatud keerukusega organisatsioonides, millistes mõni majanduslik, organisatoorne, või tootlikkuse aspekt võib olla varjatud tänu organisatsiooni enda keerukusele ja kus olulised andmed võivad olla erinevates või sidumata andmebaasides.
Creative Commons Licence
"Raalprojekteerimine" by Eduard Brindfeldt and Urmo Lepiksoo is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Estonia License .