Informatika | Tanulmányok, esszék » Sebestyén József - Adatbányászat nyílt forráskódú szoftverekkel

Alapadatok

Év, oldalszám:2012, 16 oldal

Nyelv:magyar

Letöltések száma:140

Feltöltve:2013. február 02.

Méret:424 KB

Intézmény:
-

Megjegyzés:

Csatolmány:-

Letöltés PDF-ben:Kérlek jelentkezz be!



Értékelések

Nincs még értékelés. Legyél Te az első!


Tartalmi kivonat

Sebestyén József Adatbányászat nyílt forráskódú és szabad szoftverekkel Döntéstámogató Rendszerek, 2012. őszi félév Tartalomjegyzék Az adatbányászat.3 Az adatbányászat kialakulása.3 Az adatbányászat célja, módszerei.3 Nyílt forráskód vs. szabad szoftver vs kereskedelmi szoftver5 Alkalmazások.7 jHepWork.7 Weka.8 Orange.9 Apache Mahout.10 RapidMiner és RapidAnalytics.11 Alkalmazások összehasonlítása.12 További alkalmazásokról röviden.12 R.12 Rattle.12 KNIME.12 Összefoglalás.13 Adatbányász szoftverek piaca.13 Konzekvencia.15 Ajánlott irodalom.16 Felhasznált irodalom.16 Felhasznált kutatások.16 2. oldal Az adatbányászat Az adatbányászat kialakulása Az elmúlt 50 év technológiai fejlődésének eredménye a felhalmozódott információk mennyiségének gyors növekedése, amely már rég átlépte az ember számára könnyen kezelhető mértéket. Az 1960-as években megjelenő korai adatbázisok, majd az 1970-es években

kialakuló relációs adatmodell és az erre épülő relációs adatbázisok az 1990-es években robbanásszerű tárhelykapacitás növekedéssel illetve az egységnyi információ tárolásának költségei jelentős csökkenésével együttesen eredményezték, hogy nagy mennyiségben halmozódott fel a szűretlen, nyers, feldolgozatlan adat, amely tovább nőtt a 2000-es évek óta „We are drowing in information, but starving for knowledge.” az internet rohamos fejlődésével. Sokáig a nem megfelelő John Naisbitt alapossággal kidolgozott eszközök és algoritmusok helyett jelentős részben a döntéshozó egyéni megérzései domináltak. A hagyományos adatbázis-kezelők a szokványos lekérdezéseken kívül csak egyszerűbb statisztikai funkciókkal rendelkeztek, komplexebb, árnyaltabb feladatokat nem tudtak ellátni. Az adatbányászat ezt az igényt kívánja kielégíteni, amelyhez egyszerre használja fel az adatbázis technológia, statisztika, gépi

tanulás és egyéb szakterületek, például a mesterséges neurális hálók, genetikus algoritmusok és döntési fákkal kapcsolatos kutatások eredményeit. Az adatbányászat önálló területként 1980-as évek végén jelent meg. A kezdeti heurisztikák és matematikai elemzést mellőző algoritmusok terjedtek el, a 2000-es évektől azonban az igény jelentős növekedése és az ezzel járó kutatói beruházások növekedése új, színvonalasabb módszereket hozott. Manapság az adatbányászat a döntéstámogatás egyik legfontosabb eszköze, ugyanakkor a manapság elterjedt módszerek képességei is korlátozottak, a felhasználón és az adathalmazon is jelentősen múlik a kinyert információk pontossága, felhasználhatósága. Jelenleg piac- és kockázatelemzés illetve csalás és szokatlan alakzatok kimutatása a fő felhasználási terület, de alkalmazzák adatáramlás elemzésre, szöveg- és webbányászatra, bioinformatikai és biológiai adatok

elemzésére is. Az adatbányászat célja, módszerei Az adatbányászat célja a meglévő adatokból az érvényes, új, potenciálisan hasznos és érthető összefüggések nem-triviális azonosítása és a döntéshozó számára értelmezhetővé tétele. Az így 3. oldal szerzett információ segíthet megérteni az eddig lezajlott folyamatokat, tendenciákat mutathat ki, amely a jövőbeni folyamatokra is adhat előrejelzést. Figyelni kell és szűrni a téves összefüggések kimutatását, amelyek ugyan jelentősnek látszanak, ugyanakkor mégsem jellemzik valósan a jövőbeni összefüggéseket és nem reprodukálhatóak új adatokkal. Az sikeres adatbányászat főbb követelményei: 1. Nagy mennyiségű adat: Nagy mennyiségnél könnyebb kizárni az adatok esetiségét, ami csökkenti a véletlen összefüggések detektálását. 2. Sok tulajdonság: Ha az adatok minél több jellemzőt tartalmaznak, pontosabb összefüggések kimutatására van lehetőség. 3.

Tiszta adatok: Hiányos, hibás vagy hamis bejegyzések növelik a bizonytalanságot, ami az eredményt is befolyásolhatja. Kapcsolódó kifejezés a GIGO (garbage in, garbage out) 4. Torzítatlan adat: A alap adathalmazból nem megfelelően kiválasztott adatok befolyásolhatják az egészre vonatkozó kimutatásokat. Ide tartozó kifejezés a BIBO (bias in, bias out) 5. Alkalmazási terület akcióképessége: A kinyert tudást gyakran nem használják fel, vagy a felhasználási terület túl merev annak hasznosításához. 6. A befektetés megtérülésének mérhetősége: Akkor sikeres az adatbányászat, ha megtérül a befektetés. Az adatbányászat hat jelentősebb feladatra bontható 1: 1. Gyakori minták kinyerése: Adatok sorozatából gyakran előforduló (rész-) objektumok, elemhalmazok, sorozatok, részben rendezések vagy gráfok. 2. Attribútumok közötti kapcsolatok: Objektumok attribútumai közötti asszociációs- és korrelációs szabályok, funkcionális

függőségek és hasonlóságok. 3. Klaszterezés: Objektumok előre nem definiált csoportokba sorolása úgy, hogy hasonló elemek azonos csoportba kerüljenek, különbözőek különbözőbe. 4. Sorozatelemzés: Hasonló (rész-) sorozatok keresése, elemzése, jövőbeni elemek regressziós módszerekkel történő meghatározása. 5. Eltéréselemzés: Általános jellemzőktől eltérő elemek, „különc pontok” meghatározása 6. Webes adatbányászat: Az interneten található adatok elemzése, oldalak rangsorolása, információ kinyerése. 1 DR. BODON FERENC, 2010: Adatbányászati algoritmusok (tanulmány), 8-9 oldal 4. oldal Nyílt forráskód vs. szabad szoftver vs kereskedelmi szoftver A címben szereplő három kifejezés a köztudatban jelenlevő ismeretekkel ellentétben három különböző, nem összekeverendő, de egymást fedhető csoportot jelöl. Ennek tisztázása meghaladná a dolgozat kereteit, több könyv is foglalkozik a témával és nem is

kapcsolódik szorosan a témához, de szükséges a szoftverek valódi értékének meghatározásához. A szabad szoftver kifejezés gyakorlatilag egyidős a programozás kialakulásával. Jelentését az 1985-ben létrejött Free Software Foundation (FSF), amely egyik alapítója Richard Stallman, a GNU projekt vezetője, a következő pontokban fogalmazza meg: 1. A felhasználónak joga van a program bármilyen célú futtatására 2. A felhasználónak joga van a program működésének elemzésére, illetve annak saját igényekhez szabására. Ehhez természetesen a forráskóddal is rendelkeznie kell 3. A felhasználónak joga van arra, hogy másolatokat tegyen közzé 4. A felhasználónak joga van módosítani, tökéletesíteni a programot és a módosított változatot közzétenni. Ennek feltétele a módosított forráskód elérésének biztosítása is Az eredeti kifejezést sokan félreértik. Jelen esetben a „free” szó nem az ingyenességet, hanem a szabadságot

jelenti. Ennek következménye, hogy a szabad szoftverek pénzért kereskedelmi forgalomba hozhatóak, pusztán a fenti pontokat kell biztosítania a forgalmazónak. A kereskedelmi forgalomba került szabad szoftverek gyakran tartalmaznak nyomtatott dokumentációt, további más szoftvereket, egyedi módosításokat, esetleg ezekhez terméktámogatást is biztosítanak. Minden, az FSF által elismert licenc 2 megfelel a fenti pontoknak. A nyílt forráskódú szoftver kifejezés a fenti félreérthetőség tisztázása miatt alakult ki. Az Eric S. Raymond és Bruce Perens alapításával létrejött Open Source Initiative (OSI) a következő pontokat tartalmazza: 1. Szabad terjeszthetőség 2. Forráskód elérhetőség 3. Származtatott művek létrehozásának lehetősége 4. Az eredeti szerző forráskódjának sértetlenségének biztosítása 5. Személyek vagy csoportok megkülönböztetésének tilalma 6. Különböző felhasználási területek megkülönböztetésének

tilalma 7. A licenc terjeszthetősége 8. A licenc nem vonatkozik kizárólag a termékre 2 List of FSF-approved software licenses http://en.wikipediaorg/wiki/List of FSF-approved software licenses 5. oldal 9. A licenc nem korlátozhat másik szoftvert 10. A licenc technológiailag semleges A nyílt forráskódú alkalmazások licenszeket az OSI véleményezi és tartja számon 3. 3 Open Source Licenses http://opensource.org/licenses/alphabetical 6. oldal Alkalmazások jHepWork (GNU General Public License v3, http://jwork.org/jhepwork/) A jHepWork egy tudományos számításokra, adatok analizálására és megjelenítésére alkalmas szoftver. Célja kutatók, mérnökök és diákok számára olyan eszközt nyújtani, amely más matematikai szoftverekkel (például Matlab) is képes együtt működni a megfelelő programozási felületeken keresztül. A szoftver teljes egészében Java-ban készült, így nem csak Windows, Mac és Linux környezetre, de Androidra is

elkészítették. Fontosabb tulajdonságok: • 2D/3D grafika, adat és függvény vizualizáció képesség. • Numerikus adatstruktúrák és megfelelő manipulációs képességek, magas szintű hibaszámítási képességgel. • Analitikus számítási rendszer, beépített Matlab értelmezővel. • Átfogó statisztikai rendszer például adatok statisztikai elemzéséhez, klaszterezéséhez, neurális hálózat létrehozásához. • Átfogó adatkezelési réteg, változatos adat importálási és exportálási lehetőség. Képes tömörített adatcsomagok, XML, SQL és SQLite fájlok importálására, fejlett adat és függvény megjelenítésre és több kép és adatformátumba történő exportálásra. • Beépített makró szerkesztő, szintaxis kiemeléssel, kód asszisztenssel Python, Java, C, C++, Fortran, PHP, Matlab és további nyelvek támogatásával. jHepWork képernyőképek 7. oldal Weka (GNU General Public License,

http://www.cswaikatoacnz/~ml/weka/indexhtml) A WEKA (Waikato Environment for Knowledge Analysis) az új-zélandi Waikato Egyetem 1997 óta Java-ban fejlesztett gépi tanulás rendszere, amely adat elemző és prediktív modellező algoritmusokat, adat vizualizációs eszközöket, gépi tanulás sémákat, egy ezeket összefoglaló grafikus felületet tartalmaz, illetve egy Java programozási interfészt saját alkalmazások fejlesztéséhez. Az alkalmazás nem támogatja a több relációjú adatbányászatot, de tartalmaz segédeszközöket, amelyek előkészítik például az összetettebb SQL adatbázis adatszerkezetet feldolgozásra. A WEKA grafikus felülete, a Weka Explorer egy letisztult, funkció-orientált felületet biztosít, amely könnyebb használhatóságot eredményez. Összetettebb folyamatok állíthatóak össze megfelelően előkészített modulok hálózatából, amely egy grafikus tervező felületen egyszerűen megtervezhető. 8. oldal Orange (GNU General

Public License, http://orange.biolabsi/) Az Orange egy, a Ljubljanai Egyetemen 1997 óta fejlesztett, C++ és Python nyelveken implementált adatbányász és gépi tanulás rendszer, amely adatok analízisét és vizualizációját egy vizuális programozó felületen teszi lehetővé, ugyanakkor tartalmaz Python programozói könyvtárakat a külső alkalmazások fejlesztéséhez. Rendelkezik widget támogatással, amelyen keresztül új funkcionalitással látható el a rendszer. Fejlett grafikus felületén egyszerűen összeállítható az adatfeldolgozó folyamat a megfelelő modulok és widgetek közötti kapcsolatok összeállításával. Ezen kapcsolatok leírását egy fa vagy gráf struktúrájú ábra összeállításával tudjuk elvégezni, ahol a gráf vagy fa pontjai a modulok és widgetek, míg az élek a köztük lévő kapcsolat. A rendszer elemzi a felhasználó szokásait, megjegyzi és a későbbiekben javasolja a gyakran használt modul-kombinációkat, illetve

intelligensen kiválasztja a widgetek közötti kommunikációnak a megfelelő csatornákat. Ezen kívül speciális feladatokhoz beépített Python támogatást tartalmaz, így rövidebb kódokkal saját widgetet tudunk létrehozni. 9. oldal Apache Mahout (Apache license v2.0, http://mahoutapacheorg) Az Apache Mahout egy skálázható, nagy adatmennyiség feldolgozására képes, gépi tanuláson alapuló szöveg klaszterező, osztályzó és minta kereső szoftver. Célja nemcsak megfelelő minőségű szoftver létrehozása, hanem a szoftver köré olyan szakmai közösség létrehozása, amely képes új és már meglévő felhasználási területek fejlesztésére. A szoftver felhasználására nincs megkötés, szabadon használható profitorientált célra is. • Skálázható: a rendszer az Apache Hadoop elosztott számítási rendszeren alapul, így újabb gépek bevonásával a teljesítmény tovább növelhető. • Gépi tanuláson alapul: a meglévő adatok és

az új elemek besorolásának elemzésével folyamatosan finomulnak a keresési eredmények. • Négy fő felhasználási terület • Ajánlás: a felhasználói viselkedések és keresési előzmények alapján a felhasználót érdeklő elemek keresése és megjelenítése. • Klaszterezés: szöveges dokumentumok téma szerinti automatikus csoportosítása. • Osztályozás: új szöveges dokumentumok meglévő csoportba helyezése. A rendszer folyamatosan elemzi és tanul a már elhelyezett dokumentumokból. • Gyakori elempárok keresése: keresések és felhasználói párosítások (például bevásárláskor egy kocsiba tett elemek) elemzése és gyakori párosítások keresése. A szoftver több algoritmust is implementál felhasználási területenként4, ezen kívül részletes, jól dokumentált leírásokkal és segédletekkel rendelkezik. Kiépített Mahout rendszer logikai felépítése 4 Algorithms - Apache Mahout

https://cwiki.apacheorg/confluence/display/MAHOUT/Algorithms 10. oldal RapidMiner és RapidAnalytics (GNU General Public License v3, http://rapid-i.com) A dortmundi székhelyű Rapid-I vállalat 2001 óta fejleszti Java nyelven írt, nyílt forráskódú adatbányász és elemző rendszerét. Az alap rendszer ingyenesen elérhető, ugyanakkor lehetőség van teljes körű terméktámogatás és olyan kiegészítő funkcionalitások vásárlására, mint például SAP és Hadoop integráció vagy többszálú számítási rendszerek támogatása. A RapidMiner egy teljes értékű adatbányász eszköz, amely egy adat feldolgozó rendszer prediktív és leíró modellek segítségével, központjában az adat- és szövegbányászat illetve prediktív analitika illetve jelentéskészítés és adat vizualizáció áll. Alapértelmezetten XML leíró nyelven történik az újrahasználhatóságot támogató sémák és szabályok tárolása, így lehetőség van külső alkalmazások

közötti szabályrendszer átjárhatóságára. Az alap rendszer beépítve tartalmazza a Microsoft Excel, Access és SQL, Oracle, IBM DB2, Sybase, Ingres, MySQL, Postgres, SPSS, dBase, szöveges és egyéb fájlok támogatását. Használata nem igényel programozói képzettséget, a grafikus felületen összeállított szabályrendszer elemeinek kapcsolatát egy folyamatábrán kell összeállítani, ugyanakkor szkript rendszerével összetettebb funkcionalitással is bővíthető, ezen kívül a Rapid-I Marketplace-en külső fejlesztők által készített kiegészítők is elérhetőek. A RapidMiner tartalmazza a Weka gépi tanulási rendszert is. Az alkalmazás funkcionalitásai grafikus felület nélkül is elérhetőek, akár konzolos szerverként történő futtatással, akár szabványos Java API-n keresztül. A RapidAnalytics egy, a RapidMiner-re épülő megoldás, amely egy kollaborációt támogató, távolról elérhető, elosztott számítási rendszert használó

üzleti analitikai szerver. Lehetőség van RapidMiner-en vagy webes felületen felcsatlakozni, illetve web szolgáltatást is nyújt, amelyen keresztül egyedi szoftverek is képesek csatlakozni. Képes időzített feladatok végrehajtására, illetve a lokális és távoli folyamatok mozgatására. RapidAnalitycs logikai felépítése 11. oldal Alkalmazások összehasonlítása Alkalmazás Programozási Elérhető Enterprise nyelv platformok támogatás Megjegyzés jHepWork Java nincs Tudományos számításokra specializálva. Weka Java nincs Gépi tanulás keretrendszer. Egyszerű grafikus Orange C++ / Python nincs programozás, bioinformatikai kiegészítők. Apache Mahout Java nincs RapidMiner Java van Erős elosztott számítási rendszer támogatás. Nyílt forráskód komoly támogatással. További alkalmazásokról röviden R Hivatalos oldal: http://www.r-projectorg/ Több programozási paradigmát támogató programozási nyelv és

szoftverkörnyezet statisztikai számításokhoz és azok vizualizációjához, magába foglalva a lineáris és nem lineáris modellezést, klasszikus statisztikai tesztelést, osztályozást, klaszterezést. Konzolos felülettel rendelkezik. Rattle Hivatalos oldal: http://rattle.togawarecom/ R nyelven írt grafikus adatbányász eszköz. KNIME Hivatalos oldal: http://www.knimeorg/ Grafikus eszköz, amellyel teljes analízist végezhetünk: adat transzformáció, prediktív analitika, vizualizáció és jelentés készítés. Moduláris felépítésű és tartalmaz olyan funkciókat, mint megosztott tárház használat, felhasználói jogkörök kezelése, távoli kódfuttatás, időzített folyamatok és webes felület. 12. oldal Összefoglalás Adatbányász szoftverek piaca Nehéz mérni az piacon aktuálisan használt megoldások megoszlását, ezzel kapcsolatos felmérés ritkán történik, ugyanakkor lehetőségünk van becslések végzésére más mérőszámok

alapján. A publikusan fellelhető felmérések közül a KDnuggets adatbányászattal foglalkozó weboldal évenként kiírásra kerülő felmérése tartalmazza a legrészletesebb, évekre visszamenő adatsort, amelyből érdemes következtetéseket levonni. Milyen analitikiai, adatbányász és nagy adatokat kezelő szoftvert használt az elmúlt 12 hónapban valós projektekhez? 2012. május R Excel 29.8 % 21.8 % 26.7 % 27.7 % RapidMiner KNIME 21.8 % 12.1 % Weka 11.8 % 14.8 % 12.7 % 13.6 % SAS RapidAnalitycs* 30.7 % 23.3 % 10.4 % 0% Matlab 7.2 % 10 % 7.8 % 7.2 % IBM SSPS Statistics 5.8 % 7.1 % SAS Enterprise Miner Orange 5.3 % 1.3 % Microsoft SQL Server 5% 4.9 % Egyéb ingyenes eszköz 4.9 % 4.1 % 2011 2012 4% 3.2 % Egyéb kereskedelmi eszköz 0 5 10 15 20 25 30 35 százalék Az eredeti felmérésben több, mint 40 opció közül lehetett választani, 2011-ben 1103, míg 2012-ben 798 szavazat érkezett. A fenti adatsor az utolsó két

felmérés eredményeinek egy részét tartalmazza, kiemelve a tárgyalt illetve ismertebb szoftvereket. A felmérés százalékosan 13. oldal mutatja, hogy a válaszadók milyen arányban használták az adott eszközt a 2011 és 2012-es években. Szembetűnő az R magas százaléka, amely a 2011-es évhez képest tovább emelkedett, ugyanakkor figyelembe kell vennünk, hogy egy programozási nyelvről van szó, amelyben saját szoftverek készíthetőek, illetve más szoftverek használhatják belső programozási felületként, így ez részben torzíthatja az eredményt. Másodsorban kiemelném, hogy a Microsoft Office részét képző Excel-t, amely népszerűsége a korábbi évhez viszonyítva erősödött. Ez azzal magyarázható, hogy sok helyen nem feltétlenül szükséges célszoftver használata, az Excel beépített funkciói elegendőnek bizonyulnak az igényelt információk tárolásához és feldolgozásához. Amennyiben csak a célszoftvereket vesszük

figyelembe, úgy az első négy helyen nyílt vagy ingyenes szoftver található, amelyeket az összes válaszadó 94%-a használt a 2012-t megelőző 12 hónapban. Látható, hogy a felmérésben résztvevőknél nőtt mind a egyéb szabad szoftver, mind az egyéb, kereskedelmi szoftvert használók száma is. A csillaggal megjelölt RapidMiner a 2011-es felmérésben nem szerepelt. A 2012-es felmérés fordulatot jelentett a nyílt/szabad adatbányász szoftverek tekintetében, ugyanis ebben az évben az ilyen rendszereket használók száma meghaladta a kereskedelmi szoftvereket használók számát. A válaszadók 28% használt nem ingyenes, csak kereskedelmi szoftvert, 30% csak ingyenes, nem kereskedelmi szoftvert és 41% használt mindkettőt. Analízis/adatbányászat közben használt nyelv R 30.7 % SQL 23.2 % Java 17.3 % Python 14.9 % C / C++ 8.3 % Egyéb 7.1 % Perl 4.6 % Awk 3.9 % F# 0.6 % 0 5 10 15 20 25 30 35 százalék A felmérésben

vizsgálták az adatbányászat és analitika során használt nyelveket. Látható, hogy az R itt is toronymagasan vezet. Érdemes kiemelni, hogy a Python-t többen használják, mint a C/C++ párost a Perl-lel és az F#-al együttvéve. Ennek egyik valószínűsíthető oka, hogy eleve több eszköz támogatja a Python szkript használatát, keresztplatformos, ezen kívül fejlett 14. oldal matematikai és mátrix műveletei segíthetik az analitikai algoritmusok implementálását. Ugyanakkor ez utóbbi adatsorból hiányzik az SAS, mint programozási nyelv. Ha megnézzük az aktuális TIOBE Software által havonta, kéthavonta kiadott, majd évente összesített programozási nyelv népszerűségi indexét, amelyet az álláshirdetéseken keresztül a nagyobb keresők keresési számán át a meghirdetett tanfolyamok számát vizsgálva állítanak fel, láthatjuk, hogy az első 50 nyelvet vizsgálva a SAS a 21. helyen van, míg az R a 28 ezen a listán Konzekvencia A nyílt

és szabad szoftverek az adatbányász és analitikai szoftverek piacán is folyamatos növekedést mutatnak, csak úgy, mint napjaink bármely más területén. A közösség által fejlesztett szoftverek megtalálták helyüket és idővel olyan fejlett eszközökké nőtték ki magukat, amelyeket éles, produktív környezetben is használhatnak a felhasználók. Az R programozási nyelv használata 2008 óta nő 5, sorra jelennek meg az egyetemek kutatásain alapuló elemzői algoritmusok nyílt megvalósításai, általában egyenesen a kutatást végző egyetemről, az új trendek hamar megjelennek a nagyobb szoftverekben. Specializált, bizonyos célterületnek megfelelő programok jöttek létre, emellett olyan platformokra is elérhetőek, amelyeket nem vagy csak részben támogatnak a nagyobb kereskedelmi alkalmazások. Az olyan szervezetek, mint az Apache Software Foundation, táptalajt és infrastruktúrát biztosítanak az új, potenciával rendelkező szoftvereknek. A

felhasználók felismerték a szabad kóddal járó, az egyéni igényekhez könnyen és gyorsan idomítható rendszerekben rejlő lehetőségeket. Az olyan cégek, mint a Rapid-I, felismerte, hogy a szoftver eladásából nem lehet folyamatos bevételt biztosítani, a kód terjedésének teljes korlátozása nem lehetséges, ehelyett a terméktámogatás és oktatás képzi a fő bevételi forrásokat. A közösségi támogatás különböző formái, például fórumok, levelező listák olyan tudástárak, amelyek bárki számára könnyen elérhetőek. Ugyanakkor hátrány lehet a fragmentálódása ennek a tudásnak: régebbi verziókhoz írt leírások nem feltétlenül működnek az újabb kiadásoknál; a rendszer dokumentációja nem biztos, hogy naprakész; a régóta használt alkalmazások önkéntesek híján elhalhatnak, leállhat a fejlesztés. Ezek azok a tényezők, amelyeket a megfelelő szoftver kiválasztásakor figyelembe kell venni. 5 The R programming language

http://www.tiobecom/indexphp/paperinfo/tpci/Rhtml 15. oldal Ajánlott irodalom [1] ERIC S. RAYMOND, 2004: A katedrális és a bazár – Egy botcsinálta forradalmár gondolatai a Linuxról és a nyílt forráskódú programokról, Kiskapu Kiadó Felhasznált irodalom [1] DR. BODON FERENC 2010: Adatbányászati algoritmusok, tanulmány http://www.csbmehu/~bodon/magyar/adatbanyaszat/tanulmany/indexhtml [2] Data Mining: What is Data Mining? http://www.andersonuclaedu/faculty/jasonfrand/teacher/technologies/palace/data mining.htm [3] ALEXANDER FURNAS, 2012: Everything You Wanter to Know About Data Mining but Were Afraid to Ask http://www.theatlanticcom/technology/archive/2012/04/everything-you-wanted-toknow-about-data-mining-but-were-afraid-to-ask/255388/ [4] LINUX IPARI SZÖVETSÉG: Mi a szabad szoftver és a nyílt forráskód közötti különbség? http://www.lipszhu/tudasbazis/212-mi-a-szabad-szoftver-es-a-nyilt-forraskodkoezoetti-kueloenbseghtml [5] FSF.HU: Mi a szabad

szoftver? http://fsf.hu/about/mivel-foglalkozunk/mi-a-szabad-szoftver/ Felhasznált kutatások [1] KDNUGGETS: What Analytics, Data mining, Big Data software you used in the past 12 months for a real project? (May, 2012) http://www.kdnuggetscom/polls/2012/analytics-data-mining-big-data-softwarehtml [2] KDNUGGETS: Data Mining/Analytic Tools Used (May, 2011) http://www.kdnuggetscom/polls/2011/tools-analytics-data-mininghtml [3] TIOBE SOFTWARE: TIOBE Programming Community Index for November 2012 http://www.tiobecom/indexphp/content/paperinfo/tpci/indexhtml 16. oldal