A mai digitális világban a keletkező és tárolt adatok mennyisége a korábbi adatoknál, információknál nagyságrendekkel nagyobb. Ezeket az adatokat az angol nyelvből átvéve „big data”-nak is hívjuk. Az ezzel kapcsolatos adatcsere forma az adatgazdaság. Ekkora mennyiségű adat elemzése a már megszokott módon nem kivitelezhető, emiatt új adatelemzési módszereket kell alkalmazni.
Ha az internet világából indulunk ki, akkor egy egyszerű weboldal esetén is rengeteg adatot lehet gyűjteni különböző programokkal. Látogatottsági számok, a látogatók viselkedése a weboldalon, hőtárképek, kattintási, vásárlási, űrlap kitöltési statisztikák stb. Ha ezeket nem egy weboldalra nézzük, hanem az összesre, akkor az adatok mennyisége azonnal hatalmas lesz. Ilyen nagy mennyiségű adatokhoz speciális adatbázisok és speciális elemző szoftverek kellenek.
A nagy mennyiségű adatokat mindig célirányosan érdemes elemezni. Az általános elemzések is hasznosak, de ha pontos és jól használható eredményeket szeretnénk kapni, akkor egyedi elemzések elkészítésére lesz szükség. Az elemzések általában adattisztítással kezdődnek. Ez azt jelenti, hogy azokat az értékeket, melyek mérési hiba miatt keletkeztek, ki kell venni az adatok közül, nem kell őket figyelembe venni. Hasonló a helyzet azzal is, ha több adat halmazát vizsgáljuk, és egyes halmazok kiugróan túl kevés vagy túl sok mintavétellel rendelkeznek.