Analyse en rapportage over de clickstream van wetenschappelijke portals van Elsevier, zoals http://sciencedirect.com en http://scopus.com

Omgeving

Elsevier ScienceDirect publiceert via haar website meer dan 7,000,000 artikelen voor abonnementhouders en biedt voor wetenschappers interessante functionaliteit. Abonnementhouders willen weten hoeveel er gebruik gemaakt wordt van deze electronische artikelen. Elsevier wil analyseren wie er gebruik van maken en hoe. Elke actie op de website(s) wordt gelogd en verwerkt in een extreem groot data warehouse (vele terabytes).

Maandelijks wordt aan de tienduizenden abonnementhouders gerapporteerd wat het gebruik op de website is geweest.

Medewerkers van Euclides hebben aan de basis gestaan bij het ontwerpen, bouw en implementatie van dit data warehouse. Euclides is gevraagd om te assisteren bij productie en verdere aanpassing van het data warehouse.

Enkele concrete opdrachten binnen deze samenwerking

  1. Assisteer het huidige projectteam bij het aanpassen en uitbreiden van het huidige data warehouse met een impactanalyse, bepaal de architectuuraanpassingen voor de aangepaste klant hiërarchie.
  2. Voer een proof of concept uit naar de bruikbaarheid en toegevoegde waarde van Sybase IQ als database engine. Beschrijf het resultaat in een business case.
  3. Assisteer bij het in productie houden tijdens de migratie en adviseer over aanpassingen om processen en tijdigheid te verbeteren.
  4.  Ontwikkel complexe ETL processen die de nieuwe geleverde abonnementsstructuur interpreteert en transformeert naar het nieuwe datamodel.

Uitwerking

  1. Met de klant bepaald welke aanpassingen aan de architectuur gewenst en nodig zijn. Op basis hiervan een aangepast datamodel ontwikkeld waarin de nieuwe structuren ondersteund worden, gericht op ongebruikelijk veel te verwerken data; meer dan 2,5Miljard rijen per maand(!) die in supergrote gecomprimeerde XML bestanden worden aangeleverd.
  2. Met de leverancier een groot deel van de gegevens gemigreerd naar SybaseIQ. ETL processen hierop aangepast. De business case kon niet worden gemaakt omdat de hoeveelheid procesaanpassingen te veel zouden kosten, ondanks grote snelheidsverbeteringen.
  3. Het bestaande productieteam kon de rapportages steeds vaker niet op tijd leveren. Door de inzet van kennis en kunde van Euclides en door enthousiasme en werklust is de achterstand ingelopen en wordt weer op tijd gerapporteerd.
  4. Doordat in de aanleverende systemen de structuur van de definities van klanten tamelijk rigoreus aangepast zijn is de levering van definities van de abonnementen geheel vernieuwd en in nieuwe uiterst complexe structuren aangepast. Euclides heeft het bouwen van de benodigde ETL gedaan.

Rol en werkzaamheden Euclides

  • Architect: Bepalen van kwaliteitseisen, aangepassingen architectuur en een business case voor mogelijke alternatieve database engine.
  • Data architect: Modelleren van nieuwe generieke structuren binnen het bestaande model, optimaliseren van het model voor performance, modelleren voor bruikbaarheid van de gegevens binnen de rapportagetool MicroStrategy. DBA/Beheerder: Assisteren van het productieteam bij het tijdig leveren van rapportages, adviseren over verbeterde inrichting van de processen, assisteren bij het in productie nemen van nieuwe hardware.
  • ETL ontwikkelaar: Ontwerpen en bouwen van uitzonderlijk complexe transformatie van geleverde gegevens.

Gerealiseerd effect

De ontwerpen en implementaties zijn op tijd en naar behoren opgeleverd, zodat het productie- en projectteam verder kan met beheer en realisatie.

Contact

Wilt u meer informatie? Neemt u dan contact met ons op via Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken. of bel met Martin Genuit, tel. +31 (0)6 304 18 297.

Euclides - de juiste beslissing.