? Google duwt op met big data: Cloud Dataflow beta en BigQuery-update

Google lanceert een service genaamd Cloud Dataflow dat zich richt op pijpleidingen analyseren “willekeurig grote datasets.”

Kondigde afgelopen zomer, in alpha in december, Google’s Cloud Dataflow beheerde data-processing service is nu publiek beschikbaar als beta, met wat het bedrijf beschrijft als een betere elasticiteit en fine-tuning mechanismen.

De search-to-cloud gigant heeft onthulde ook nieuwe functies voor de Google BigQuery cloud analytics product, dat net als Cloud Dataflow ook deel uitmaakt van de Google Cloud Platform set van modulaire diensten.

BigQuery heeft nu een betere beveiliging en prestaties, met functies zoals rij-machtigingen voor eenvoudiger delen van gegevens, een hogere standaard inname limiet van 100.000 rijen per seconde per tafel, en geografische data isolatie voor bedrijven die gegevens die zijn opgeslagen in Google Cloud Platform Europese zones willen.

Het idee achter Cloud Dataflow is bedrijven gebruiken de SDK’s te gebruiken software die batch of streaming data-verwerking banen definieert schrijven. De dienst neemt vervolgens zorg voor het uitvoeren van de banen op de middelen van Google Cloud Platform, met behulp van technologieën zoals Compute Engine, Cloud Storage en BigQuery.

Google Cloud Dataflow product manager Eric Schmidt – een van de vele Google-medewerkers van die naam waaronder uitvoerend voorzitter Eric Schmidt Emerson – zei de verfijnde elasticiteit die de beta is van belang in het toestaan ​​van Google om resources dynamisch te schalen naar runtime behoeften een specifieke taak te voldoen.

Cloud Dataflow vult een belangrijk puzzelstukje in Google’s snel veranderende en groeiende cloud stack als het internet gigant blijft Amazon Web Services uit te dagen.

“In de alpha-modus is het goed als het systeem in een relatief statische omgeving, dat is wat mensen gewend zijn loopt. Maar we ze effectief zien, ‘Het duurde het 10 minuten om uw werk uit te voeren. U kunt nu het vijf minuten voor fundamenteel dezelfde kosten ‘. We zijn net de inzet van meer middelen en elastisch beheer ervan voor je,’ zei hij.

“Je kunt sneller te lopen, maar krijgen dezelfde nauwkeurigheid, en u de kosten te beheersen. Je kunt nu een cluster die op een intelligente autoscales te zetten.”

Schmidt zei dat de invoering van de juistheid controles Cloud Dataflow, waarvan de programmering model is volledig open-source, is zeer noodzakelijk voor het afstemmen van de nauwkeurigheid van streaming data.

“Batch systemen zijn zeer correct en betrouwbaar. We doen dat al jaren. Maar als je te verplaatsen naar de streaming wereld, de tijd wordt je vijand. De tijd stopt niet, zo berichten zijn afkomstig uit verschillende apparaten op verschillende datasnelheden , en je wilt ze te verwerken in real time, “zei hij.

“Maar de uitdaging is dat je bent nooit gegarandeerd dat alle gegevens die je nodig hebt, dat staat voor het raam van de tijd, omdat de upstream-systeem kan worden achterblijvende hebben. Iemands telefoon kan worden een moeilijke tijd, het wordt om een ​​rand knooppunt en die rand nodes tips over en het reboot of het wordt om een ​​toerbeurtsysteem en dat queuing systeem heeft een achterstand in. ”

Dus de vraag is wat er moet gebeuren met de gegevens die worden uitgesteld – wachten tot het inhaalt of toegeven dat de gegevens die is aangekomen en omgaan met de late data later?

“Het is een zeer specifieke concept, maar het is ook zeer krachtig. Het is een tekort aan vrijwel alle bestaande systemen,” zei Schmidt.

Hortonworks zegt dat het van plan is de portefeuille SequenceIQ op te nemen in de Hortonworks Data Platform en uiteindelijk de overgang van de technologie om de Apache Software Foundation.

Meer over big data

Hortonworks, IBM en Pivotal beginnen scheepvaart gestandaardiseerde Hadoop; MySQL Percona klikt up Tokutek te gaan naar MongoDB en NoSQL turf; DataStax’s Cassandra haperingen een ritje op HP’s Moonshot; Hortonworks verwerft SequenceIQ voor een snelle Hadoop in de cloud, Cloud machine learning oorlogen opwarmen; Pivotal wil feedback op open source Geode in-memory-database; MariaDB Corp neemt af snelheid knelpunten en verstevigt anti-SQL-injectie maatregelen; Werkdag’s Talent Insights beschikbaar is, is bedoeld om HR voorspellende maken

Social Enterprise; LinkedIn onthult haar nieuwe blogging platform; Big Data Analytics, Is dit de leeftijd van Big OLAP;? Big Data Analytics; DataRobot gericht op low-opknoping fruit van de gegevens wetenschap te automatiseren; Big Data Analytics; MapR oprichter John Schroeder treden naar beneden, COO te vervangen

De nieuwe juistheid controles in Cloud Dataflow bieden de opties van de verwerking laat arriverende data, maar met de mededeling dat het is te laat, te dumpen, opnieuw met meldingen, of het opbouwen en dan updaten antwoorden later.

Ook verkrijgbaar met de Cloud Dataflow beta wordt verbeterd werknemer, of virtuele machine, schalen en het beheer, volgens Schmidt, met een constante controle van de doorvoer van elke werknemer om achterblijvers, wiens werk kan dan worden herverdeeld spotten.

“Stel je voor dat een netwerkkaart op die machine gaat slecht, en pakjes werden gedropt, en de werktijden zijn steeds meer, of misschien uw werk code is het verwerken van een toets op een record en dat de belangrijkste structuur gebeurt super bizarre en het algoritme te zijn in uw code is langer nemen om te draaien, “zei hij.

Wat zou er gebeuren in een klassieke cluster milieu is deze zou blijven achterblijven en het hele podium zouden worden beïnvloed, dus hoewel sommige werknemers sneller werken kan niet compleet totdat alles is gedaan.

“Als je de elasticiteit te nemen en je het combineert met een werknemer optimalisatie, je hebt nu een model waarbij we de middelen die je betaalt voor zijn maximaliseren en we ook het minimaliseren van de klok.”

Potentiële use cases van Cloud Dataflow, die kan draaien in batch of streaming-modus over kleine of grote hoeveelheden data, variëren van mobiele game-ontwikkelaars, die moeten weten in de buurt van real-time of wat hebben ze net geduwd is nu veroorzaakt kritische gedrag van gebruikers , om toepassingen in de gezondheidszorg.

“De echte gebruik scenario’s komen neer op het volgende: mensen die willen ETL doen [extract, transformeren, belasting], verplaatsen van gegevens van punt A naar punt B en langs de weg willen iets doen om het te filteren, misschien anonimiseren is, verrijken met andere gegevens en dan misschien verhuizen naar ergens anders aan de analyse te doen of we kunnen ook doen de analyse voor u inline in de klassieke stijl MapReduce of continue analyse “, zegt Schmidt.

LinkedIn onthult haar nieuwe blogging platform

Is dit de leeftijd van Big OLAP?

DataRobot streeft naar laaghangend fruit van data science automatiseren

MapR oprichter John Schroeder treden naar beneden, COO te vervangen