mercoledì 20 luglio 2011

CassandraSF2011: Progresso e Futures

Posted by Ron Bodkin

Johnathan Ellis, CTO di DataStax e presidente del progetto per Cassandra Apache , keynoted a Cassandra SF 2011 .Risultati importanti per il progetto nel corso dell'ultimo anno sono un migliore supporto per il multi-dati implementazioni centro, ottimizzato le prestazioni in lettura, compreso il caching integrato e migliorato API client tra cui un linguaggio SQL-like CQL . La feature freeze per Cassandra 1.0 è prevista per ottobre 2011, sottolineando smalto - riparazione database efficiente, compressione storage, prestazioni ottimizzate e un linguaggio esteso CQL.

Oltre 450 persone sono venute a Cassandra SF 2011, circa il triplo rispetto allo scorso anno. Passando in rassegna le principali caratteristiche da Cassandra 0,7, Ellis ha osservato che la cache integrata è importante per consentire la coerenza della cache. Ha detto che le moderne JVM non gestiscono GC su cumuli più grandi di 8 GB, così hanno implementato una cache riga che utilizza la memoria nativa per la gestione della cache off mucchio, evitando problemi di GC. Il off mucchio memorizza nella cache i dati sotto forma di righe serializzati, in modo da Ellis ha detto che è in genere 4-8 volte più compatto di archiviazione di oggetti Java. Ellis ha detto che Cassandra le prestazioni in lettura è migliorata del 100% utilizzando una architettura di memoria mappata per evitare la copia dei dati sul percorso di lettura, permettendo prestazioni molto elevate per le applicazioni il cui lavoro stabilisce contenuta in RAM. Ellis ha indicato le tre scelte di design per prestazioni elevate a Cassandra:

  • si utilizza l'archiviazione strutturata di registro, buffer in memoria e poi lo fa lo streaming non scrive scritture casuali
  • ha un motore di concorrenti: non ci sono blocchi tabella o una riga, gli aggiornamenti vengono implementati con confronto e scambio - questo è necessario per supportare file di grandi dimensioni per le viste materializzate
  • può essere sintonizzato per eventuali coerenza o pensione completa, incluse le opzioni per avere successo quando c'è un quorum tra i nodi locali

Cassandra 0,7 è stato rilasciato nel gennaio 2011 e comprende:

  • la capacità di creare famiglie colonna senza nodi manualmente il riavvio
  • scadenza colonne per consentire l'eliminazione automatica dei vecchi dati
  • indici secondari che ora sono built-in (ma vedi anche i limiti di presentazione di Ed Anuff sul indicizzazione alla conferenza riportata da InfoQ)

Cassandra 0,8 è stato rilasciato nel giugno 2011 e di primo piano:

  • CQL - una variante semplificata SQL, che fornisce un'interfaccia di alto livello per le applicazioni client
  • Contatori - la capacità di incremento atomicamente colonne
  • Regolazione automatica della memoria per memtables: Ellis ha detto nelle precedenti versioni era facile overallocate memoria con conseguente crash JVM, ma è ora possibile avere centinaia o migliaia di famiglie colonna
  • Carico di interfaccia di massa

In una successiva conversazione tecnologia CQL creatore Eric Evans di Rackspace ha riconosciuto che CQL probabilmente non supportare più avanzati linguaggi come SQL query nidificate o unisce, perché Cassandra non può supportare in modo efficiente. Allo stesso modo, egli ha osservato che CQL potrebbe sostenere aggregatori (come min e somma), quando Cassandra supporta coprocessori.

Ellis ha preso atto delle seguenti caratteristiche per Cassandra 1.0:

  • CQL 1.1: aggiungerà il supporto per le colonne composte ei pareri redatti
  • Compressione: la presenza di dimensioni fila altamente variabile compressione rende più difficile per Cassandra. 1,0 sosterrà comprimere sia righe per blocco e blocchi per riga.
  • Compattazione: Cassandra sarà generalizzare l'approccio di Google leveldb avere al massimo 1 livello SSTable per che potrebbero avere i dati per una data chiave, con conseguente fonde caso peggiore di log ( n ) SSTables invece il caso peggiore attuale di n , dove ci sono n SSTables utilizzato per rappresentare una famiglia di pilastri.
  • Riparazione ottimizzazione: l'implementazione corrente può trasmettere e memorizzare i dati in eccesso, forse estenuante disco. In 1.0 sarà ottimizzato.
  • Leggi ottimizzazione: SSTables saranno ordinati in base al massimo (fornito dal cliente) timestamp per consentire risoluzione anticipata di fusioni, quando l'ultimo dei valori delle colonne richiesti sono stati trovati

Al di là di 1.0, Ellis ha detto che Cassandra sarà incentrata sulla facilità d'uso per gli sviluppatori. Ellis inoltre preso atto della disponibilità della Brisk (descritta da InfoQ in precedenza ) per consentire analisi di dati in tempo reale senza ETL. Ha anche menzionato Solandra , che è un cluster Solr costruito su Cassandra. Ellis ha detto che questi sono i primi due esempi di una tendenza di progetti più ampi di dati che sono costruiti in cima a Cassandra, una tendenza si aspetta di vedere di più in futuro.

Corso Java - Corsi Java - Corsi programmazione Java

Corso programmazione Android - Certificazione Android




Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.