biodatageeks
diff --git a/‎Docker/bdg-sequila-shiny/Dockerfile
+50 b/‎Docker/bdg-sequila-shiny/Dockerfile
+50
diff --git a/‎Docker/bdg-sequila-shiny/NA12878.slice.bam
356 KB b/‎Docker/bdg-sequila-shiny/NA12878.slice.bam
356 KB
diff --git a/‎Docker/bdg-sequila-shiny/warmcache.scala
+1 b/‎Docker/bdg-sequila-shiny/warmcache.scala
+1
diff --git a/‎Docker/bdg-sequila/Dockerfile
+18-1 b/‎Docker/bdg-sequila/Dockerfile
+18-1
diff --git a/‎Docker/bdg-sequila/bin/bdg-sequilaR.sh
+3-2 b/‎Docker/bdg-sequila/bin/bdg-sequilaR.sh
+3-2
diff --git a/‎Docker/bdg-sequila/bin/bdginit.scala
+9-6 b/‎Docker/bdg-sequila/bin/bdginit.scala
+9-6
diff --git a/‎build.sbt
+15-11 b/‎build.sbt
+15-11
diff --git a/‎build.sh
+1-1 b/‎build.sh
+1-1
diff --git a/‎build_docs.sh
+1-1 b/‎build_docs.sh
+1-1
diff --git a/‎docs/source/function/function.rst
+109 b/‎docs/source/function/function.rst
+109
@@ -0,0 +1,50 @@
+FROM rocker/shiny
+
+RUN apt-get update && apt-get install --yes git sudo curl libssl-dev libxml2-dev
+
+#install devtools
+RUN Rscript -e "install.packages('devtools')"
+
+#install sequila
+RUN Rscript -e "devtools::install_github('ZSI-Bio/bdg-sparklyr-sequila')"
+
+#install spark (installed by .onLoad when package loaded)
+RUN Rscript -e "library(sequila)"
+
+
+#install jdk8
+RUN apt-get install --yes gnupg2
+##A quick & dirty fix for failing Oracle JDK installer
+RUN if [ ! -d /usr/share/man/man1 ]; then  mkdir -p /usr/share/man/man1; fi
+RUN \
+   echo "===> add webupd8 repository..."  && \
+   echo "deb http://ppa.launchpad.net/webupd8team/java/ubuntu xenial main" | tee /etc/apt/sources.list.d/webupd8team-java.list  && \
+   echo "deb-src http://ppa.launchpad.net/webupd8team/java/ubuntu xenial main" | tee -a /etc/apt/sources.list.d/webupd8team-java.list  && \
+   apt-key adv --keyserver keyserver.ubuntu.com --recv-keys EEA14886  && \
+   apt-get update  && \
+   \
+   \
+   echo "===> install Java"  && \
+   echo debconf shared/accepted-oracle-license-v1-1 select true | debconf-set-selections  && \
+   echo debconf shared/accepted-oracle-license-v1-1 seen true | debconf-set-selections  && \
+   cd /var/lib/dpkg/info && \
+   DEBIAN_FRONTEND=noninteractive  apt-get install -y --force-yes oracle-java8-installer oracle-java8-set-default  && \
+   \
+   \
+   echo "===> clean up..."  && \
+   rm -rf /var/cache/oracle-jdk8-installer  && \
+   apt-get clean  && \
+   rm -rf /var/lib/apt/lists/*
+
+ENV JAVA_HOME /usr/lib/jvm/java-8-oracle
+
+#copy test data
+COPY NA12878.slice.bam /tmp/NA12878.slice.bam
+COPY warmcache.scala /tmp/warmcache.scala
+
+#sequila versions
+
+ARG BDG_VERSION 0.4-SNAPSHOT
+ENV BGD_VERSION 0.4-SNAPSHOT
+RUN /root/spark/spark-2.2.1-bin-hadoop2.7/bin/spark-shell --packages org.biodatageeks:bdg-sequila_2.11:${BGD_VERSION} \
+ -i /tmp/warmcache.scala --repositories https://zsibio.ii.pw.edu.pl/nexus/repository/maven-releases/,https://zsibio.ii.pw.edu.pl/nexus/repository/maven-snapshots/
@@ -0,0 +1 @@
+System.exit(0)
@@ -15,6 +15,13 @@ ENV BGD_VERSION={{COMPONENT_VERSION}}
 
 
 
+RUN apt-get update && apt-get install --yes git sudo curl libssl-dev libxml2-dev
+
+
+
+
+
+
 RUN mkdir /tmp/bdg-toolset
 
 ###once the repo is public we can use git instead
@@ -31,7 +38,7 @@ COPY bin/bdg-sequilaR.sh /tmp/bdg-toolset/bdg-sequilaR
 
 #featureCounts scripts
 COPY bin/featureCounts.sh /tmp/bdg-toolset/featureCounts
-RUN bash -c " if [[ $BDG_VERSION =~ *SNAPSHOT ]]; then \
+RUN bash -c " if [[ $BDG_VERSION =~ SNAPSHOT ]]; then \
     wget https://zsibio.ii.pw.edu.pl/nexus/repository/maven-snapshots/org/biodatageeks/bdg-sequila_2.11/${BGD_VERSION}/bdg-sequila_2.11-${BGD_VERSION}-assembly.jar -O /tmp/bdg-toolset/bdg-sequila-assembly-${BGD_VERSION}.jar ; \
     else wget https://zsibio.ii.pw.edu.pl/nexus/repository/maven-releases/org/biodatageeks/bdg-sequila_2.11/${BGD_VERSION}/bdg-sequila_2.11-${BGD_VERSION}-assembly.jar -O /tmp/bdg-toolset/bdg-sequila-assembly-${BGD_VERSION}.jar ; \
     fi"
@@ -105,11 +112,21 @@ RUN apt-get update \
 RUN Rscript -e 'source("http://bioconductor.org/biocLite.R")' -e 'biocLite("edgeR")'
 RUN Rscript -e 'source("http://bioconductor.org/biocLite.R")' -e 'biocLite("DESeq2")'
 
+#install devtools
+RUN Rscript -e "install.packages('devtools')"
+#install sequila
+RUN Rscript -e "devtools::install_github('ZSI-Bio/bdg-sparklyr-sequila')"
+
 USER tempuser
 
 WORKDIR /home/tempuser
 ##just to download all depencies and speedup start
 RUN bdg-shell -i /tmp/bdg-toolset/warmcache.scala build
 
+
+
+#install spark (installed by .onLoad when package loaded)
+RUN Rscript -e "library(sequila)"
+
 USER root
 ENTRYPOINT ["/usr/local/bin/entrypoint.sh"]
@@ -16,6 +16,7 @@ echo $BGD_VERSION
 echo -e "\n"
 
 rm -rf ~/metastore_db
-sparkR --packages org.biodatageeks:bdg-sequila_2.11:${BGD_VERSION} \
-  --repositories https://zsibio.ii.pw.edu.pl/nexus/repository/maven-releases/,https://zsibio.ii.pw.edu.pl/nexus/repository/maven-snapshots/  $@
+R
+#sparkR --packages org.biodatageeks:bdg-sequila_2.11:${BGD_VERSION} \
+#  --repositories https://zsibio.ii.pw.edu.pl/nexus/repository/maven-releases/,https://zsibio.ii.pw.edu.pl/nexus/repository/maven-snapshots/  $@
 
@@ -1,17 +1,20 @@
+import org.apache.spark.sql.SequilaSession
 import org.biodatageeks.utils.{SequilaRegister, UDFRegister}
 
 /*set params*/
 
-spark.sqlContext.setConf("spark.biodatageeks.rangejoin.useJoinOrder","false")
-spark.sqlContext.setConf("spark.biodatageeks.rangejoin.maxBroadcastSize", (128*1024*1024).toString)
+val ss = SequilaSession(spark)
 
-spark.sqlContext.setConf("spark.biodatageeks.rangejoin.minOverlap","1")
-spark.sqlContext.setConf("spark.biodatageeks.rangejoin.maxGap","0")
+ss.sqlContext.setConf("spark.biodatageeks.rangejoin.useJoinOrder","false")
+ss.sqlContext.setConf("spark.biodatageeks.rangejoin.maxBroadcastSize", (128*1024*1024).toString)
+
+ss.sqlContext.setConf("spark.biodatageeks.rangejoin.minOverlap","1")
+ss.sqlContext.setConf("spark.biodatageeks.rangejoin.maxGap","0")
 
 /*register UDFs*/
 
-UDFRegister.register(spark)
+UDFRegister.register(ss)
 
 /*inject bdg-granges strategy*/
-SequilaRegister.register(spark)
+SequilaRegister.register(ss)
 
@@ -2,7 +2,7 @@ import scala.util.Properties
 
 name := """bdg-sequila"""
 
-version := "0.3"
+version := "0.4-SNAPSHOT"
 
 organization := "org.biodatageeks"
 
@@ -42,13 +42,17 @@ libraryDependencies += "com.github.potix2" %% "spark-google-spreadsheets" % "0.5
 
 libraryDependencies += "ch.cern.sparkmeasure" %% "spark-measure" % "0.11"
 
-//fork := true
+//libraryDependencies += "pl.edu.pw.ii.zsibio" % "common-routines_2.11" % "0.1-SNAPSHOT"
+
+fork := false
 fork in Test := true
-parallelExecution in Test := false
+//parallelExecution in Test := false
 javaOptions in test += "-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"
-javaOptions in run ++= Seq(
-  "-Dlog4j.debug=true",
-  "-Dlog4j.configuration=log4j.properties")
+javaOptions in run += "-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"
+
+//javaOptions in run ++= Seq(
+//  "-Dlog4j.debug=true",
+//  "-Dlog4j.configuration=log4j.properties")
 
 javaOptions ++= Seq("-Xms512M", "-Xmx8192M", "-XX:+CMSClassUnloadingEnabled")
 
@@ -93,11 +97,11 @@ assemblyMergeStrategy in assembly := {
 }
 
 /* only for releasing assemblies*/
-artifact in (Compile, assembly) := {
-  val art = (artifact in (Compile, assembly)).value
-  art.withClassifier(Some("assembly"))
-}
-addArtifact(artifact in (Compile, assembly), assembly)
+//artifact in (Compile, assembly) := {
+//  val art = (artifact in (Compile, assembly)).value
+//  art.withClassifier(Some("assembly"))
+//}
+//addArtifact(artifact in (Compile, assembly), assembly)
 
 publishConfiguration := publishConfiguration.value.withOverwrite(true)
 
 
@@ -34,7 +34,7 @@ do
   #diffTs=`echo "$(date +%s) - $(git log -n 1 --pretty=format:%at ${dir})" | bc`
   #if [ $diffTs -lt $MAX_COMMIT_TS_DIFF ]; then
     cd $dir
-    docker build  -t $image:$version .
+    docker build --no-cache  -t $image:$version .
     docker build  -t $image:latest .
     if [[ ${BUILD_MODE} != "local" ]]; then
       docker push docker.io/$image:latest
 
@@ -10,7 +10,7 @@ cd docs && ./docs.sh html
 if [[ $version =~ SNAPSHOT ]]; then
     docker build -t zsi-bio/bdg-sequila-snap-doc .
     if [ $(docker ps | grep bdg-sequila-snap-doc | wc -l) -gt 0 ]; then docker stop bdg-sequila-snap-doc && docker rm bdg-sequila-snap-doc; fi
-    docker run -v 80:81 -d --name bdg-sequila-snap-doc zsi-bio/bdg-sequila-snap-doc
+    docker run -p 81:80 -d --name bdg-sequila-snap-doc zsi-bio/bdg-sequila-snap-doc
 else
     docker build -t zsi-bio/bdg-sequila-doc .
     if [ $(docker ps | grep bdg-sequila-doc | wc -l) -gt 0 ]; then docker stop bdg-sequila-doc && docker rm bdg-sequila-doc; fi
 
@@ -76,6 +76,55 @@ process and query them using a SQL interface:
          |
       """.stripMargin)
     spark.sql("SELECT sampleId,contigName,start,end,cigar FROM reads").show(5)
+
+Implicit partition pruning for BAM data source
+##############################################
+
+BAM data source supports implicit `partition pruning <https://docs.oracle.com/database/121/VLDBG/GUID-E677C85E-C5E3-4927-B3DF-684007A7B05D.htm#VLDBG00401>`_
+mechanism to speed up queries that are restricted to only subset of samples from a table. Consider a following example:
+
+.. code-block:: bash
+
+    MacBook-Pro:multisample marek$ ls -ltr
+    total 2136
+    -rw-r--r--  1 marek  staff  364043 May 15 18:53 NA12877.slice.bam
+    -rw-r--r--  1 marek  staff  364043 May 15 18:53 NA12878.slice.bam
+    -rw-r--r--  1 marek  staff  364043 May 15 18:53 NA12879.slice.bam
+
+    MacBook-Pro:multisample marek$ pwd
+    /Users/marek/data/multisample
+
+
+.. code-block:: scala
+
+    import org.apache.spark.sql.{SequilaSession, SparkSession}
+    val bamPath ="/Users/marek/data/multisample/*.bam"
+    val tableNameBAM = "reads"
+    val ss: SparkSession = SequilaSession(spark)
+     ss.sql(
+      s"""
+         |CREATE TABLE ${tableNameBAM}
+         |USING org.biodatageeks.datasources.BAM.BAMDataSource
+         |OPTIONS(path "${bamPath}")
+         |
+      """.stripMargin)
+
+    val query =
+      """
+        |SELECT sampleId,count(*) FROM reads where sampleId IN('NA12878','NA12879')
+        |GROUP BY sampleId order by sampleId
+      """.stripMargin
+     ss.sql(query)
+
+
+If you run the above query you should get the information that SeQuiLa optimized the physical plan  and will only read 2 BAM files
+instead of 3 to answer your query:
+
+.. code-block:: bash
+
+    WARN BAMRelation: Partition pruning detected,reading only files for samples: NA12878,NA12879
+
+
 Using UDFs
 ##########
 
@@ -258,3 +307,63 @@ Parameter is set via coniguration:
    spark.sqlContext.setConf("spark.biodatageeks.rangejoin.useJoinOrder", "true")
 
 
+Coverage
+##########
+
+In order to compute coverage for your sample you can run a set of queries as follows:
+
+.. code-block:: scala
+
+    val tableNameBAM = "reads"
+    val bamPath = "/data/samples/*.bam"
+    ss.sql("CREATE DATABASE dna")
+    ss.sql("USE dna")
+    ss.sql(
+            s"""
+               |CREATE TABLE ${tableNameBAM}
+               |USING org.biodatageeks.datasources.BAM.BAMDataSource
+               |OPTIONS(path "${bamPath}")
+               |
+          """.stripMargin)
+    ss.sql(s"SELECT * FROM coverage('${tableNameBAM}')").show(5)
+
+    +--------+----------+--------+--------+
+    |sampleId|contigName|position|coverage|
+    +--------+----------+--------+--------+
+    | NA12878|      chr1|     137|       1|
+    | NA12878|      chr1|     138|       1|
+    | NA12878|      chr1|     139|       1|
+    | NA12878|      chr1|     140|       1|
+    | NA12878|      chr1|     141|       1|
+    +--------+----------+--------+--------+
+
+If you would like to do additional short reads prefiltering, you can create a temporary table and use it as an input to the coverage function, e.g.:
+
+.. code-block:: scala
+
+    ss.sql(s"CREATE TABLE filtered_reads AS SELECT * FROM ${tableNameBAM} WHERE mapq > 10 AND start> 200")
+    ss.sql(s"SELECT * FROM coverage('filtered_reads')").show(5)
+
+    +--------+----------+--------+--------+
+    |sampleId|contigName|position|coverage|
+    +--------+----------+--------+--------+
+    | NA12878|      chr1|     361|       1|
+    | NA12878|      chr1|     362|       1|
+    | NA12878|      chr1|     363|       1|
+    | NA12878|      chr1|     364|       1|
+    | NA12878|      chr1|     365|       1|
+    +--------+----------+--------+--------+
+
+(Experimental WIP) If you are interested in coverage histograms using e.g. mapping quality you can use the following table valued function:
+
+.. code-block:: scala
+
+    ss.sql(s"SELECT * FROM coverage_hist('${tableNameBAM}') WHERE position=20204").show()
+
+    +--------+----------+--------+------------------+-------------+
+    |sampleId|contigName|position|          coverage|coverageTotal|
+    +--------+----------+--------+------------------+-------------+
+    | NA12878|      chr1|   20204|[1017, 0, 2, 0, 0]|         1019|
+    +--------+----------+--------+------------------+-------------+
+
+