Merge pull request #21 from tokebe/load-delimitation

Load delimitation
tokebe · Jul 12, 2021 · 6d0b36e · 6d0b36e
2 parents d8fdef3 + 3fdf37f
commit 6d0b36e
Show file tree

Hide file tree

Showing 17 changed files with 538 additions and 2,670 deletions.
diff --git a/niclassify/core/StandardProgram.py b/niclassify/core/StandardProgram.py
@@ -223,7 +223,7 @@ def mp_delim(arg):
     # rename delims with order prefix
     delim = utilities.get_data(arg[3])
     delim["Delim_spec"] = arg[0] + delim["Delim_spec"].astype(str)
-    delim.to_csv(arg[3], sep="\t", index=False)
+    delim.to_csv(arg[3], index=False)
 
 
 def mp_ftgen(arg):
@@ -832,7 +832,7 @@ def split_by_taxon(self, taxon_split=None, create_align=False):
             delim_file = tempfile.NamedTemporaryFile(
                 mode="w+",
                 prefix="delim_{}_".format(taxon),
-                suffix=".tsv",
+                suffix=".csv",
                 delete=False,
                 dir=pool_dir.name
             )
@@ -841,7 +841,7 @@ def split_by_taxon(self, taxon_split=None, create_align=False):
             if delims is not None:
                 print(delims[delims["sample_name"].isin(pids)])
                 delims[delims["sample_name"].isin(pids)].to_csv(
-                    delim_file.name, sep="\t", index=False)
+                    delim_file.name, index=False)
 
             tree_file = tempfile.NamedTemporaryFile(
                 mode="w+",
@@ -920,7 +920,7 @@ def delimit_species(self, method="bPTP", tax=None, debug=False):
                     ignore_index=True,
                     sort=False
                 )
-        delim_merge.to_csv(self.delim_fname, sep="\t", index=False)
+        delim_merge.to_csv(self.delim_fname, index=False)
 
         pool_dir.cleanup()
 

diff --git a/niclassify/core/scripts/create_measures.R b/niclassify/core/scripts/create_measures.R
@@ -31,7 +31,7 @@ args <- commandArgs(trailingOnly = TRUE)
 seq_alignment<-read.FASTA(args[1], type="DNA")
 
 ## Pull in Species Assignments from FNAME_SPECIES ##
-speciesNames <- read_tsv(args[2])
+speciesNames <- read_csv(args[2])
 
 print(speciesNames)
 

diff --git a/niclassify/core/scripts/delim_tree.R b/niclassify/core/scripts/delim_tree.R
@@ -31,5 +31,5 @@ if (length(args) > 2) {
     # Run splits to delimit species
     GMYC <- gmyc(UPGMA)
     # Save results to given file
-    write_delim(spec.list(GMYC), args[3], delim = "\t")
+    write_csv(spec.list(GMYC), args[3])
 }
diff --git a/niclassify/core/utilities/ftprep_utils.py b/niclassify/core/utilities/ftprep_utils.py
@@ -79,7 +79,9 @@
     "dnaSim_med",
     "dnaSim_std",
     "dnaSim_min",
-    "dnaSim_max"
+    "dnaSim_max",
+    "index",
+    "level_0"
 ]
 
 
@@ -264,7 +266,7 @@ def delimit_species_bPTP(infname, outtreefname, outfname, debug=False):
         pd.DataFrame({
             "Delim_spec": species_expanded,
             "sample_name": samples_expanded
-        }).to_csv(outfname, sep="\t", index=False)
+        }).to_csv(outfname, index=False)
 
 
 def delimit_species_GMYC(infname, outtreefname, outfname, debug=False):
@@ -359,6 +361,8 @@ def generate_measures(fastafname, delimfname, outfname, debug=False):
     else:
         proc = subprocess.run(
             ftgen_call,
+            stdout=logfile,
+            stderr=logfile,
             env=os.environ.copy(),
             creationflags=(
                 0 if PLATFORM != 'Windows' else subprocess.CREATE_NO_WINDOW)

diff --git a/niclassify/core/utilities/general_utils.py b/niclassify/core/utilities/general_utils.py
@@ -174,32 +174,17 @@ def get_data(filename, excel_sheet=None):
                 # engine="python"
             )
 
-    elif ".csv" in os.path.splitext(filename)[1]:  # using csv
-        raw_data = pd.read_csv(
-            filename,
-            na_values=NANS,
-            keep_default_na=True,
-            engine="python"
-        )
-
-    elif ".tsv" in os.path.splitext(filename)[1]:  # using tsv
-        raw_data = pd.read_csv(
-            filename,
-            na_values=NANS,
-            keep_default_na=True,
-            sep="\t",
-            engine="python"
-        )
-
-    # using txt; must figure out delimiter
-    elif ".txt" in os.path.splitext(filename)[1]:
+    elif (os.path.splitext(filename)[1] in [".csv", ".tsv", ".txt"]):
+        # use python engine to guess separator each time
+        # because who trusts file extensions?
         raw_data = pd.read_csv(
             filename,
             na_values=NANS,
             keep_default_na=True,
             sep=None,
             engine="python"
         )
+
     else:  # invalid extension
         raise TypeError(
             "data file type is unsupported, or file extension not included")