fsspark -> fslite

bigbio · Sep 22, 2024 · 10ee2e8 · 10ee2e8
1 parent c2312c8
commit 10ee2e8
Show file tree

Hide file tree

Showing 31 changed files with 67 additions and 146 deletions.
diff --git a/docs/README.data.md b/docs/README.data.md
@@ -37,19 +37,21 @@ The following is an example of a TSV file with a binary response variable:
 - `import_table` - Import data from a TSV file into a Spark Data Frame (sdf).
 
 ```python
-from fsspark.utils.io import import_table
-sdf = import_table('data.tsv.bgz', 
-                    sep='\t', 
-                    n_partitions=5)
+from fslite.utils.io import import_table
+
+sdf = import_table('data.tsv.bgz',
+                   sep='\t',
+                   n_partitions=5)
 ```
 
 - `import_table_as_psdf` - Import data from a TSV file into a Spark Data Frame (sdf) and 
 convert it into a Pandas on Spark Data Frame (psdf).
 
 ```python
-from fsspark.utils.io import import_table_as_psdf
-psdf = import_table_as_psdf('data.tsv.bgz', 
-                            sep='\t', 
+from fslite.utils.io import import_table_as_psdf
+
+psdf = import_table_as_psdf('data.tsv.bgz',
+                            sep='\t',
                             n_partitions=5)
 ```
 
@@ -73,9 +75,9 @@ contains the response variable.
 #### How to create a Feature Selection Spark Data Frame (FSDF)
 
 ```python
-from fsspark.config.context import init_spark, stop_spark_session
-from fsspark.fs.core import FSDataFrame
-from fsspark.utils.io import import_table_as_psdf
+from fslite.config.context import init_spark, stop_spark_session
+from fslite.fs.core import FSDataFrame
+from fslite.utils.io import import_table_as_psdf
 
 # Init spark
 init_spark()

diff --git a/docs/README.methods.md b/docs/README.methods.md
@@ -53,4 +53,4 @@ A typical workflow written using `fsspark` can be divided roughly in four major
 
 ### 5. Feature selection pipeline example
 
-[FS pipeline example](../fsspark/pipeline/fs_pipeline_example.py)
+[FS pipeline example](../fslite/pipeline/fs_pipeline_example.py)
diff --git a/environment.yml b/environment.yml
@@ -1,4 +1,4 @@
-name: fsspark-venv
+name: fslite-venv
 channels:
   - defaults
   - conda-forge

diff --git a/fsspark/__init__.py → fslite/__init__.py b/fsspark/__init__.py → fslite/__init__.py
diff --git a/fsspark/config/__init__.py → fslite/fs/__init__.py b/fsspark/config/__init__.py → fslite/fs/__init__.py
diff --git a/fsspark/fs/constants.py → fslite/fs/constants.py b/fsspark/fs/constants.py → fslite/fs/constants.py
diff --git a/fsspark/fs/fdataframe.py → fslite/fs/fdataframe.py b/fsspark/fs/fdataframe.py → fslite/fs/fdataframe.py
diff --git a/fsspark/fs/methods.py → fslite/fs/methods.py b/fsspark/fs/methods.py → fslite/fs/methods.py
@@ -1,12 +1,12 @@
 from abc import ABC, abstractmethod
 from typing import List, Type, Union, Tuple, Optional, Dict, Any
 
-from fsspark.fs.constants import (ML_METHODS, UNIVARIATE_METHODS,
-                                  MULTIVARIATE_METHODS)
-from fsspark.fs.core import FSDataFrame
-from fsspark.fs.ml import MLCVModel
-from fsspark.fs.multivariate import multivariate_filter
-from fsspark.fs.univariate import univariate_filter
+from fslite.fs.constants import (ML_METHODS, UNIVARIATE_METHODS,
+                                 MULTIVARIATE_METHODS)
+from fslite.fs.core import FSDataFrame
+from fslite.fs.ml import MLCVModel
+from fslite.fs.multivariate import multivariate_filter
+from fslite.fs.univariate import univariate_filter
 
 
 class FSMethod(ABC):

diff --git a/fsspark/fs/ml.py → fslite/fs/ml.py b/fsspark/fs/ml.py → fslite/fs/ml.py
@@ -20,15 +20,15 @@
 from pyspark.ml.regression import RandomForestRegressionModel, RandomForestRegressor
 from pyspark.ml.tuning import CrossValidator, ParamGridBuilder, CrossValidatorModel, Param
 
-from fsspark.fs.constants import (RF_BINARY,
-                                  LSVC_BINARY,
-                                  FM_BINARY,
-                                  RF_MULTILABEL,
-                                  LR_MULTILABEL,
-                                  RF_REGRESSION,
-                                  FM_REGRESSION,
-                                  ML_METHODS)
-from fsspark.fs.core import FSDataFrame
+from fslite.fs.constants import (RF_BINARY,
+                                 LSVC_BINARY,
+                                 FM_BINARY,
+                                 RF_MULTILABEL,
+                                 LR_MULTILABEL,
+                                 RF_REGRESSION,
+                                 FM_REGRESSION,
+                                 ML_METHODS)
+from fslite.fs.core import FSDataFrame
 
 ESTIMATORS_CLASSES = [RandomForestClassifier, RandomForestRegressionModel, LinearSVC, LogisticRegression]
 EVALUATORS_CLASSES = [BinaryClassificationEvaluator, MulticlassClassificationEvaluator, RegressionEvaluator]

diff --git a/fsspark/fs/multivariate.py → fslite/fs/multivariate.py b/fsspark/fs/multivariate.py → fslite/fs/multivariate.py
@@ -6,11 +6,11 @@
 from pyspark.ml.feature import (VarianceThresholdSelector)
 from pyspark.ml.stat import Correlation
 
-from fsspark.fs.constants import MULTIVARIATE_METHODS, MULTIVARIATE_CORRELATION, MULTIVARIATE_VARIANCE
+from fslite.fs.constants import MULTIVARIATE_METHODS, MULTIVARIATE_CORRELATION, MULTIVARIATE_VARIANCE
 
-from fsspark.fs.core import FSDataFrame
-from fsspark.fs.utils import find_maximal_independent_set
-from fsspark.utils.generic import tag
+from fslite.fs.core import FSDataFrame
+from fslite.fs.utils import find_maximal_independent_set
+from fslite.utils.generic import tag
 
 logging.basicConfig(format="%(levelname)s (%(name)s %(lineno)s): %(message)s")
 logger = logging.getLogger("FSSPARK:MULTIVARIATE")

diff --git a/fsspark/fs/univariate.py → fslite/fs/univariate.py b/fsspark/fs/univariate.py → fslite/fs/univariate.py
@@ -5,7 +5,7 @@
 import pandas as pd
 from sklearn.feature_selection import SelectKBest, f_classif, f_regression
 
-from fsspark.fs.fdataframe import FSDataFrame
+from fslite.fs.fdataframe import FSDataFrame
 
 logging.basicConfig(format="%(levelname)s (%(name)s %(lineno)s): %(message)s")
 logger = logging.getLogger("FS:UNIVARIATE")

diff --git a/fsspark/fs/utils.py → fslite/fs/utils.py b/fsspark/fs/utils.py → fslite/fs/utils.py
@@ -6,8 +6,8 @@
 from networkx.algorithms.mis import maximal_independent_set
 from pyspark.ml.feature import Imputer
 
-from fsspark.fs.core import FSDataFrame
-from fsspark.utils.generic import tag
+from fslite.fs.core import FSDataFrame
+from fslite.utils.generic import tag
 
 logging.basicConfig(format="%(levelname)s (%(name)s %(lineno)s): %(message)s")
 logger = logging.getLogger("FSSPARK:UTILS")

diff --git a/fsspark/pipeline/fs_pipeline_example.py → fslite/pipeline/fs_pipeline_example.py b/fsspark/pipeline/fs_pipeline_example.py → fslite/pipeline/fs_pipeline_example.py
@@ -1,16 +1,16 @@
 """
-Example of a feature selection pipeline implemented in fsspark.
+Example of a feature selection pipeline implemented in fslite.
 
 After data import and pre-processing, the pipeline applies univariate correlation filter,
 multivariate correlation filter and Randon Forest classification.
 
 """
 
-from fsspark.config.context import init_spark, stop_spark_session
-from fsspark.fs.core import FSDataFrame
-from fsspark.fs.methods import FSPipeline, FSUnivariate, FSMultivariate, FSMLMethod
-from fsspark.utils.datasets import get_tnbc_data_path
-from fsspark.utils.io import import_table_as_psdf
+from fslite.config.context import init_spark, stop_spark_session
+from fslite.fs.core import FSDataFrame
+from fslite.fs.methods import FSPipeline, FSUnivariate, FSMultivariate, FSMLMethod
+from fslite.utils.datasets import get_tnbc_data_path
+from fslite.utils.io import import_table_as_psdf
 
 # Init spark
 init_spark(apply_pyarrow_settings=True,

diff --git a/fsspark/testdata/TNBC.tsv.gz → fslite/testdata/TNBC.tsv.gz b/fsspark/testdata/TNBC.tsv.gz → fslite/testdata/TNBC.tsv.gz
diff --git a/fsspark/testdata/TNBC_missing.tsv → fslite/testdata/TNBC_missing.tsv b/fsspark/testdata/TNBC_missing.tsv → fslite/testdata/TNBC_missing.tsv
diff --git a/fsspark/tests/__init__.py → fslite/tests/__init__.py b/fsspark/tests/__init__.py → fslite/tests/__init__.py
diff --git a/fsspark/tests/generate_big_tests.py → fslite/tests/generate_big_tests.py b/fsspark/tests/generate_big_tests.py → fslite/tests/generate_big_tests.py
diff --git a/fsspark/tests/test_data_preprocessing.py → fslite/tests/test_data_preprocessing.py b/fsspark/tests/test_data_preprocessing.py → fslite/tests/test_data_preprocessing.py
@@ -2,11 +2,11 @@
 
 import numpy as np
 
-from fsspark.config.context import init_spark, stop_spark_session
-from fsspark.fs.core import FSDataFrame
-from fsspark.fs.utils import compute_missingness_rate, remove_features_by_missingness_rate, impute_missing
-from fsspark.utils.datasets import get_tnbc_data_missing_values_path
-from fsspark.utils.io import import_table_as_psdf
+from fslite.config.context import init_spark, stop_spark_session
+from fslite.fs.core import FSDataFrame
+from fslite.fs.utils import compute_missingness_rate, remove_features_by_missingness_rate, impute_missing
+from fslite.utils.datasets import get_tnbc_data_missing_values_path
+from fslite.utils.io import import_table_as_psdf
 
 
 class TestDataPreprocessing(unittest.TestCase):

diff --git a/fsspark/tests/test_fs_pipeline.py → fslite/tests/test_fs_pipeline.py b/fsspark/tests/test_fs_pipeline.py → fslite/tests/test_fs_pipeline.py
@@ -1,10 +1,10 @@
 import unittest
 
-from fsspark.config.context import init_spark, stop_spark_session
-from fsspark.fs.core import FSDataFrame
-from fsspark.fs.methods import FSPipeline, FSUnivariate, FSMultivariate, FSMLMethod
-from fsspark.utils.datasets import get_tnbc_data_path
-from fsspark.utils.io import import_table_as_psdf
+from fslite.config.context import init_spark, stop_spark_session
+from fslite.fs.core import FSDataFrame
+from fslite.fs.methods import FSPipeline, FSUnivariate, FSMultivariate, FSMLMethod
+from fslite.utils.datasets import get_tnbc_data_path
+from fslite.utils.io import import_table_as_psdf
 
 
 class FeatureSelectionPipelineTest(unittest.TestCase):

diff --git a/fsspark/tests/test_fsdataframe.py → fslite/tests/test_fsdataframe.py b/fsspark/tests/test_fsdataframe.py → fslite/tests/test_fsdataframe.py
@@ -4,7 +4,7 @@
 from memory_profiler import memory_usage
 import gc
 
-from fsspark.fs.fdataframe import FSDataFrame
+from fslite.fs.fdataframe import FSDataFrame
 
 def test_initializes_fsdataframe():
 

diff --git a/fsspark/tests/test_import_export.py → fslite/tests/test_import_export.py b/fsspark/tests/test_import_export.py → fslite/tests/test_import_export.py
@@ -3,9 +3,9 @@
 import pyspark
 import pyspark.pandas as ps
 
-from fsspark.config.context import init_spark, stop_spark_session
-from fsspark.utils.datasets import get_tnbc_data_path
-from fsspark.utils.io import import_table, import_table_as_psdf
+from fslite.config.context import init_spark, stop_spark_session
+from fslite.utils.datasets import get_tnbc_data_path
+from fslite.utils.io import import_table, import_table_as_psdf
 
 
 class TestImportExport(unittest.TestCase):

diff --git a/fsspark/tests/test_ml_methods.py → fslite/tests/test_ml_methods.py b/fsspark/tests/test_ml_methods.py → fslite/tests/test_ml_methods.py
@@ -5,11 +5,11 @@
 from pyspark.ml.evaluation import (BinaryClassificationEvaluator,
                                    MulticlassClassificationEvaluator)
 
-from fsspark.config.context import init_spark, stop_spark_session
-from fsspark.fs.core import FSDataFrame
-from fsspark.fs.ml import MLCVModel
-from fsspark.utils.datasets import get_tnbc_data_path
-from fsspark.utils.io import import_table_as_psdf
+from fslite.config.context import init_spark, stop_spark_session
+from fslite.fs.core import FSDataFrame
+from fslite.fs.ml import MLCVModel
+from fslite.utils.datasets import get_tnbc_data_path
+from fslite.utils.io import import_table_as_psdf
 
 
 class MLMethodTest(unittest.TestCase):
@@ -145,7 +145,7 @@ def test_multilabel_lr_model(self):
         assert testing_acc > 0.7
 
     def test_FSMLMethod(self):
-        from fsspark.fs.methods import FSMLMethod
+        from fslite.fs.methods import FSMLMethod
 
         fsdf = self.import_FSDataFrame()
         training_data, testing_data = fsdf.split_df(split_training_factor=0.7)

diff --git a/fsspark/tests/test_univariate_methods.py → fslite/tests/test_univariate_methods.py b/fsspark/tests/test_univariate_methods.py → fslite/tests/test_univariate_methods.py
@@ -1,8 +1,8 @@
 import pandas as pd
-from fsspark.utils.datasets import get_tnbc_data_path
-from fsspark.fs.fdataframe import FSDataFrame
+from fslite.utils.datasets import get_tnbc_data_path
+from fslite.fs.fdataframe import FSDataFrame
 
-from fsspark.fs.univariate import univariate_filter
+from fslite.fs.univariate import univariate_filter
 
 def test_univariate_filter_corr():
     """

diff --git a/fsspark/fs/__init__.py → fslite/utils/__init__.py b/fsspark/fs/__init__.py → fslite/utils/__init__.py
diff --git a/fsspark/utils/datasets.py → fslite/utils/datasets.py b/fsspark/utils/datasets.py → fslite/utils/datasets.py
diff --git a/fsspark/utils/generic.py → fslite/utils/generic.py b/fsspark/utils/generic.py → fslite/utils/generic.py
diff --git a/fsspark/utils/io.py → fslite/utils/io.py b/fsspark/utils/io.py → fslite/utils/io.py
@@ -3,7 +3,7 @@
 import pyspark.pandas
 import pyspark.sql
 
-from fsspark.config.context import PANDAS_ON_SPARK_API_SETTINGS
+from fslite.config.context import PANDAS_ON_SPARK_API_SETTINGS
 
 warnings.filterwarnings("ignore")
 

diff --git a/fsspark/config/context.py b/fsspark/config/context.py
diff --git a/fsspark/config/global_settings.py b/fsspark/config/global_settings.py
diff --git a/fsspark/utils/__init__.py b/fsspark/utils/__init__.py
diff --git a/setup.py b/setup.py
@@ -4,7 +4,7 @@
     long_description = fh.read()
 
 setup(
-    name='fsspark',
+    name='fslite',
     version='0.0.1',
     url='https://github.com/bigbio/fsspark',
     license='Apache-2.0',
Original file line number	Diff line number	Diff line change
Expand Up		@@ -53,4 +53,4 @@ A typical workflow written using `fsspark` can be divided roughly in four major

		### 5. Feature selection pipeline example

		[FS pipeline example](../fsspark/pipeline/fs_pipeline_example.py)
		[FS pipeline example](../fslite/pipeline/fs_pipeline_example.py)