EMODnet · rubenpp7 · Nov 6, 2024 · Nov 5, 2024 · Nov 5, 2024 · Nov 5, 2024
diff --git a/.github/workflows/action_BODC_table_generator.yml b/.github/workflows/action_BODC_table_generator.yml
@@ -41,7 +41,7 @@ jobs:
       # Step 3: Install required dependencies
       - name: Install dependencies
         run: |
-          pip install pandas pysema requests numpy
+          pip install pandas pysema requests numpy unidecode
 
       # Step 4: Run the Python script that generates the table
       - name: Run table generator script

diff --git a/data/BODCparameters.rda b/data/BODCparameters.rda
diff --git a/data/BODCunits.rda b/data/BODCunits.rda
diff --git a/data/BODCvalues.rda b/data/BODCvalues.rda
diff --git a/files/BODC_tables_generator.py b/files/BODC_tables_generator.py
@@ -5,6 +5,7 @@
 import numpy as np
 import ast
 import datetime
+from unidecode import unidecode
 
 # Get the parent directory of the current script
 current_dir = pathlib.Path(__file__).parent.resolve()
@@ -27,6 +28,10 @@ def execute_to_df(name: str, **vars) -> pd.DataFrame:
     result: kg.QueryResult = NSV.query(sparql=sparql)
     return result.to_dataframe()
 
+def convert_to_ascii(df):
+    # Apply the function to each element in the DataFrame
+    return df.map(lambda x: unidecode(str(x)))
+
 valuesCollectionList = ['L22', 'L05', 'F02', 'C17', 'S13', 'S11', 'S10', 'S09', 'M20', 'M21', 'M24', 'L06']
 parametersCollectionList = ['Q01', 'P01', 'P02', 'P35']
 
@@ -42,6 +47,7 @@ def execute_to_df(name: str, **vars) -> pd.DataFrame:
 	BODCunits = execute_to_df("nsv-listing.sparql", cc="P06")
 	BODCunits = BODCunits[['id', 'pref_lang', 'alt', 'depr', 'member']]
 	BODCunits.columns = ['identifier', 'preflabel', 'altLabel', 'deprecated', 'uri']
+	BODCunits=convert_to_ascii(BODCunits)
 	BODCunits.to_csv(bodc_units_file, index=False)
 
 	# Clean up old files, keep latest 3
@@ -88,6 +94,7 @@ def execute_to_df(name: str, **vars) -> pd.DataFrame:
 		BODCvalues=pd.concat([BODCvalues,pd.DataFrame.from_dict([newRow])])
 	BODCvalues=BODCvalues.reset_index()      
 	BODCvalues=BODCvalues.drop(columns='index')  
+	BODCvalues=convert_to_ascii(BODCvalues)
 	BODCvalues.to_csv(bodc_values_file,index=False)
      	# Clean up old files, keep latest 3
 	filesList = sorted([f for f in checkpoint_path.iterdir() if 'BODCvalues' in f.name], reverse=True)
@@ -135,6 +142,7 @@ def execute_to_df(name: str, **vars) -> pd.DataFrame:
 	BODCparameters.loc[rowNumber,'uri']="http://dd.eionet.europa.eu/vocabulary/biodiversity/eunishabitats/"
 
 	# Final save
+	BODCparameters=convert_to_ascii(BODCparameters)
 	BODCparameters.to_csv(bodc_parameters_file, index=False)
 	# Clean up old files, keep latest 3
 	filesList = sorted([f for f in checkpoint_path.iterdir() if 'BODCparameters' in f.name], reverse=True)

diff --git a/files/BODCparameters_20240920.csv → files/BODCparameters_20241105.csv b/files/BODCparameters_20240920.csv → files/BODCparameters_20241105.csv
diff --git a/files/BODCparameters_20240918.csv → files/BODCparameters_20241106.csv b/files/BODCparameters_20240918.csv → files/BODCparameters_20241106.csv
diff --git a/files/BODCunits_20240918.csv → files/BODCunits_20241105.csv b/files/BODCunits_20240918.csv → files/BODCunits_20241105.csv
diff --git a/files/BODCunits_20240920.csv → files/BODCunits_20241106.csv b/files/BODCunits_20240920.csv → files/BODCunits_20241106.csv
diff --git a/files/BODCvalues_20240920.csv → files/BODCvalues_20241105.csv b/files/BODCvalues_20240920.csv → files/BODCvalues_20241105.csv
diff --git a/files/BODCvalues_20240918.csv → files/BODCvalues_20241106.csv b/files/BODCvalues_20240918.csv → files/BODCvalues_20241106.csv