model_performance.R

# options(java.parameters = "-Xmx32g")
library(maptools)
library(raster)
library(dismo)
library(sp)
library(rJava)
library(readxl)
library(mapview)
library(ggplot2)
library(xlsx)
library(readxl)
library(ENMeval)
library(gridExtra)
library(dplyr)
library(ggpubr)
library(blockCV)


#Identify block size
latlong <- CRS("+proj=longlat +datum=WGS84")
SR.ORG8287 <- CRS('+proj=cea +lon_0=0 +lat_ts=0 +x_0=0 +y_0=0 +ellps=WGS84 +datum=WGS84 +units=m +no_defs') 
#import environmental variables
# Current
list.raster.full <- list.files("E:/Working/2018/PhD_research/enviromental_variables_new/current", full.names = T, pattern = ".tif")
predictors <- stack(list.raster.full)
names(predictors) <- c('bio1','bio10','bio11','bio12','bio13','bio14','bio15','bio16','bio17','bio18','bio19','bio2','bio3','bio4','bio5','bio6','bio7','bio8','bio9',
                       'cropland','decidous_forest','evergreen_forest','flooded_vegetation','grassland_scrub','karst','urban')
predictors <- subset(predictors, c("bio2","bio10","bio11","bio12","bio18","bio19",'cropland','decidous_forest','evergreen_forest','flooded_vegetation','grassland_scrub','karst','urban')) #select the important variables

#import occurrence data
vnbats.asia <- read_excel('E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/final_occurrences.xlsx', sheet = "Sheet1") # import bat occurence data
coordinates(vnbats.asia)= ~ decimalLongitude + decimalLatitude
crs(vnbats.asia) <- latlong
vnbats.asia <- spTransform(vnbats.asia, SR.ORG8287)

vnbats.asia.env <- raster::extract(predictors, vnbats.asia, df =T, na.rm=T, cellnumber =T)
vnbats.asia.env <- vnbats.asia.env[!is.na(as.character(vnbats.asia.env$bio2)),]#remove records without values
vnbats.asia <- vnbats.asia[vnbats.asia$cell_number%in%vnbats.asia.env$cells,]#remove records without environmental information

#import species list and select species have >= 20 records
species.list <- read_excel('E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/list of species.xlsx')
species.list <- species.list%>%filter(Num_occurence_all > 19)
nrow(species.list)

model.perfome <- data.frame(species.list$Scientific_name)
colnames(model.perfome) <- 'species'
model.perfome <- model.perfome%>%mutate(auc.m0.5=0,auc.m1=0,auc.m1.5=0,auc.m2=0,auc.m2.5=0,auc.m3=0,auc.m3.5=0,auc.m4=0,auc.m4.5=0,auc.m5=0)
vnbats.asia.env <- raster::extract(predictors, vnbats.asia, df =T, na.rm=T, cellnumber =T)
# vnbats.asia.env_2 <- vnbats.asia.env[!is.na(as.character(vnbats.asia.env$bio2)),]
# vnbats.asia.env_2 <- vnbats.asia.env_2[!is.na(as.character(vnbats.asia.env_2$karst)),]
# vnbats.asia.env_2 <- vnbats.asia.env_2[!is.na(as.character(vnbats.asia.env_2$forest)),]
# vnbats.asia.2 <- vnbats.asia[vnbats.asia$cell_number%in%vnbats.asia.env_2$cells,]#remove records without enviromental information

for(i in 1:length(species.list$Scientific_name)){
  sp <- species.list$Scientific_name[i]
  vnbats.asia$sp_validate <- ifelse(vnbats.asia$species==sp,1,0)
  sp.block <- cv_spatial(x = vnbats.asia,
                         column = 'sp_validate',
                        r = predictors,
                        size = 50000,
                        k = 5,
                        selection = "random",
                        iteration = 100)
    vnbats.asia$foldID <- sp.block$folds_ids
    sp.presence <- vnbats.asia[vnbats.asia$species==sp,]
    sp.absence <- vnbats.asia[vnbats.asia$species!=sp,]
    user.grp <- list(occs.grp = sp.presence$foldID, 
                     bg.grp = sp.absence$foldID)
    enviromental.presence <- raster::extract(predictors,sp.presence)
    enviromental.absence <- raster::extract(predictors,sp.absence)
    res <- ENMevaluate(occ = enviromental.presence, RMvalues = seq(0.5,5,0.5),tune.args = list(fc = c('LQH')),
                     partitions = 'user',user.grp = user.grp, bg.coords = enviromental.absence, 
                     parallel = T, numCores = 2, algorithm = "maxent.jar", clamp = F)
    model.perfome$auc.m0.5[i] <- res@results[res@results$rm==0.5,]$auc.val.avg
    model.perfome$auc.m1[i] <- res@results[res@results$rm==1,]$auc.val.avg
    model.perfome$auc.m1.5[i] <- res@results[res@results$rm==1.5,]$auc.val.avg
    model.perfome$auc.m2[i] <- res@results[res@results$rm==2,]$auc.val.avg
    model.perfome$auc.m2.5[i] <- res@results[res@results$rm==2.5,]$auc.val.avg
    model.perfome$auc.m3[i] <- res@results[res@results$rm==3,]$auc.val.avg
    model.perfome$auc.m3.5[i] <- res@results[res@results$rm==3.5,]$auc.val.avg
    model.perfome$auc.m4[i] <- res@results[res@results$rm==4,]$auc.val.avg
    model.perfome$auc.m4.5[i] <- res@results[res@results$rm==4.5,]$auc.val.avg
    model.perfome$auc.m5[i] <- res@results[res@results$rm==5,]$auc.val.avg
    print(sp)
}

write.xlsx(model.perfome, file = "E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/model performance_block_LQH.xlsx")

#model performance with LQ
model.perfome <- data.frame(species.list$Scientific_name)
colnames(model.perfome) <- 'species'
model.perfome <- model.perfome%>%mutate(auc.m0.5=0,auc.m1=0,auc.m1.5=0,auc.m2=0,auc.m2.5=0,auc.m3=0,auc.m3.5=0,auc.m4=0,auc.m4.5=0,auc.m5=0)

for(i in 1:length(species.list$Scientific_name)){
  sp <- species.list$Scientific_name[i]
  vnbats.asia$sp_validate <- ifelse(vnbats.asia$species==sp,1,0)
  sp.block <- cv_spatial(x = vnbats.asia,
                         column = 'sp_validate',
                         r = predictors,
                         size = 50000,
                         k = 5,
                         selection = "random",
                         iteration = 100)
  vnbats.asia$foldID <- sp.block$folds_ids
  sp.presence <- vnbats.asia[vnbats.asia$species==sp,]
  sp.absence <- vnbats.asia[vnbats.asia$species!=sp,]
  user.grp <- list(occs.grp = sp.presence$foldID, 
                   bg.grp = sp.absence$foldID)
  enviromental.presence <- raster::extract(predictors,sp.presence)
  enviromental.absence <- raster::extract(predictors,sp.absence)
  res <- ENMevaluate(occ = enviromental.presence, RMvalues = seq(0.5,5,0.5),tune.args = list(fc = c('LQ')),
                     partitions = 'user',user.grp = user.grp, bg.coords = enviromental.absence, 
                     parallel = T, numCores = 8, algorithm = "maxent.jar", clamp = F)
  model.perfome$auc.m0.5[i] <- res@results[res@results$rm==0.5,]$auc.val.avg
  model.perfome$auc.m1[i] <- res@results[res@results$rm==1,]$auc.val.avg
  model.perfome$auc.m1.5[i] <- res@results[res@results$rm==1.5,]$auc.val.avg
  model.perfome$auc.m2[i] <- res@results[res@results$rm==2,]$auc.val.avg
  model.perfome$auc.m2.5[i] <- res@results[res@results$rm==2.5,]$auc.val.avg
  model.perfome$auc.m3[i] <- res@results[res@results$rm==3,]$auc.val.avg
  model.perfome$auc.m3.5[i] <- res@results[res@results$rm==3.5,]$auc.val.avg
  model.perfome$auc.m4[i] <- res@results[res@results$rm==4,]$auc.val.avg
  model.perfome$auc.m4.5[i] <- res@results[res@results$rm==4.5,]$auc.val.avg
  model.perfome$auc.m5[i] <- res@results[res@results$rm==5,]$auc.val.avg
  print(sp)
}

write.xlsx(model.perfome, file = "E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/model performance_block_LQ.xlsx")

#plot model performance with different features types and regularization values
sum.LQ <- read_xlsx("E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/model performance_block_LQ.xlsx")
sum.LQH <- read_xlsx("E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/model performance_block_LQH.xlsx")
k <- length(sum.LQH$species)
auc <- c(sum.LQ$auc.m0.5,
         sum.LQ$auc.m1,
         sum.LQ$auc.m1.5,
         sum.LQ$auc.m2,
         sum.LQ$auc.m2.5,
         sum.LQ$auc.m3,
         sum.LQ$auc.m3.5,
         sum.LQ$auc.m4,
         sum.LQ$auc.m4.5,
         sum.LQ$auc.m5,
         sum.LQH$auc.m0.5,
         sum.LQH$auc.m1,
         sum.LQH$auc.m1.5,
         sum.LQH$auc.m2,
         sum.LQH$auc.m2.5,
         sum.LQH$auc.m3,
         sum.LQH$auc.m3.5,
         sum.LQH$auc.m4,
         sum.LQH$auc.m4.5,
         sum.LQH$auc.m5)
parameters <- c(rep('LQ_0.5',k),
                rep('LQ_1',k),
                rep('LQ_1.5',k),
                rep('LQ_2',k),
                rep('LQ_2.5',k),
                rep('LQ_3',k),
                rep('LQ_3.5',k),
                rep('LQ_4',k),
                rep('LQ_4.5',k),
                rep('LQ_5',k),
                rep('LQH_0.5',k),
                rep('LQH_1',k),
                rep('LQH_1.5',k),
                rep('LQH_2',k),
                rep('LQH_2.5',k),
                rep('LQH_3',k),
                rep('LQH_3.5',k),
                rep('LQH_4',k),
                rep('LQH_4.5',k),
                rep('LQH_5',k))
sum.perfome <- data.frame(parameters,auc)
auc.plot <- ggplot(sum.perfome, aes(x= reorder(parameters, auc, median), y=auc)) + 
  stat_summary(geom = "boxplot", 
               fun.data = function(x) setNames(quantile(x, c(0.0, 0.25, 0.5, 0.75, 1)), c("ymin", "lower", "middle", "upper", "ymax")), 
               position = "dodge")+
  theme_classic()+
  coord_flip()+ 
  xlab('Feature types and Regularization values')+ylab("AUC")+
  theme(text = element_text(size = 14), axis.text = element_text(size = 14), plot.title = element_text(hjust = 0))+
  geom_hline(yintercept=median(sum.LQH$auc.m2.5), linetype="dashed", color = "red")
ggsave(auc.plot, filename = 'E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/figures/AUC_regularization values.tiff',
       height = 20, width = 12, dpi = 300, units = 'cm')

#histogram AUC
figure.auc <- ggplot(sum.LQH, aes(x=auc.m2.5)) +
  geom_histogram(col='black', binwidth = 0.04)+
  labs(title="",x="AUC", y = "Number of species")+ theme_classic()+
  theme(axis.text=element_text(size=14),axis.title.x = element_text(size = 14),
        axis.title.y = element_text(size = 14))+
  geom_vline(xintercept = 0.7, color = 'red')

ggsave(figure.auc, filename = 'E:/Working/2018/PhD_research/SDM output R/10_7_23_Transboundary/figures/AUC_histogram.tiff', width = 10, height = 8, units = 'cm')

nrow(sum.LQH%>%filter(auc.m2.5 >= 0.7))