Jun 3

在工作中,遇到一些大图,甚至是超大图,对于大于6M的jpg图片,不得不优化一下,大图片的数量非常多,存在于不同数字编号目录里。

这里,要解决几个问题,

一、查找大于6M的jpg图片 我想到了find命令

二、分批处理与终止条件 要处理的图片实在是太多了,命令一运行,不知道连续多少天才能完成

三、备份源图片 复制就行了

四、图片优化程序的选择 必须是命令行的。我找到了jpegoptim,非常不错

五、经过优化的图片还是大于6M怎么办?不再优化!因为再处理的话,图片会严重失真,不符合要求。

六、多台机器同时处理 (未解决,文件锁问题)

 

问题二和三是紧密相连的

先说终止条件,有两种方法去终止这个脚本

1、用户输入要处理的大图数量,如100个,当处理完100个时,自然终止

2、当前处理数量小于用户输入数时,按^+C来终止,并手动把最后处理的一个文件从备份目录剪切到源目录

分批处理问题:以用户输入数为上限( 为何是上限?待处理大图未必有用户输入的那么多)

下次运行脚本时,如果有备份,就不处理已经备份的图片。

至此,全部问题得到解决。

以下附上脚本

#!/bin/bash
# by Daniel Chow @speedup2010
# v2 2012年06月 2日 星期六  2:44:05
# v3 2012年06月 2日 21:41:57
# v4 不知道跑哪去了。
# v5 2012年06月 3日 星期日 14:08:05
# 一次处理 n个大图

#bak_path=/cygdrive/b
#disk_x=/cygdrive/a
bak_path=/cygdrive/d/kingston/disk_b
disk_x=/cygdrive/d/kingston/disk_a
help(){
        echo -e "\033[31m\n\t大哥/大姐,不带这样玩的!!!\033[0m\n\t随便输入个正数吧"
        exit 0
}
if [ $# -eq 1 -a $1 -gt 0 ];then {
        echo -e "\n\t本次最多处理$1个文件"
        echo -ne "\033[31m
  \t欲终止,在显示\033[34mExif\033[31m时,按CTRL+C,\n
  \t并把最后处理的一个文件从备份目录剪切到源目录\n\n"
        echo -ne "\033[32m\t源目录:$disk_x\n
  \t备份目录:$bak_path\n
  \t源目录文件\t->\t备份文件\n"
        echo -ne "\033[0m"
        [ $PWD == $disk_x ] || cd $disk_x
        count=1
        for large_img in `find ????????? -iname "*.jpg" -size +6M -type f`;do {
                while [ ! -f $bak_path/$large_img ];do {
                        chah=${large_img%%/*}
                        [ ! -d $bak_path/$chah ] && mkdir -v $bak_path/$chah
                        cp $large_img $bak_path/$chah -v && jpegoptim --max=60 $large_img && count=`expr $count + 1 `
                        [ $count -gt $1 ]  && break 2
                        }
                done
        }
                        done;
        total_m=`expr $count - 1` && echo -e "\n\t处理了$total_m个文件\n"
        }
else
        help
fi
May 26

不得不赞叹,cygwin 是神器! 跟实机linux没有什么差别,除了文件系统和别的一些特性外。

现在看来,相对比较合理的脚本有几个。当然,合理只是从算法方面来说,优化还不行。

总之,代码随时都要能跑起来,这是首要考虑因素。

 

上传并统计

 

#!/bin/bash
# 功能:从本地复制jpg图片到服务器"待修图"目录
# by Daniel Chow @speedup2010
# v1 2012年05月21日 星期一 22:58:31
# v3 2012年05月24日 星期四 20:50:17
# E 表示E盘
# W 表示W盘
_source=/cygdrive/E/$1/
#_des=/cygdrive/W/
_des=/cygdrive/W/
_log=${_source%/}
# 统计函数
count (){
_source=/cygdrive/E/$1
_log=$_source
if [ $# -eq 1 -a -d $_source ];then {
	cd $_source
	[ -f total.txt ] && rm -f total.txt
	[ -f conflicts.txt ] && rm conflicts.txt
	c_dir=$(echo ${PWD##/cygdrive/} | sed 's/\//:\\/;s/\//\\/g')
	echo  "当前目录==> $c_dir"
	echo -e "\n正在计算...\n"
	for _dir in *;do 
		echo -en "\t$_dir \t`ls -l $_dir | grep "^-" | wc -l`\n" >>$_log/total.txt;
	done
	sum_dir=$(sort $_log/total.txt | uniq | wc -l)
	echo  -e "\t目录\t    文件数">$_log/tmp.txt
	sort $_log/total.txt | uniq >>$_log/tmp.txt
	mv $_log/{tmp,total}.txt 
	echo -e "\n总计:\t$sum_dir\t        $(awk '{sum_files+=$2};END{print sum_files}' $_log/total.txt)">>$_log/total.txt
	echo -e "\n\t文件数统计\t\t \n`cat $_log/total.txt`\n"
}
fi
}
# 文件复制部分
copy (){ 
ls $_source/*/*.jpg 1>2 2>/dev/null && exist=T || exist=F 
if [ $# -eq 1 -a -d $_source -a $exist == T ];then {
	cd $_source
	c_dir=$(echo ${PWD##/cygdrive/} | sed 's/\//:\\/;s/\//\\/g')
	echo  "当前目录==> $c_dir"
	echo  -e "\n正在复制...\n"
	counter=0
	for files in */*.jpg;do 
		_dir=${files%%/*}
		if [ -f $_des$files ];then
			echo "文件 $_des$files 已经存在">>$_log/conflicts.txt
		elif [ ! -d $_des$_dir ];then
			echo -e "目录 $_des$_dir 不存在" >>$_log/conflicts.txt 
		elif [  -d $_des$_dir ];then
			cp $_source/$files  $_des$_dir -nv && counter=`expr $counter + 1`
		fi
	done
	echo -e "\n已经复制了$counter个文件\n"
	sort $_log/conflicts.txt | uniq >>$_log/tmp.txt
	mv $_log/{tmp,conflicts}.txt 
	echo -e "\n\t未复制目录/文件\t\t \n"
	content=`cat $_log/conflicts.txt`
	echo "$content" | sed 's/\/cygdrive\///' | sed 's/\//:\\/;s/\//\\/g'
	
}
elif [ $exist == F ];then
	echo "目录 $c_dir 没有jpg文件"
else
	echo -e "\t用法:\n\tupload 待复制目录(需有子目录)\n\t默认E盘,非E盘修改E为所需盘\n"
fi
}
count $1
copy $1

重命名脚本

 

#!/bin/bash
# by Daniel Chow @speedup2010
# 批量命名文件
# v1 2012年05月24日 星期四 19:53:03
# 下一版本加入转化utf8,省去第二步
# v2 2012年05月25日 星期五 11:14:57
# v3 2012年05月25日 星期五 21:19:39
help(){
	script_name=$1
	script_name=`echo ${script_name##*/}`
	script_name=`echo ${script_name%%.sh}`
	# 这里的sql只是一个文件名的作用
	echo -e "\t用法: $script_name sql\n
	运行之前,先进行下面操作\n
	把数据库相应的表导出为excel,另存为以制表符为分隔的txt文档\n"
	# 2、打开刚刚所保存的txt文档,另存为UTF-8的格式,sql为文件名,保存目录为pic\n
}

if [ $# = 1 -a -f $1.txt ];then {
	_dir=~/img
	sql=$1
	TMP=tmp
	[ $PWD == $_dir ] || cd $_dir
	[ -f $TMP.txt ] && rm $TMP.txt
	iconv -f gbk -t utf-8 $sql.txt | grep -o '[0-9]\{8\}\.jpg.*是' | awk '$2!=0{print $2"\t"$1};$2==0{print $3"\t"$1}' | sort -g >>$TMP.txt
	count=0
	for var in *.jpg;do 
		page=${var%%.jpg}; 
		fn=`sed -n "/^$page\t/p" $TMP.txt | awk '{print $2}'`;
		char=`echo $page | wc -c`
		if [ $char -le 3 ];then
		mv -v $page.jpg $fn && count=`expr $count + 1`
		#rm $TMP.txt $sql.txt
		else 
			echo "file: $page.jpg have nothing to do"
		fi
	done
rm $TMP.txt 
echo "rename $count files ok"
}
elif [ ! -f $1.txt ];then
	echo -e "\nerror: $1.txt does no exist\n
	please do step 1 & step 2, and then run speed later. \n"
		help
else 
	help
fi

复制文件到本地

 

#!/bin/bash
# by Daniel Chow @speedup2010
# v1 modified 2012-5-21 12:32
# 修改了参数位置使之与ncopy一致
# 下个版本,应该是会加入从服务器最终图片复制到本地的功能的
begin=$3
end=$4
_dir=/cygdrive/$1/$2
ext=.jpg
if [ $# == 4 ];then {
	cd $_dir
	if [ $begin -le $end -a -f $begin$ext -a -f $end$ext ];then {
		total_pages=`expr $end - $begin + 1`
		echo -e	"syntax: copy w/y 号 开始页 结束页 \n"
		echo -e "\n当前目录$PWD\n从$2复制到pic目录: $begin 到 $end ,共 $total_pages 个\n"
		counter=0
		for page in `seq $begin $end`;do 
			cp $page$ext ~/pic -v && counter=`expr $counter + 1 `
		done
		[ $1 == w ] && echo -e "\n从未修图${_dir##*/}复制了$counter个" 
		[ $1 == y ] && echo -e "\n从已修图${_dir##*/}复制了$counter个"
	}
	fi
}
else 
	echo -e "\n\tcopy使用方法:\n
	功能: 从未/已修图中复制连续文件到pic目录\n
	copy w/y 号 开始页 结束页 \n
	eg1: copy w 110111224 9 20 从未修图110111224复制9到20到pic
	eg2: copy y 110111224 9 20 从已修图110111224复制9到20到pic\n
	notice:\n
	1.开始页<=结束页
	2.如果没有文件,表明文件在子目录,号应该这样输110111224/110111224"
fi
May 12

因为扫描图片要依页面来命名文件,扫描软件不支持逆序(或者叫做递减)命名的方式,所以必须要有一个操作,要么是把顺序乱的纸张排序过再扫描,要么先扫描再重新命名。如果让我来做,我选择后者,我不想给纸张重新排序

这个脚本做的事情是:1、修改文件拓展名大小写 2、反转文件名 ,如下:

$ ./rename_new.sh 100 105
第 100 页到第 105 页反转命名,共 6 页

100 --> 105
105 --> 100
101 --> 104
104 --> 101
102 --> 103
103 --> 102

#/bin/bash
unset origin
unset new
if [ $# == 2 -a $1 -lt $2 ];then {
begin=$1
end=$2
foot=`expr $end - $begin`
pages=`expr $foot + 1`
echo -e "第 $begin 页到第 $end 页反转命名,共 $pages 页\n"
# 定义旧文件序号
for i in `seq $begin $end`;do
        origin=(${origin[*]} $i);
#       echo ${origin[*]};
done

# 定义新文件序号
for j in `seq $begin $end |tac`;do
        new=(${new[*]} $j);
#       echo ${new[*]};
done
# 命名语句
for rename in `seq 0 $foot`;do
        if [ ${origin[$rename]} == ${new[$rename]} ];then
                echo -e "${origin[$rename]} = ${new[$rename]} 文件无需重命名"
        else
                echo ${origin[$rename]}' -->' ${new[$rename]}
        fi
done
}
else
echo -e "使用方法:\n
rename.sh 开始页码 结束页码\n
如 rename.sh 1 20 表示反转命名1到20页的文件\n
注意:开始页码要小于结束页码"
fi
#/bin/bash
# by Daniel Chow
unset small
unset big
ext=.jpg
begin=$1
end=$2
# 把所有大写转成小写
for small in `seq $begin $end`;do
        #echo $small;
        if [ -f $small.JPG ];then
        mv $small.JPG $small.jpg
        fi
done
# md5sum will be in next ver
if [ $# == 2 -a $1 -lt $2 -a -f $1.jpg -a -f $2.jpg ];then {
        sum=`expr $end + $begin`
        pages=`expr $end - $begin + 1`
        mid=`expr $sum / 2`
        echo -e "第 $begin 页到第 $end 页反转命名,共 $pages 页\n"

        for small in `seq $begin $end`;do
                big=`expr $sum - $small`
                #echo $big
                if [ $small -le $mid -a $small -ne $big ];then {
                        mv $big$ext var$ext
                        echo $small' -->' $big
                        mv $small$ext $big$ext
                        echo $big' -->' $small
                        mv var$ext $small$ext
                }
                else {
                        if [ $small == $big ];then
                        echo -e "$small is in the middle, no need to rename"
                        fi
                }
                fi
        done
#       md5sum *.jpg >big.txt
#       sed -i "s/ .*//g" small.txt big.txt
#       tac big.txt>mid.txt
#       cat mid.txt >big.txt
#       rm mid.txt -f
#       diff small.txt big.txt && echo "重命名成功"
}
else
        echo -e "使用方法:\n
        rename.sh 开始页码 结束页码\n
        如 rename.sh 1 20 表示反转命名1到20页的文件\n
        注意:开始页码要小于结束页码"
fi

第二版已经纠正第一版的错误,第一版不是有效的算法。使用了两个for 循环,一个是解决大小写问题(其实如果安装了rename,那变得更加简单,rename .JPG .jpg *.JPG),另一个的作用是重新命名,使用var.jpg作为中间过渡。