教你轻松破解验证码

教你轻松破解验证码

今天好奇研究了一下百度的验证码,做了一个新的程序,做这个程序的目的完全是研究技术。
我不会去贴吧发广告,也请大家不要去发广告。

授人以鱼不如授人以渔,下面我简单介绍一下破解验证码的过程。

一、序
大家知道,破解验证码、图文识别都是技术开发的难题,人眼能轻易分别的字符,计算机却需要大量的计算,而且结果很难做到准确。就算是用C++来做,也是很费劲很难得到好的效果。不过在这里我们使用模拟精灵,可以很简单的完成图文识别,模拟精灵虽然大小不足1M、而且是绿色软件完全独立运行,却内置了大部份常用的类库,如模拟编程、WEB编程、windows编程、图像编程都可以轻松实现

二、下载验证码样本

打开c:\test文件夹,选“查看缩略图”,然后重复运行下面的LAScript脚本(每次更换验证码的网址),下载百度贴吧的所有验证码并存为样本,例如图片一,就改名为1.jpg

img = image.new();
–下载图像,没有后缀名要显示指定*.bmp格式
img:getURL(“/Article/UploadFiles/200508/20050831203413603.jpg”)
image.corp(img, 9 ,0 , 41 , 20 )
img:save(“c:\\test\\test.jpg”) –保存到硬盘

–折分图片,指定一行四列
img2,img3,img4,img5 = img:split(1,4);

img2:save(“c:\\test\\0001.jpg”)
img3:save(“c:\\test\\0002.jpg”)
img4:save(“c:\\test\\0003.jpg”)
img5:save(“c:\\test\\0004.jpg”)

image.del(img);

 

三、生成验证码样本数据库

运行下面的脚本,把所有的验证码样本保存到ApeML数据岛

codeKey ={};
–添加所有数字键
for i =0,9,1 do
codeKey[""..i] = 0; –这里我们用字符串连接的方法把数字转换为字符串
end;

–k参数为键,v参数表示值 一个典型的table迭代器回调函数
loadCodeKey = function(k,v)
local img = image.new();
img:load(“C:\\test\\”..k..”.jpg”)
codeKey[k]= string.encode( img:getBytes(“*.jpg”) , “”); –因为转换到字符串还是二进制,所以用base64进行编码
image.del(img);
end;

–遍历表codekey的所有元素,调用loadcodekey加载图片文件
table.foreach (codeKey, loadCodeKey);

–把所有图片保存到数据岛,
ape:saveTable(codeKey,”验证码样本”)

四、识别验证码

运行下面的脚本测试一下

–从数据区块读取base64编码的图片数据
codekey = ape:loadTable(“验证码样本”);
imgBinKey = {}; –这是一个图像数组,用来储存还原后的验证码样本的图片数据
–必须进行一个转换,因为codekey里面只是base64编码的普通字符串,而imgBinKey 将是真正的图片对象(二进制数据)

–还原到图片对象
toImage = function(k,v)
local img9 = image.new();
img9:setBytes( string.decode( v ,”") ,”*.jpg”);
imgBinKey[k] = img9;
end;
table.foreach(codekey,toImage);

–下载验证码图片
imgD = image.new();
if (imgD:getURL(“/Article/UploadFiles/200508/20050831203415539.jpg”) ~= true) then
win.messageBox(“下载图像失败”,”")
image.del(imgD)
do return false end;
end;

image.corp(imgD, 9 ,0 , 41 , 20 );
–使用split函数分割图片
img2,img3,img4,img5 = imgD:split(1,4);

function test(imgX)
limit = 1;
chr = “”;
win.messagePrint(“正在检测图片,请稍候….”)
testimg = function(k,v)

local n = imgX:testX(imgBinKey[k]);
if(nlimit = n;
chr = k..”";
end;
end;
table.foreach(imgBinKey,testimg);
return chr;
end;

win.messageBox(“验证码”.. test(img2)..test(img3)..test(img4)..test(img5),”")
五、小结
效果很不错,百分百的准确,唯一的遗憾是识别验证码的过程不是很快,在我电脑上估计要30秒左右,不过图像处理是需要一定的时间,基本上不防碍发信息的的效率。

随机日志

发表评论

0 评论.

Leave a Reply



[ Ctrl + Enter ]

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word

CNXCT小组的博客 is Stephen Fry proof thanks to caching by WP Super Cache