ACM在线测评系统评测程序设计与python实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ACM在线测评系统评测程序设计与python实现
写此⽂⽬的:
让外⾏⼈了解ACM,重视ACM。

让ACMer了解评测程序评测原理以便更好得做题。

让pythoner了解如何使⽤更好的使⽤python。

在讲解之前,先给外⾏⼈补充⼀些关于ACM的知识。

什么是ACM?
我们平常指的ACM是ACM/ICPC(国际⼤学⽣程序设计竞赛),这是由ACM(Association for Computing Machinery,美国计算机协会)组织的年度性竞赛,始于1970年,是全球⼤学⽣计算机程序能⼒竞赛活动中最有影响的⼀项赛事。

被誉为计算机界奥林匹克。

了解更多关于ACM的信息可以参考:
百度百科:
维基百科:
ACM国际⼤学⽣程序设计竞赛指南:
什么是ACM测评系统?
为了让同学们拥有⼀个练习和⽐赛的环境,需要⼀套系统来提供服务。

系统要提供如下功能:
⽤户管理
题⽬管理
⽐赛管理
评测程序
典型的ACM评测系统有两种
⼀种是C/S模式,典型代表是PC^2。

主要⽤在省赛,区预赛,国际赛等⼤型⽐赛中。

官⽹:
另⼀种是B/S模式,国内外有⼏⼗个类似⽹站,主要⽤于平常练习和教学等。

国内⽐较流⾏的OJ有:
杭州电⼦科技⼤学:
北京⼤学:
浙江⼤学:
⼭东理⼯⼤学:
评测程序是做什么的?
评测程序就是对⽤户提交的代码进⾏编译,然后执⾏,将执⾏结果和OJ后台正确的测试数据进⾏⽐较,如果答案和后台数据完全相同就是AC(Accept),也就是你的程序是正确的。

否则返回错误信息,稍后会详细讲解。

ACM在线测评系统整体架构
为了做到低耦合,我们以数据库为中⼼,前台页⾯从数据库获取题⽬、⽐赛列表在浏览器上显⽰,⽤户通过浏览器提交的代码直接保存到数据库。

评测程序负责从数据库中取出⽤户刚刚提交的代码,保存到⽂件,然后编译,执⾏,评判,最后将评判结果写回数据库。

评测程序架构
评测程序要不断扫描数据库,⼀旦出现没有评判的题⽬要⽴即进⾏评判。

为了减少频繁读写数据库造成的内存和CPU以及硬盘开销,可以每隔0.5秒扫描⼀次。

为了提⾼评测速度,可以开启⼏个进程或线程共同评测。

由于多线程/进程会竞争资源,对于扫描出来的⼀个题⽬,如果多个评测进程同时去评测,可能会造成死锁,为了防⽌这种现象,可以使⽤了⽣产者-消费者模式,也就是建⽴⼀个待评测题⽬的任务队列,这个队列的⽣产者作⽤就是扫描数据库,将数据库中没有评测的题⽬列表增加到任务队列⾥⾯。

消费者作⽤就是从队列中取出要评测的数据进⾏评测。

为什么任务队列能防⽌出现资源竞争和死锁现象?
python⾥⾯有个模块叫Queue,我们可以使⽤这个模块建⽴三种类型的队列:
FIFO:先进先出队列
LIFO:后进先出队列
优先队列
这⾥我们⽤到的是先进先出队列,也就是先被添加到队列的代码先被评测,保持⽐赛的公平性。

队列可以设置⼤⼩,默认是⽆限⼤。

⽣产者发现数据库中存在没有评测的题⽬之后,使⽤put()⽅法将任务添加到队列中。

这时候如果队列设置⼤⼩并且已经满了的话,就不能再往⾥⾯放了,这时候⽣产者就进⼊了等待状态,直到可以继续往⾥⾯放任务为⽌。

在等待状态的之后⽣产者线程已经被阻塞了,也就是说不再去扫描数据库,因此适当设置队列的⼤⼩可以减少对数据库的读写次数。

消费者需要从任务队列获取任务,使⽤get()⽅法,⼀旦某个线程从队列get得到某个任务之后,其他线程就不能再次得到这个任务,这样可以防⽌多个评测线程同时评测同⼀个程序⽽造成死锁。

如果任务队列为空的话,get()⽅法不能获得任务,这时候评线程序就会阻塞,等待任务的到来。

在被阻塞的时候评测程序可以被看做停⽌运⾏了,可以明显减少系统资源消耗。

队列还有两个⽅法:
⼀个是task_done(),这个⽅法是⽤来标记队列中的某个任务已经处理完毕。

另⼀个是join()⽅法,join⽅法会阻塞程序直到所有的项⽬被删除和处理为⽌,也就是调⽤task_done()⽅法。

这两个⽅法有什么作⽤呢?因为评测也需要时间,⼀个任务从队列中取出来了,并不意味着这个任务被处理完了。

如果没有处理完,代码的状态还是未评判,那么⽣产者会再次将这个代码从数据库取出加到任务队列⾥⾯,这将造成代码重复评测,浪费系统资源,影响评测速度。

这时候我们需要合理⽤这两个⽅法,保证每个代码都被评测并且写回数据库之后才开始下⼀轮的扫描。

后⾯有代码⽰例。

我们使⽤如下代码创建⼀个FIFO队列:
#初始化队列
q = Queue(config.queue_size)
如何有效得从数据库获取数据?
这⾥我们以mysql为例进⾏说明。

python有数据库相关的模块,使⽤起来很⽅便。

这⾥我们需要考虑异常处理。

有可能出现的问题是数据库重启了或者偶尔断开了不能正常连接,这时候就需要不断尝试重新连接直到连接成功。

然后判断参数,如果是字符串就说明是sql语句,直接执⾏,如果是列表则依次执⾏所有的语句,如果执⾏期间出现错误,则关闭连接,返回错误信息。

否则返回sql 语句执⾏结果。

下⾯这个函数专门来处理数据库相关操作
def run_sql(sql):
'''执⾏sql语句,并返回结果'''
con = None
while True:
try:
con = MySQLdb.connect(config.db_host,config.db_user,config.db_password,
config.db_name,charset=config.db_charset)
break
except:
logging.error('Cannot connect to database,trying again')
time.sleep(1)
cur = con.cursor()
try:
if type(sql) == types.StringType:
cur.execute(sql)
elif type(sql) == types.ListType:
for i in sql:
cur.execute(i)
except MySQLdb.OperationalError,e:
logging.error(e)
cur.close()
con.close()
return False
mit()
data = cur.fetchall()
cur.close()
con.close()
return data
需要注意的是这⾥我们每次执⾏sql语句都要重新连接数据库,能否⼀次连接,多次操作数据库?答案是肯定的。

但是,这⾥我们需要考虑的问题是如何将数据库的连接共享?可以设置⼀个全局变量。

但是如果数据库的连接突然断开了,在多线程程序⾥⾯,问题就⽐较⿇烦了,你需要在每个程序⾥⾯去判断是否连接成功,失败的话还要重新连接,多线程情况下如何控制重新连接?这些问题如果在每个sql语句执⾏的时候都去检查的话太⿇烦了。

有⼀种⽅法可以实现⼀次连接,多次操作数据库,还能⽅便的进⾏数据库重连,那就是使⽤yield⽣成器,连接成功之后,通过yield将sql语句传递进去,执⾏结果通过yield反馈回来。

这样听起来很好,但是有个问题容易被忽略,那就是yield在不⽀持多线程,多个线程同时向yield发送数据,yield接收谁?yield返回⼀个数据,谁去接收?这样yield就会报错,然后停⽌执⾏。

当然可以使⽤特殊⽅法对yield进⾏加锁,保证每次都只有⼀个线程发送数据。

通过测试发现,使⽤yield并不能提⾼评测效率,⽽每次连接数据库也并不慢,毕竟现在服务器性能都很⾼。

所以使⽤上⾯的每次连接数据库的⽅法还是⽐较好的。

还有⼀个问题,当多线程同时对数据库进⾏操作的时候,也容易出现⼀些莫名其妙的错误,最好是对数据库操作加锁:
#创建数据库锁,保证⼀个时间只能⼀个程序都写数据库
dblock = threading.Lock()
# 读写数据库之前加锁
dblock.acquire()
# 执⾏数据库操作
runsql()
# 执⾏完毕解锁
dblock.release()
⽣产者如何去实现?
为了隐藏服务器信息,保证服务器安全,所有的SQL语句都⽤五个#代替。

⽣产者就是⼀个while死循环,不断扫描数据库,扫描到之后就向任务队列添加任务。

def put_task_into_queue():
'''循环扫描数据库,将任务添加到队列'''
while True:
q.join() #阻塞安程序,直到队列⾥⾯的任务全部完成
sql = "#####"
data = run_sql(sql)
for i in data:
solution_id,problem_id,user_id,contest_id,pro_lang = i
task = {
"solution_id":solution_id,
"problem_id":problem_id,
"contest_id":contest_id,
"user_id":user_id,
"pro_lang":pro_lang,
}
q.put(task)
time.sleep(0.5) #每次扫⾯完后等待0.5秒,减少CPU占有率
消费者如何实现?
基本是按照上⾯说的来的,先获取任务,然后处理任务,最后标记任务处理完成。

def worker():
'''⼯作线程,循环扫描队列,获得评判任务并执⾏'''
while True:
#获取任务,如果队列为空则阻塞
task = q.get()
#获取题⽬信息
solution_id = task['solution_id']
problem_id = task['problem_id']
language = task['pro_lang']
user_id = task['user_id']
# 评测
result=run(problem_id,solution_id,language,data_count,user_id)
#将结果写⼊数据库
dblock.acquire()
update_result(result)
dblock.release()
#标记⼀个任务完成
q.task_done()
如何启动多个评测线程?
def start_work_thread():
'''开启⼯作线程'''
for i in range(config.count_thread):
t = threading.Thread(target=worker)
t.deamon = True
t.start()
这⾥要注意t.deamon=True,这句的作⽤是当主线程退出的时候,评测线程也⼀块退出,不在后台继续执⾏。

消费者获取任务后需要做什么处理?
因为代码保存在数据库,所以⾸先要将代码从数据库取出来,按⽂件类型命名后保存到相应的评判⽬录下。

然后在评判⽬录下对代码进⾏编译,如果编译错误则将错误信息保存到数据库,返回编译错误。

编译通过则运⾏程序,检测程序执⾏时间和内存,评判程序执⾏结果。

如何编译代码?
根据不同的编程语⾔,选择不同的编译器。

我的评测程序⽀持多种编程语⾔。

编译实际上就是调⽤外部编译器对代码进⾏编译,我们需要获取编译信息,如果编译错误,需要将错误信息保存到数据库。

调⽤外部程序可以使⽤python的subprocess模块,这个模块⾮常强⼤,⽐os.system()什么的⽜逼多了。

⾥⾯有个Popen⽅法,执⾏外部程序。

设置shell=True我们就能以shell⽅式去执⾏命令。

可以使⽤cwd指定⼯作⽬录,获取程序的外部输出可以使⽤管道PIPE,调
⽤communicate()⽅法可以可以获取外部程序的输出信息,也就是编译错误信息。

可以根据编译程序的返回值来判断编译是否成功,⼀般来说,返回值为0表⽰编译成功。

有些语⾔,⽐如ruby和perl是解释型语⾔,不提供编译选项,因此在这⾥仅仅加上-c参数做简单的代码检查。

python,lua,java等可以编译成⼆进制⽂件然后解释执⾏。

ACMer们着重看⼀下gcc和g++和pascal的编译参数,以后写程序可以以这个参数进⾏编译,只要在本地编译通过⼀般在服务器上编译就不会出现编译错误问题。

可能有些朋友会有疑问:为什么加这么多语⾔?正式ACM⽐赛只让⽤C,C++和JAVA语⾔啊!对这个问题,我只想说,做为⼀个在线测评系统,不能仅仅局限在ACM上。

如果能让初学者⽤这个平台来练习编程语⾔不是也很好?做ACM是有趣的,⽤⼀门新的语⾔去做ACM题⽬也是有趣的,快乐的去学习⼀门语⾔不是学得很快?我承认,有好多语⾔不太适合做ACM,因为ACM对时间和内存要求⽐较严格,好多解释执⾏的语⾔可能占内存⽐较⼤,运⾏速度⽐较慢,只要抱着⼀种学习编程语⾔的⼼态去刷题就好了。

此外,对于新兴的go语⾔,我认为是⾮常适合⽤来做ACM的。

⽜逼的haskell语⾔也值得⼀学,描述⾼级数据结果也很⽅便。

感兴趣的可以试试。

我的评测程序是可以扩展的,如果想再加其他编程语⾔,只要知道编译参数,知道如何执⾏,配置好编译器和运⾏时环境,在评测程序⾥⾯加上就能编译和评测。

def compile(solution_id,language):
'''将程序编译成可执⾏⽂件'''
build_cmd = {
"gcc" : "gcc main.c -o main -Wall -lm -O2 -std=c99 --static -DONLINE_JUDGE",
"g++" : "g++ main.cpp -O2 -Wall -lm --static -DONLINE_JUDGE -o main",
"java" : "javac Main.java",
"ruby" : "ruby -c main.rb",
"perl" : "perl -c main.pl",
"pascal" : 'fpc main.pas -O2 -Co -Ct -Ci',
"go" : '/opt/golang/bin/go build -ldflags "-s -w" main.go',
"lua" : 'luac -o main main.lua',
"python2": 'python2 -m py_compile main.py',
"python3": 'python3 -m py_compile main.py',
"haskell": "ghc -o main main.hs",
}
p = subprocess.Popen(build_cmd[language],shell=True,cwd=dir_work,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
out,err = municate()#获取编译错误信息
if p.returncode == 0: #返回值为0,编译成功
return True
dblock.acquire()
update_compile_info(solution_id,err+out) #编译失败,更新题⽬的编译错误信息
dblock.release()
return False
⽤户代码在执⾏过程中是如何进⾏评判的(ACMer必看)?
前⾯说了,如果出现编译错误(Compile Error),是不会执⾏的。

每个题⽬都有⼀个标准的时间和内存限制,例如时间1000ms,内
存65536K,程序在执⾏的时候会实时检查其花费时间和使⽤内存信息,如果出现超时和超内存将会分别返回Time Limit Exceeded和Memory Limit Exceeded错误信息,如果程序执⾏时出现错误,⽐如⾮法指针,数组越界等,将会返回Runtime Error信息。

如果你的程序没有出现上⾯
的信息,说明程序顺利执⾏结束了。

接下来,就是对你的程序的输出也就是运⾏结果进⾏检查,如果你的执⾏结果和我们的标准答案完全⼀样,则返回Accepted,也就说明你这个题⽬做对了。

如果除去空格,换⾏,tab外完全相同,则说明你的代码格式错误,将返回Presentation Error,如果你输出的内容有⼀部分和标准答案完全⼀样,但是还输出了⼀些其他内容,则说明你多输出了,这时候将返回Output Limit Exceeded错误信息,出现其他情况,就说明你的输出结果和标准答案不⼀样,就是Wrong Answer了。

总结⼀下错误的出现顺序:
Compile Error -> Memory Limit Exceeded = Time Limit Exceeded = Runtime Error -> Wrong Answer -> Output Limit Exceeded ->Presentation Error -
> Accepted
直接说难免有些空洞,做了张流程图:
如果你得到了其他信息,⽐如System error,则说明服务器端可能出问题了,我们技术⼈员会想法解决。

如果看到waiting,说明等待评测的代码⽐较多,你需要稍作等待,直到代码被评测。

如果你得到了Judging结果,说明你的代码正在评测,如果长时间⼀直是Judging,则说明评测程序在评测过程中可能出问题了,没有评判出结果就停⽌了。

技术⼈员会为你重判的。

希望ACMer们能根据上⾯的评测流程,在看到⾃⼰的评判结果的时候,能够分析出你离AC还有多远,以及如何改进你的代码才能AC。

评判答案的那部分源码:
def judge_result(problem_id,solution_id,data_num):
'''对输出数据进⾏评测'''
currect_result = os.path.join(config.data_dir,str(problem_id),'data%s.out'%data_num)
user_result = os.path.join(config.work_dir,str(solution_id),'out%s.txt'%data_num)
try:
curr = file(currect_result).read().replace('\r','').rstrip()#删除\r,删除⾏末的空格和换⾏
user = file(user_result).read().replace('\r','').rstrip()
except:
return False
if curr == user: #完全相同:AC
return "Accepted"
if curr.split() == user.split(): #除去空格,tab,换⾏相同:PE
return "Presentation Error"
if curr in user: #输出多了
return "Output limit"
return "Wrong Answer" #其他WA
注意⼀下,代码中有个replace('\r','')⽅法,它的作⽤就是将\r替换成空字符串。

为什么要做这个替换呢?因为在windows下,⽂本的换⾏是"\r\n",⽽在Linux下是"\n"。

因为不能确定测试数据来源与windows还是Linux,增加⼀个\r,就是增加⼀个字符,如果不删除的话,两个⽂本就是不⼀样的,就会造成wrong answer结果。

或许你曾经遇到过在windows下⽤记事本打开⼀个纯⽂本⽂件,格式全乱了,所有⽂本都在⼀⾏内,⾮常影响阅读。

你可以通过⽤写字板打开来解决这个问题。

据说"\r\n"来源于⽐较古⽼的打印机,每打印完⼀⾏,都要先“回车(\r)”,再“换⾏”(\n)。

同样⼀个C语⾔的printf("\n")函数,在windows下将⽣成"\r\n",⽽在Linux下⽣成"\n",因为评测程序为你⾃动处理了,因
此你就不必关注这些细节的东西了。

评测程序是如何检测你的程序的执⾏时间和内存的?
这个问题困扰了我好久,也查了好多资料。

⽤户的程序要在服务器上执⾏,⾸先不能让⽤户的程序⽆限申请内存,否则容易造成死机现象,需要将程序的内存限制在题⽬规定的最⼤内存内。

其次要限制⽤户程序的执⾏时间,不能让⽤户的程序⽆限制运⾏。

⼀般解决⽅案是:在⽤户的程序执⾏前,先做好资源限制,限制程序能使⽤的最⼤内存和CPU占⽤,当⽤户的程序⼀旦超出限制就⾃动终⽌了。

还有个⽐较重要的问题是如何获取程序执⾏期间的最⼤内存占⽤率。

⽤户的代码在执⾏前需要申请内存,执⾏期间还能动态申请和释放内存,执⾏完毕释放内存。

程序执⾏时还有可能使⽤指针等底层操作,这⽆疑给检测内存造成更⼤的困难。

在windows下,程序执⾏结束后,可以调⽤系统函数获取程序执⾏期间的最⼤内存,貌似在Linux下没⽤现成的函数可以调⽤。

在Linux下,我们可以使⽤ps或top命令来获取或监视在某个时刻应⽤程序的内存占⽤率,要获取程序的最⼤执⾏内存,就要不断去检测,不断去⽐较,直到程序结束,获取最⼤值就是⽤户程序执⾏期间的最⼤内存。

根据这个设想,我写了⼀个程序来实现这个想法:
def get_max_mem(pid):
'''获取进程号为pid的程序的最⼤内存'''
glan = psutil.Process(pid)
max = 0
while True:
try:
rss,vms = glan.get_memory_info()
if rss > max:
max = rss
except:
print "max rss = %s"%max
return max
def run(problem_id,solution_id,language,data_count,user_id):
'''获取程序执⾏时间和内存'''
time_limit = (time_limit+10)/1000.0
mem_limit = mem_limit * 1024
max_rss = 0
max_vms = 0
total_time = 0
for i in range(data_count):
'''依次测试各组测试数据'''
args = shlex.split(cmd)
p = subprocess.Popen(args,env={"PATH":"/nonexistent"},cwd=work_dir,stdout=output_data,stdin=input_data,stderr=run_err_data)
start = time.time()
pid = p.pid
glan = psutil.Process(pid)
while True:
time_to_now = time.time()-start + total_time
if psutil.pid_exists(pid) is False:
program_info['take_time'] = time_to_now*1000
program_info['take_memory'] = max_rss/1024.0
program_info['result'] = result_code["Runtime Error"]
return program_info
rss,vms = glan.get_memory_info()
if p.poll() == 0:
end = time.time()
break
if max_rss < rss:
max_rss = rss
print 'max_rss=%s'%max_rss
if max_vms < vms:
max_vms = vms
if time_to_now > time_limit:
program_info['take_time'] = time_to_now*1000
program_info['take_memory'] = max_rss/1024.0
program_info['result'] = result_code["Time Limit Exceeded"]
glan.terminate()
return program_info
if max_rss > mem_limit:
program_info['take_time'] = time_to_now*1000
program_info['take_memory'] = max_rss/1024.0
program_info['result'] =result_code["Memory Limit Exceeded"]
glan.terminate()
return program_info
logging.debug("max_rss = %s"%max_rss)
# print "max_rss=",max_rss
logging.debug("max_vms = %s"%max_vms)
# logging.debug("take time = %s"%(end - start))
program_info['take_time'] = total_time*1000
program_info['take_memory'] = max_rss/1024.0
program_info['result'] = result_code[program_info['result']]
return program_info
上⾯的程序⽤到了⼀些进程控制的⼀些知识,简单说明⼀下。

程序的基本原理是:先⽤多进程库subprocess的Popen函数去创建⼀个新的进程,获取其进程号(pid),然后⽤主线程去监测这个进程,主要是监测实时的内存信息。

通过⽐较函数,获得程序的执⾏期间的最⼤内存。

什么时候停⽌呢?有四种情况:
1. 程序运⾏完正常结束。

这个我们可以通过 subprocess.Popen⾥⾯的poll⽅法来检测,如果为0,则代表程序正常结束。

2. 程序执⾏时间超过了规定的最⼤执⾏时间,⽤terminate⽅法强制程序终⽌
3. 程序执⾏内存超过了规定的最⼤内存,terminate强制终⽌。

4. 程序执⾏期间出现错误,异常退出了,这时候我们通过检查这个pid的时候就会发现不存在。

还有⼀点是值得注意的:上⽂提到在编译程序的时候,调⽤subprocess.Popen,是通过shell⽅式调⽤的,但是这⾥没有使⽤这种⽅式,为什么呢?这两种⽅式有什么区别?最⼤的区别就是返回的进程的pid,以shell⽅式执⾏,返回的pid并不是⼦进程的真正pid,⽽是shell的pid,当我们去检查这个pid的内存使⽤率的时候得到的并不是⽤户进程的pid!不通过shell⽅式去调⽤外部程序则是直接返回真正程序的pid,⽽不⽤去调⽤shell。

官⽅⽂档是这么说的:if shell is true, the specified command will be executed through the shell.
如果不⽤shell⽅式去执⾏命令的话,传递参数的时候就不能直接将字符串传递过去,例如ls -l这个命令ls和参数-l,当shell=False时,需要将命令和参数变成⼀个列表['ls','-l']传递过去。

当参数⽐较复杂的时候,将命令分隔成列表就⽐较⿇烦,幸好python为我们提供了shlex模块,⾥⾯的split⽅法就是专门⽤来做这个的,官⽅⽂档是这么说的:Split the string s using shell-like syntax.,最好不要⾃⼰去转换,有可能会导致错误⽽不能执⾏。

上⾯的检测内存和时间的⽅法靠谱吗?
不靠谱,相当不靠谱!(当然学学python如何对进程控制也没坏处哈!)为什么呢?有点经验的都知道,C语⾔的运⾏效率⽐python⾼啊!执⾏速度⽐python快!这会造成什么后果?⼀个简单的hello world⼩程序,C语⾔“瞬间”就执⾏完了,还没等我的python程序开始检测就执⾏完了,我的评测程序什么都没检测到,然后返回0,再⼩的程序内存也不可能是0啊!在OJ上显⽰内存为0相当不科学!
那怎么办?能不能让C语⾔的程序执⾏速度慢下来?CPU的频率是固定的,我们没法专门是⼀个程序的占⽤的CPU频率降低,在windows下倒是有变速齿轮这款软件可以让软件执⾏速度变慢,不知道在Linux下有没有。

还有没有其他办法?聪明的你也许会想到gdb调试,我也曾经想⽤这种⽅法,⽤gdb调试可以使程序单步执⾏,然后程序执⾏⼀步,我检测⼀次,多好,多完美!研究了好⼀阵⼦gdb,发现并不是那么简单。

⾸先,我们以前⽤gdb调试C/C++的时候,在编译的时候要加上⼀个-g参数,然后执⾏的时候可以单步执⾏,此外,还有设置断点什么的。

有⼏个问题:
1. 其他语⾔如何调试?⽐如java,解释执⾏的,直接调试java虚拟机吗?
2. 如何通过python对gdb进⾏控制?还有获取执⾏状态等信息。

这些问题都不是很好解决。

那上⾯的⽅法测量的时间准吗?不准!为什么?我们说的程序的执⾏时间,严格来说是占⽤CPU的时间。

因为CPU采⽤的是轮转时间⽚机制,在某个时刻,CPU在忙别的程序。

上⾯的⽅法⽤程序执⾏的结束时间减去开始时间,得到的时间⼀定⽐它实际执⾏的时间要⼤。

如果程序执⾏速度过快,不到1毫秒,评测程序也不能检测出来,直接返回0了。

如何解决时间和内存的测量问题?
感兴趣的同学可以将这个模块下载下来,作为本地测试使⽤,可以预先⽣成⼀些测试数据,然后测量你的代码的执⾏时间和内存,⽐对你的答案是否正确。

不同编程语⾔时间内存如何限定?
⼀般来说,假设C/C++语⾔的标程是时间限制:1000ms,内存限制32768K,那么java的时间和内存限制都是标准限制的2倍,即
2000ms,65536K。

由于后来我再OJ增加了好多其他语⾔,我是这样规定的:编译型的语⾔和速度较快的解释型语⾔的时间和内存限制和C/C++是⼀样的,这样的语⾔包括:C、C++、go、haskell、lua、pascal,其他速度稍慢的解释执⾏的语⾔和JAVA是⼀样的,包括:java、python2、python3、ruby、perl。

毕竟使⽤除C,C++,JAVA外的语⾔的朋友毕竟是少数,如果限制太严格的话可以根据实际情况对其他编程语⾔放宽限制。

多组测试数据的题⽬时间和内存如何测算?
多组测试数据是⼀组⼀组依次执⾏,时间和内存取各组的最⼤值,⼀旦某组测试数据时间和内存超出限制,则终⽌代码执⾏,返回超时或超内存错误信息。

如何防⽌恶意代码破坏系统?
我们可以使⽤以下技术来对⽤户程序进⾏限制:
1. lorun模块本⾝就有限制,防⽌外部调⽤
2. 降低程序的执⾏权限。

在Linux下,⽬录权限⼀般为755,也就是说,如果换成⼀个别的⽤户,只要不是所有者,就没有修改和删除的
权限。

python⾥⾯可以使⽤os.setuid(int(os.popen("id -u %s"%"nobody").read()))来将程序以nobody⽤户的⾝份执⾏
3. 设置沙盒环境,将⽤户执⾏环境和外部隔离。

Linux下的chroot命令可以实现,python也有相关⽅法,但是需要提前搭建沙盒环境。

⽤jailkit可以快速构建沙盒环境,感兴趣的朋友可以看看
4. 使⽤ACL访问控制列表进⾏详细控制,让nobody⽤户只有对某个⽂件夹的读写权限,其他⽂件夹禁⽌访问
5. 评判机和服务器分离,找单独的机器,只负责评判
6. 对⽤户提交的代码预先检查,发现恶意代码直接返回Runtime Error
7. 禁⽌评测服务器连接外⽹,或者通过防⽕墙限制⽹络访问
如何启动和停⽌评测程序以及如何记录错误⽇志?
启动很简单,只要⽤python执⾏protect.py就⾏了。

如果需要后台执⾏的话可以使⽤Linux下的nohup命令。

为了防⽌同时开启多个评测程序,需要将以前开启的评测程序关闭。

为了⽅便启动,我写了这样⼀个启动脚本:
#!/bin/bash
sudo kill `ps aux | egrep "^nobody .*? protect.py" | cut -d " " -f4`
sudo nohup python protect.py &
第⼀条命令就是杀死多余的评测进程,第⼆条是启动评测程序。

在程序⾥⾯使⽤了logging模块,是专门⽤来记录⽇志的,这么模块很好⽤,也很强⼤,可定制性很强,对我们分析程序执⾏状态有很⼤帮助。

下⾯是⼀些⽰例:
2013-03-07 18:19:04,855 --- 321880 result 1
2013-03-07 18:19:04,857 --- judging 321882
2013-03-07 18:19:04,881 --- judging 321883
2013-03-07 18:19:04,899 --- judging 321884
2013-03-07 18:19:04,924 --- 321867 result 1
2013-03-07 18:19:04,950 --- 321883 result 7
2013-03-07 18:19:04,973 --- 321881 result 1
2013-03-07 18:19:05,007 --- 321884 result 1
2013-03-07 18:19:05,012 --- 321882 result 4
2013-03-07 18:19:05,148 --- judging 321885
2013-03-07 18:19:05,267 --- judging 321886
2013-03-07 18:19:05,297 --- judging 321887
2013-03-07 18:19:05,356 --- judging 321888
2013-03-07 18:19:05,386 --- judging 321889
2013-03-07 18:19:05,485 --- 321885 result 1
python的配置⽂件如何编写?
最简单有效的⽅式就是建⽴⼀个config.py⽂件,⾥⾯写上配置的内容,就像下⾯⼀样:
#!/usr/bin/env python
#coding=utf-8
#开启评测线程数⽬
count_thread = 4
#评测程序队列容量
queue_size = 4
#数据库地址
db_host = "localhost"
#数据库⽤户名
db_user = "user"
#数据库密码
db_password = "password"
#数据库名字
db_name = "db_name"
使⽤的时候只需要将这个⽂件导⼊,然后直接config.queue_size就可以访问配置⽂件⾥⾯的内容,很⽅便的。

评测程序的评测效率如何?
⾃从服务器启⽤新的评测程序之后,已经经历了两次⼤的⽐赛和⼏次⼤型考试,在⼏百个⼈的⽐赛和考试中,评测基本没⽤等待现象,⽤户提交的代码基本都能⽴即评测出来。

⼤体测了⼀下,单服务器平均每秒能判6个题⽬左右(包括获取代码,编译,运⾏,检测,数据库写⼊结果等流程)。

评测程序⽬前已经稳定运⾏了⼏个⽉,没有出现⼤的问题,应该说技术⽐较成熟了。

评测程序还能继续改进吗?
当时脑⼦估计是被驴踢了,居然使⽤多线程来评测!有经验的python程序猿都知道,python有个全局GIL锁,这个锁会将python的多个线程序列化,在⼀个时刻只允许⼀个线程执⾏,⽆论你的机器有多少个CPU,只能使⽤⼀个!这就明显影响评测速度!如果换成多进程⽅式,⼀个评测进程占⽤⼀个CPU核⼼,评测速度将会是⼏倍⼏⼗倍的性能提升!到时候弄个上千⼈的⽐赛估计问题也不⼤,最起码评测速度能保证。

此外,还可以构建⼀个分布式的评测服务器集群,⼤体设想了⼀下可以这样实现:
⾸先,可以选⼀台服务器A专门和数据库交互,包括从数据库中获取评测任务以及评测结束将结果写回数据库。

然后选择N台普通计算机作为评测机,评测机只和数据库A打交道,也就是从服务器A获取任务,在普通机器上评测,评测完后将结果反馈到服务器A,再由A将结果写⼊到数据库。

服务器A在这⾥就充当⼀个任务管理和分配的⾓⾊,协调各个评测机去评测。

这样可以减少对数据库的操作,评测机就不⽤去⼀遍⼀遍扫数据库了。

评测的速度和安全性可以得到进⼀步提升。

其他
附在线简历⼀份:,准备实习,希望⼤⽜指点
项⽬地址:
原⽂链接:
上⾯的程序和⽅法仅供学习和研究⽤,严禁任何⾮法⽤途
本⼈学识有限,如有错误欢迎批评指正。

相关文档
最新文档