粒子物理与核物理实验中的数据分析
核物理实验中的数据分析方法

核物理实验中的数据分析方法在核物理这一神秘而又充满魅力的科学领域中,实验是探索未知、揭示真相的重要手段。
而在核物理实验中,数据分析则是从海量的数据中提取有价值信息、得出科学结论的关键环节。
这就好比在一座蕴藏着无数珍宝的矿山中,数据分析方法就是我们手中的工具,帮助我们筛选、挖掘出那些珍贵的“宝藏”。
核物理实验所产生的数据通常具有高度的复杂性和不确定性。
这些数据可能来自于各种探测器、测量仪器,包含了粒子的能量、动量、位置、时间等多个维度的信息。
要从这些纷繁复杂的数据中找到规律、发现新的物理现象,就需要运用一系列有效的数据分析方法。
首先,让我们来谈谈数据的采集与预处理。
在核物理实验中,数据的采集往往是一个持续的过程,可能会持续数小时、数天甚至更长时间。
在这个过程中,确保数据的准确性和完整性至关重要。
这就需要对探测器和测量仪器进行精确的校准和调试,以减少系统误差。
同时,在数据采集过程中,还需要对环境因素进行监测和控制,例如温度、湿度、电磁场等,因为这些因素可能会对实验结果产生影响。
当数据采集完成后,接下来的工作就是数据的预处理。
这一步骤就像是对刚开采出来的矿石进行初步筛选和清洗,去除那些明显的杂质和错误数据。
常见的数据预处理方法包括数据清洗、去噪、归一化等。
数据清洗是指去除那些由于仪器故障、人为操作失误等原因产生的异常数据点。
去噪则是通过滤波等技术手段,减少数据中的噪声干扰,使数据更加清晰和可靠。
归一化则是将数据按照一定的规则进行缩放,使其具有可比性和一致性。
在完成数据的预处理后,我们就可以进入到数据分析的核心环节——数据分析方法的选择和应用。
在核物理实验中,常用的数据分析方法包括统计分析、拟合分析、蒙特卡罗模拟等。
统计分析是一种非常基础和重要的数据分析方法。
通过计算数据的均值、方差、标准差等统计量,我们可以对数据的集中趋势和离散程度有一个初步的了解。
例如,通过计算粒子能量的均值和方差,我们可以判断实验结果是否符合预期,以及数据的离散程度是否在可接受的范围内。
粒子物理与核物理实验中的数据分析剖析

任何估计量(不仅仅是最大似然法)的方差下界为
V
[ˆ]
1
b
2
E
2 log
2
L
( b为偏置)
也称为 Rao-Cramér-Frechet 不等式(信息不等式)。
如果等式满足,就可以说 ˆ 是有效的。
最大似然估计量对大的样本统计量 n 几乎总是有效的。 通常假设上述结论为真,利用RCF边界估计 V[ˆ]
6
估计量的方差:蒙特卡罗方法
通常情况下,ˆ 的具体形式 g(ˆ; , n) 并不知道。对于此类情况,
可采用蒙特卡罗方法得到 g(ˆ; , n)
例如,对指数的pdf,我们有 ˆ=1.062。在蒙特卡罗中,把其作 为 的真值。产生 n 50 的样本,并重复1000次实验。计算 每次实验的 ˆ,并填入直方图。
✓ 如果已经知道概率密度函数 pdf 的具体形式,但是函 数中包含有未知参数,如何从有限的样本中估计未知 参数的期待值、方差与相关系数…
✓ 基于假设为真时,会使观测结果的概率最大,构造似 然函数的方法
指数参数确定举例
10/16/2020
2
高斯概率密度函数中的参数
考虑一个样本服从高斯概率密度函数,其参数 , 2 未知。
粒子物理与核物理实验中的 数据分析
杨振伟 清华大学
第八讲: 最大似然法(续)
上一章回顾
估计量,均值,方差与协方差的估计量
✓ 给出了在不知道概率密度函数 pdf 的情况下,如果没 有未知参数,如何从有限的数据样本中,估计出随机 变量的期待值、方差与相关系数。
✓ 讨论了偏置问题
似然函数,最大似然估计量
指数函数例子
也就是
log
L(ˆ
ˆˆ
粒子物理与核物理实验中的

=λ
举例:光电倍增管暗电流影响
在有11146根PMT的探测 器中,已知每根PMT暗电 流产生的误击中为3.5kHz。 求探测器在任意总长度为 500μs时间段观察到每隔 10ns PMT误击中数目分 别为5和6的总次数
在10ns间隔观测到PMT误 击中的平均数目为
…
得到(n1,n2,…,nm)概率为
f
G (n)
=
N! n1!n2!...nm!
p n1 1
p n2 2
...
p n3 m
平均值 : E[ni ] = Npi
方差 :V[ni ] = Npi (1− pi ) 协方差 :Vij = −Npi p j (i ≠ j)
适适用用于于直直方方图图 频频数数误误差差估估计计。。
MRPC记录的击中数目N’
MRPC探测效率 测量值及其误差
从二项式到多项式分布
类似于二项式分布,但允许结果的可能性m大于两种,概率为
G p = ( p1, p2..., pm )
m
∑ pi = 1
尝试N次,结果为
可能性1:n1 可能性2:n2
G n = (n1, n2 ,..., nm )
i =1
举例:角分布中的前后不对称
e+
e+
θ e-
+ e− → J /ψ → e+ + e− -1 B:后向计数;F:前向计数;N=B+F
0
1
cos θe+e+
若上述过程平均事例数为ν,则观测到N个事例的 概率服从泊松分布
PP
=
e−νν N
N!
在这N个事例中,如果单个事例为前向的概率为f, 则观测到F个前向事例的概率满足二项式分布
粒子物理与核物理实验中的

在粒子物理与核物理实验研究中,历史上类似的“无辜偏向性”受害者 很多。为了避免这种情况的发生,近几年来盲分析方法渐渐成为潮流。
8
盲分析方法分类
信号区隐藏法
•最适合于对稀有或禁戒物理过程的实验测量; •本底必须从非信号区、或模拟样本、或额外的子实验来估计。
•对信号与本底事例数的估计既可以采用蒙特卡罗模拟,也可以直接利用 与信号有很多共同特征的本底数据样本。 •选择条件的调整与优化一定要尽量避免受到统计涨落的影响。
•为了验证选择条件,可将样本随机分为1/3与2/3两部分。 •判断选择条件和本底估计有否偏向性,可以通过比较1/3与2/3样本的 结果是否在统计上相符来进行。
•导致结果因此包含不可定量估计的系统误差。
4
实验结果的偏向性
中子寿命测量
K0S寿命测量
年代
在粒子物理与核物理实验中有不少实验结果显示了非常明显的时间相关 性,前一次实验与后一次实验要么在误差范围内,要么在几倍误差之外
5
并合不等精度实验结果时的困惑
实验结果与理论符合得太好。 但是χ2/dof 远小于1
13
例子:稀有K衰变中的本底
理论预言:Br(K + → π +νν ) = (0.79 ± 0.12) ×10−10
过程 所有Κ衰变 K+ → μ+νμ K+ → π+π0 K+ → μ+νμ γ 束流本底
电荷交换本底K+ n→ K0p, K0 → p+l-n
信号
事例数 1010
0.6343×1010 0.2113 ×1010 0.0055 ×1010
π − p → p + MM −
粒子物理与核物理实验中的数据分析

10/04/2021
14
例子:对长寿命 K 介子的鉴别
强子量能器
h–
K
0 L
利用KL0粒子 不受磁场影 响而且较少
发生电磁簇
射的特点把
它和带电强
子区分开来。
电磁量能器
为常数,其余为实验观测量
10/04/2021
Eur.Phys.J.C10,1(1999)
把一个2-维甄别问题 简化为一维甄别问题。
通常情况下很难处理多维的
x
问题,
因此, 常常构造低维的统计检验,在
不失去甄别各种假设能力的条件下, 使得 t(x)成为精简后的数据样本。
那么此时的统计量 t 具有概率密度函数 g(t | H0 ), g(t | H1),...
10/04/2021
6
拒绝域、第一与第二类误差
考虑统计检验量t 服从 g(t | H0 ), g(t | H1),... g(t)
上一层节点函数可写为
n
hi (x) s(wi0 wij x j )
j 1
ai , wij为权重或者联结强度。
t(x) 输出定义为
n
t(x) s[a0 aihi (x)]
i 1
越多节点
神经网络越接
近优化的 t(x)
但需要定更多的参数!
10/04/2021
22
神经网络中的误差函数最小化
参数取值通常根据误差函数的最小化结果来决定
单元数为M n。
f (x | H0 ) f (x | H1)
但是如果 n 太大时,实 际运用会很 困难。
10/04/2021
12
例子:蒙特卡罗近似求二维p.d.f.
M.C.
M.C.
粒子物理与核物理实验中的数据分析

有A21的概率被测量为b2
真值为x2,有A12的概率被测量为b1
有A22的概率被测量为b2
归一化:A11 A21 1,A12 A22 1
(不考虑测量效率和本底)
实际的问题经常是:已知测量值b,希望求出真值x
如果可以知道A,则问题可以解决。
问题转化为:如何得到A?
9
响应矩阵与二维散点图
14
练习
1. 用舍选法,产生f(x)=3x2+2x的分布 (0<x<1),并用自己写似然函数进行拟合。 注意归一化问题。
2. 实验测到数据存放在expdata.root中。试 读取之,画出直方图,估计可能的函数形 式,用最大似然法拟合之。
/~yangzw/Cour seDataAna/expdata.root
15
基于ROOT的解谱法(Unfolding) ROOT手册263页 /~adye/software/unf old/RooUnfold.html
ROOT中各种拟合
(前2个简单介绍,在project练习的过程中自己学习 使用,最后一个主要是本节练习)
3
12
矩阵求逆的解谱法
MC得到响应矩阵R 填入TMatrixD中,调用Invert()函数求逆
矩阵 利用逆矩阵以及测量值还原真实值
(得到的结果振荡很大,方差很大,需要引入 正规化函数进行平滑处理,减少方差。
但要注意的是:矩阵求逆方法是无偏和有效的, 平滑处理引入了偏置性,即系统误差)
13
1 1
,
〈0 〈1
1: 完美探测器
0 : 分辨率很差
Aˆ 1
1
2
粒子物理与核物理实验中数据分析

G4Element* H = new G4Element(name="Hydrogen",symbol="H" , z= 1., a); G4Element* O = new G4Element(name="Oxygen" ,symbol="O" , z= 8., a); density = 1.000*g/cm3; G4Material* H2O = new G4Material(name="Water", density, ncomponents=2); H2O->AddElement(H, natoms=2); H2O->AddElement(O, natoms=1); //定义水,给定密度、元素种类数目、添加元素
• 参考 资料 1) http://geant4.cern.ch 2)Nuclear Instruments and Methods in Physics Research A 506 (2003) 250-303, and IEEE Transactions on Nuclear Science 53 No. 1 (2006) 270-278. 最新版为9.1版,于2008年2月5日发布
2)下载安装CLHEP程序包(这是唯一需要预安装的程 序)
3)下载Geant4软件包以及相应的数据文件(用于各 种物理模型),按照安装手册进行编译安装
如果系统版本相同(内核版本和g++版本),把已经 编译好的程序直接复制到其它机器上即可使用。
比如,对SLC3系统,直接复制training服务器 /projects/soft/ext/clhep.tgz和g4.tgz到 本地机器,解压缩到相应目录即可。
粒子物理与核物理实验中的数据分析-第1讲-基本概念

A
9
文恩图(Venn diagram)检验
A B
A B A B A ( A B) A ( A B) ( A B) A A B ( A B) ( A B) ( A B) A ( B C ) ( A B) ( A C )
2 Q1Q2 0.25Q0 exp( L / L0 ), L0 2 z ln(Q1 / Q2 )
24/02/2009 6
举例:测量闪烁体衰减长度(续)
2 Q1Q2 0.25Q0 exp( L / L0 ),
L0 2 z ln(Q1 / Q2 )
实验采用恒定光源,因此 Q0 为常数,对待测闪烁体 L0 也 为常数。理论上只要在给定一个位置 z,测量闪烁体两端的 电荷输出量即可。但在实际中,往往需要做多点测量。
也就是说,你可能没什么问题!? 从你的观点上看:对自己染上AIDS结果的可信度为3.2%。 从医生角度上看:象你这样的人有3.2%感染上了AIDS。 涉及到如何诠释结果(概率)的问题!
24/02/2009 16
概率含义的诠释
相对频率(频率论者)
假设A,B,…是一可重复实验的结果,则概率就是
结果为A P ( A) lim n n 次 实验
考虑任何一次AIDS检查的结果只有阴性(-)或阳性(+)两种
P( | AIDS) 0.98 P( | AIDS) 0.02 P( | no AIDS) 0.03 P( | no AIDS) 0.97 AIDS感 染患者阳性的 概率 AIDS感 染患者阴性的 概率 AIDS未 感 染 者阳性的概 率 AIDS未 感 染 者阴性的概 率
需要解决好 •A 的定义 •适当的误差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
...... 的类都以开头 如, , , ... 详细规定参阅手册(版)第页,关于和 部分。 可以直接在环境中运行文件(自动调用编译器),也可
以在中设置好相关参数用编译得到可执行文件运行。
15
语法()—直方图类
填充统计图
hist_name.Fill(x); hist_name.Fill(x,y); Hist_name.Fill(x,y,z);
绘图:[]();
24
脚本文件示例():数学函数定义
, 说明中数学函数的使用,如
() { 定义函数
函数名称 函数表达式 函数区间
* ("","()"); >()画出函数图像
说明画布的使用,,保存图形
() {
()
* ("","()");
,,
* ("","()");
定义一个画布,
* (""," ");
将画布分成两部分
>();
名称
>(); 进入第一部分
>();
>(); 进入第二部分
>();
>(“”);
>(“”);
}
运行:在命令提示行下 > 或在环境下 []
像素坐标 ():左上角 ():右下角
定制二维图
TH2F *hist_name = new TH2F(“hist_name”,”hist_title”, num_bins_x,x_low,x_high,num_bins_y,y_low,y_high);
定制三维图
TH3F *hist_name = new TH3F(“hist_name”,”hist_title”, num_bins_x,x_low,x_high,num_bins_y,y_low,y_high, num_bins_z,z_low,z_high);
可以把上面这行放到$或者或者文件中, 这样每次登录到系统,系统就自动设置的环境变量 这样,进入系统之后,在终端提示行输入:
或
即可进入环境。
5
安装()
如果是其它发行版的,首先查看是否网站上是否有预编译好的 程序包,一般情况下,官方提供和在各种不同以及不同版本 下的二进制包,
官网也提供包括以及 以及下的预编译包。 如果没有适合你的操作系统的预编译包,就需要到官网 下载的
事例产生、探测器模拟、事例重建、数据采集、数据分析
10
体验中心()
日本超级神冈中微子实验事例显示( ) 超大的水池,内外装满了光电倍增管,万多个
11
体验中心()
仅显示被击中的光电倍增管
12
体验中心()
平面展开显示
13
体验中心()
平面展开,鼠标缩放,显示鼠标位置光电倍增管信息
14
语法()—基本信息
描述
26
脚本文件示例():直方图,随机数
说明直方图、随机数的使用,如,
() {
名称
; 创建一个文件
* (“”,””); * (""," "); 填充直方图次,用()均匀分布 ( <) >( >() ); >(); >()>(); >()>(""); >()>(); >(); 进入文件 >()将写入文件 }
朗道分布,没有解析表达式
这些预定义函数可直接使用,比如 >(""); 对直方图进行高斯拟合 * ("","");
22
数学函数的定义方式()
中自定义含未知参数的数学函数
利用c++数学表达式
TF1* f1 = new TF1("f1","[0]*sin([1]*x)/x",0,10);
利用c++数学表达式以及ROOT预定义函数
思考:什么情况下需要()?
18
脚本文件示例():文件
用花括号括起来,后缀名一般用”” {
<< " " << ; ; ( <) {
<< "" << << ; 纯粹}语法,执行的时候只需要在命令提示行: }$. (注意最后有个“.”)
19
中的数学函数
制作一维函数曲线图
TF1 *fun_name = new TF1("fun_name","expression", x_low,x_high);
TF1* f1 = new TF1("f1","gaus(0)+[3]*x",0,3);
利用自定义的c++数学函数
Double_t myFun(Double_t *x, Double_t *par) {
Double_t xx=x[0];
Double_t f=par[0]*exp(-xx/par[1]);
制作三维函数曲线图
TF3 *fun_name = new TF3("fun_name","expression", x_low,x_high,y_low,y_high,z_low,z_high);
root[0]TF3 *f3 = new TF2("f3","x*sin(x)+y*cos(y) +z*exp(z)",-5,5,-10,10,-20,20);
尝试方法:
>$ > $ . (注意不要把这个"."漏掉了)
> 然后找个感兴趣的目录文件,
执行脚本,比如
>
>
Roofit示例
小技巧提示:
根据关键字""从的例子中寻找线索
"" $
比如找随机数用法: "" $
9
体验中心()
还可以在网站上看到一些图片: 当然,的功能不只是做图,它不是一个作图工具。 跟数据分析有关的东西,基本都是的擅长; 跟物理有关的很多东西,基本都可以做得很好:
>();
() {
定义直方图
* (""," ");
定义函数
* ("","(())*()");
( <) {
>(); 按照分布产生随机数
>();
}
>(); }
执行时只需要在命令提示行 或进入环境后,运行
感兴趣者可以看看的()函数是如何实现的。 实际上,是把()()进行数值积分得到(). 当函数有陡峰时,要小心!这时可能需要改变一些参数。 29
描述
. 区间
调用均匀分布(),其它: (); (); (); (); ();
执行的时候只需要在命令提示行 或者进入环境之后,运行
27
脚本文件示例():随机数舍选法
() { >("*;*"); ; ; * (""," ."); >(); ( <) { (); 舍选法产生随机分布 >(); } >("");
}
( , ){ .; 寻找分布函数最大值
() { >(); 随机数() .*; 期待的分布函数 >(); 随机数()
(<) ; }
} 执行的时候只需要在命令提示行 或者进入环境之后,运行
28
脚本文件示例():随机数
也可以利用类、或自定义函数,通过调用()函数获得服从自 定义函数分布的随机数: * ("","(())*()");
gaus:3个参数
f(x)=p0*exp(-0.5*((x-p1)/p2)^2))
expo:2个参数
f(x)=exp(p0+p1*x)
polN:N+1个参数
f(x)=p0+p1*x+p2*x^2+... 其中N=0,1,2,...,使用时根据需要用pol0,pol1,pol2...
landau:3个参数
源代码,按照安装指南用编译安装。
用户在官网下载相应的文件直接安装即可。
用户可以到下面网页下载版本的二进制代码,根据说明安装使 用。
6
安装()
实际上,下安装程序的基本套路很简单: . 如果需要用源码编译
) 下载源码压缩包 )解压缩 )编译 )设置环境变量(如果需要) . 如果已有预编译的包 )下载 )解压缩 )设置环境变量(如果需要) . 直接用网络源安装(预编译的包) . ...
粒子物理与核物理实验中的数据 分析
讲:在数据分析中的应
上讲摘要
基本概念
类的定义与实现...
下用编译程序
<> *
当前目录下输出
源文件
指定目录
可执行文件 如
用进行编译
进行编译
清除编译结果
2
本讲要点
什么是? 登录环境和体验中心 的语法简介 的函数,直方图,随机数,文件,散点图 () ,...
直方图、打开文件
直方图的描述
直方图统计信息 事例数: 均 值: 方 差:
参见手册页 “”
打开已有的文件,如: 终端提示行下:
– 环境下:
(“”);
>();
轴的名称