CS 2550——数据库系统原理(2024年春季)匹兹堡大学计算机科学系课业#4:查询处理和优化发布时间:2024年4月10日截止时间:2024年4月22日晚上8:00球门此课业的目标是更好地理解查询评估过程。描述以下是大学数据库模式的一个片段。

员工(员工ID、第一名、最后一名、性别、出生日期、地址、电话、账号、工资)PK(员工ID)FK(SNO)-->工作室(StudioNum)

工作室(StudioNum、StudioName、经理、预算)PK(StudioNum)FK(经理)-->员工(雇员ID)电影(movieID,制片人,标题,预算,拍摄时间)PK(电影ID)FK(制作人)-->工作室(StudioNum)考虑表Employee(E)-Studio(S)-Movie(M)的四个可能组织:1.表E、S和M是堆文件,其中任何一个都不存在访问方法2.表E和S是排序文件,M是堆文件&它们中的任何一个都不存在访问方法3.表E、S和M是堆文件&访问方法(哈希)仅存在于M上4.表E是一个排序文件,表S和M是堆文件&访问方法存在于E和M、 其中一个是散列,另一个是索引进一步假设以下统计数据:可用缓存(CM)为22页。属于同一个表的属性都具有相同的平均大小。当使用散列联接时,较小的记录将是分区部分。表Movie中属性filmedAt的值分布为:50%“PGH”,30%“PHI”和20%的“NYC”。电影:r=500,bfr=5,BP rj=100。工作室:r=250,bfr=5,BDp=50。员工:r=1250,bfr=5,BEmp=250。注意,写 CS 2550——数据库系统原理r是表中元组的总数,bfr是阻塞因子,B是表的块总数。问题[100分]Q1[20分]
假设没有可用的访问结构,生成以下SQL语句的启发式查询评估树,并详细描述查询的评估将如何是选择S.StudioName、COUNT(M.movieID)、SUM(M.Budget)来自员工AS E,工作室AS S,电影AS M其中M.producedBy=S.StudioNum和E.SNO=S.Studio Num按S.StudioName分组计数(E.EmployeeID)<15;说明任何其他假设。(提示:一些运算符可以组合成一个单独的算法)。
Q2[80分]考虑查询评估树,如以下SQL类中所讨论的陈述选择M.movieID、M.producedBy、E.First、E.Last、E.Gender来自员工AS E、工作室AS S、电影AS M其中M.producedBy=S.StudioNum和S.Manager=E.EmployeeIDAND M.filmedAt=“GH”;根据您的pittID,您有两个以上组织分配给您的数据库组织来回答此问题。对于这两个组织,确定子树表示可以由单个算法执行的操作组。对于每个这样的子树,可能有多种方法可以组合起来实现为单个算法。请提供以下内容:所有可能的实现中的一个实现(步骤和数据结构)的描述对于上述每种情况。每个级别的实施的I/O成本。计算总I/O成本。您被要求回答两个数据库组织的问题,它们基于您的pittID,如下所示:ddh32、tiw81、yiy161、dhb51、yul251、sml153、nia135、dtk28:你只需要做第一和第二个组织。mas937,yux85,anp407,shk148,nat134,aba166,mod53,jeb386:你只需要做第一和第三个组织。aym50,bsp22,yuw328,shy158,btl26,shp184,jah292,tbt8:你只需要做第一和第四个组织。提交内容和方式您需要以您的pitt用户名(例如。,pitt01.pdf)。除了提供答案外,您还应:包括您的PDF文件顶部的名称和pitt ID。准备好解决方案后,提交您的文件(即准备好的PDF),其中包含您的解决方案,通过导航到Gradescope进入班级的Gradescope主页并从课程仪表板中选择课程CS 2550,或单击课程画布页面下的Gradescope导航选项。您必须在截止日期(2024年4月22日下午8:00)之前提交课业。没有迟交的材料。请注意,您需要使用图形工具(如MS Word、MS Powerpoint、MSVisio、idraw、draw.io等)生成图表和解释图表的文本。手写/手绘图表和/或文本将不被接受/评分并且将接收零。手写和数字化/扫描图像接收零(包括扫描、照片或使用智能笔提交)。学术诚信这项任务中的工作是独立完成的。与其他学生讨论课业应仅限于理解问题的陈述。作弊无论如何,包括把你的工作交给别人都会给课程打F向大学相关部门提交的报告。
WX:codinghelp


8zs0j09p
1 声望0 粉丝