Luận án Hệ tư vấn dựa trên trường hàm ý thống kê

Phân tích hàm ý thống kê (ASI) [93][94] [95][96], do Regis Gras đề xuất vào
thập niên 1990, nghiên cứu mối quan hệ hàm ý giữa các biến dữ liệu. Theo đó, các
mối quan hệ giữa các biến dữ liệu thường được biểu diễn dưới dạng luật 𝑎 → 𝑏, và
dạng biểu diễn này đã trở thành khái niệm chính trong khai phá dữ liệu dùng để biểu
diễn mối quan hệ hàm ý giữa các mẫu của các tập phổ biến (itemsets). Từ các công
trình của Agrawal et al. [90][91] , nhiều thuật toán đã được đề xuất để khai thác các
luật như vậy một cách hiệu quả trong cơ sở dữ liệu lớn. Tất cả đều cố gắng trích xuất
một tập hạn chế các luật có liên quan để dễ dàng giải thích cho việc ra quyết định,
nhưng các thử nghiệm so sánh cho thấy rằng kết quả có thể thay đổi tùy theo sự lựa
chọn của các độ đo chất lượng luật. Trong các tài liệu phong phú dành cho vấn đề
này, các độ đo mức độ thú vị thường được phân loại thành hai loại: các độ đo chủ
quan [80][98][99] (hướng người dùng) và các độ đo khách quan [11][13] (hướng dữ
liệu). Các độ chủ quan nhằm tính đến tính bất ngờ và khả năng hoạt động tương đối
so với hiểu biết trước đó [11][13], trong khi các độ đo khách quan ưu tiên các tiêu chí
thống kê như mức độ bao phủ, cường độ, ý nghĩa ... (ví dụ: [80][98][99]).

205 trang phubao 10961 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Hệ tư vấn dựa trên trường hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

luan_an_he_tu_van_dua_tren_truong_ham_y_thong_ke.pdf
0. Phu luc bia luan an.pdf
2 Tom tat luan an - Tieng Viet.pdf
3 Tom tat luan an - Tieng Anh.pdf
4 Thong tin dong gop moi - Tieng Viet.pdf
5 Thong tin dong gop moi - Tieng Anh.pdf
6 Trích yếu luận án - Tiếng Việt.pdf
7 Trích yếu luận án - Tiếng Anh.pdf
2837_QD thanh lap HD cham luan an tien si cap co so.pdf

Nội dung text: Luận án Hệ tư vấn dựa trên trường hàm ý thống kê

165 6. TÀI LIỆU THAM KHẢO [1] Adomavicius Gediminas, Tuzhilin Alexander, (2005) Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, IEEE transactions on Knowledge and Data engineering, Vol.17 No.6, pp. 734 – 749. [2] Adomavicius Gediminas, Tuzhilin Alexander, (2011), Context-aware recommender systems, Springer US, pp. 217-253. [3] Ahmed Mohammed K. Alsalama (2015), A Hybrid Recommendation System Based On Association Rules, International Science Index, Computer and Information Engineering Vol:9, No:1, 2015 waset.org/Publication/10000147. [4] Andi Asrafiani Arafah, Imam Mukhlash (2015), The Application of Fuzzy Association Rule on Co-Movement Analyze of Indonesian Stock Price, International Conference on Computer Science and Computational Intelligence (ICCSCI 2015), Procedia Computer Science 59 pp. 235 – 243. [5] Ariel Pashtan, Remy Blattler, Andi Heussus, Peter Scheuermann (2003), “CATIS: a context-aware tourist information system”, The 4th International Workshop of Mobile Computing, Rostock. [6] Alqadah, F., Reddy, C. K., Hu, J., & Alqadah, H. F. (2015). Biclustering neighborhood-based collaborative filtering method for top- n recommender systems. Knowledge and Information Systems, pp.475–491. [7] Al-shamri, M. Y. H. (2014). “Power coefficient as a similarity measure for memory-based collaborative recommender systems”, EXPERT SYSTEMS WITH APPLICATIONS, 41(13), pp.5680–5688. [8] Aléx Alves Freitas. On rule interestingness measures. Knowledge-Based Systems Journal, 12(5):309–315, 1999. [9] Alexander Felfernig, Gerhard Friedrich, Dietmar Jannach, Markus Stumptner, (2004) “Consistency-based diagnosis of configuration knowledge bases”. Artificial Intelligence 152(2), pp. 213–234.
167 [19] Debnath, Ganguly and Mitra, (2008) “Feature Weighting In Content Based Recommendation System Using Social Network Analysis” pp. 1041-1042. [20] Derek Bridge, Mehmet H. Goker, Lorraine McGinty, Barry Smyth, (2005) “Case-based recommender systems”, The Knowledge Engineering Review 20(3), pp. 315–320. [21] Dominique Lahanier-Reuter, (2008), “Didactics of Mathematics and Implicative Statistical Analysis“, Statistical Implicative Analysis - Studies in Computational Intelligence (Vol. 127), pp 277-298. [22] Dhrubajit Adhikary, Swarup Roy (2015), Trends in Quantitative Association Rule Mining techniques, IEEE 2nd International Conference on Recent Trends in Information Systems (ReTIS). DOI: 10.1109/ReTIS.2015.7232865. [23] Edward Tsang, (1993) Foundations of Constraint Satisfaction. Academic Press, London and San Diego. [24] Emmanuel J. Candès, and Benjamin Recht (2009), Exact Matrix Completion via Convex Optimization, Foundation Computational Mathematics (2009) 9, pp.717–772. [25] Elaine Rich, (1979), “User modeling via stereotypes”, Cognitive Science Volume 3(Issue 4), pp.329–354. [26] Fei Yu, An Zeng, Sebastien Gillard, Matus Medo (2016). “Network-based recommendation algorithms: A review”, Physica A, 452, pp.192–208. [27] Francesco Ricci, Lior Rokach and Bracha Shapira (2011): Introduction to Recommender Systems Handbook, Springer-Verlag and Business Media LLC, pp.1-35, (2011). [28] Gavin Shaw, Yue Xu and Shlomo Geva (2010), Using Association Rules to Solve the Cold-Start Problem in Recommender Systems, Advances in Knowledge Discovery and Data Mining, pp.340-347, DOI 10.1007/978-3-642-13657-3_37, ISSN 0302-9743. [29] Gerald Salton, (1988), “Automatic text processing”, Addison-Wesley Longman Publishing Co., Boston, MA, USA.
169 [38] Hoang Tan Nguyen, Hung Huu Huynh and Hiep Xuan Huynh (2018), Collaborative filtering recommendation with threshold value of the equipotential plane in implication field, The 2nd International Conference on Machine learning and Soft computing (ICMLSC2018); Phu Quoc island, Vietnam, ISBN: 978-1-4503-6336-5 pp.39-44. [39] Hoang Tan Nguyen, Hung Huu Huynh and Hiep Xuan Huynh (2018), Collaborative Filtering Recommendation in the Implication Field, International Journal of Machine Learning and Computing, Volume 8 Number 3 (Jun. 2018), pp 214-222. [40] Hoang Tan Nguyen, Phan Phuong Lan, Hung Huu Huynh, Hiep Xuan Huynh (2021), Collaborative recommendeation based on inplication, International Journal of Advanced Computer Science and Applications,Vol. 12, No. 10, 2021 (Scopus index). [41] I.C. Lerman. Likelihood linkage analysis classification method. Biochimie, 75:379–397, 1993. [42] Jie Lu, DianshuangWu, Mingsong Mao, Wei Wang, Guangquan Zhang, (2015), “Recommender system application developments: A survey”, pp. 12-32. [43] Jie Lu, (2004), “A personalized e-learning material recommender system”, Proceedings of the 2nd International Conference on Information Technology and Applications, Harbin, China. [44] Jérôme David, Fabrice Guillet, Régis Gras et Henri Briand, (2008) “On the use of Implication Intensity for matching ontologies and textuel taxonomies“, Statistical Implicative Analysis, Springer, pp.227-246. [45] Jérôme David, Fabrice Guillet, Vincent Philippé, and Régis Gras, (2005) “Implicative statistical analysis applied to clustering of terms taken from a psychological text corpus “, Proceedings of the 11th symposium on Applied Stochastic Models and Data Analysis (ASMDA 05), pp.201-208. [46] Jesus Serrano-Guerrero, Enrique Herrera-Viedma, Jose A Olivas, Andres Cerezo, Francisco P Romero, (2011), “A google wave-based fuzzy recommender
171 [55] Ken Goldberg, Theresa Roeder, Dhruv Gupta and Chris Perkins, (2001), “Eigentaste: A Constant Time Collaborative Filtering Algorithm”, Information Retrieval, 4, pp. 133–151. [56] Lan Phan Phương, Trang Trần Uyên, Hưng, Huỳnh Hữu, Hiệp, Huỳnh Xuân, (2016) User-based collaborative filtering recommendation using statistical implication cohesion measure. Proceedings of the VIII National Conference on Fundamental and Applied IT Research (FAIR’15); Cần Thơ, 2016, (in Vietnamese). [57] Lan Phan Phương, Hưng, Huỳnh Hữu, Hiệp, Huỳnh Xuân, (2018) Recommendation using Rule based Implicative Rating Measure, International Journal of Advanced Computer Science and Applications (IJACSA). [58] Lan Phan Phương, Hưng, Huỳnh Hữu, Hiệp, Huỳnh Xuân, (2018) Recommender systems based-on implication intensity and contribution measure, , Proceedings of the X National Conference on Fundamental and Applied IT Re- search (FAIR’17); Da Nang,. ISBN: 978-604-913-614-6, (in Vietnamese). [59] Laurent Fleury, Henri Briand, Jacque Philippe, and Chabane Djeraba. Rule evaluation for knowledge discovery in databases. In Proceeding of the 6th Conf. on Database and Expert System Appl., pages 405–414, 1995. [60] Lê Hoàng Sơn, (2016), “Dealing with the new user cold-start problem in recommender systems : A comparative review“, Information Systems, Volume 58, pp. 87-104. [61] Marko Balabanovic and Yoav Shoham, (1997), “Fab: Content-based, collaborative recommendation”. Communications of the ACM, 40(3):66–72, March. [62] Mark Claypool, Anuja Gokhale, Tim Miranda, Pavel Murnikov, Dmitry Netes, and Matthew Sartin, (1999), “Combining content-based and collaborative filters in an online newspaper”. In ACM SIGIR'99, Workshop on Recommender Systems: Algorithms and Evaluation, pp.253-260.
173 X về nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR’17); Đà Nẵng, pp.938-950. [72] Nguyễn Tấn Hoàng, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, (2017), “Tư vấn lọc cộng tác theo mục dựa trên độ biến thiên chỉ số hàm ý trong trường hàm ý”, Hội thảo quốc gia @ lần thứ 20 về nghiên cứu cơ bản và ứng dụng Công nghệ thông tin; Quy Nhơn, pp.372-379. [73] Oznur Kirmemis, (2008), “OPENMORE: A Content-based Movie Recommendation System”, Master Thesis, Middle East Technical University, Department of Computer Engineering. [74] Oscar Celma Herrada, (2009), “Music Recommendation and Discovery in the Long Tail “. PhD Thesis. [75] Pascale Kuntz, Fabrice Guillet, Rémi Lehn, and Henri Briand. A user-driven process for mining association rules. In Proc. of the 4th Eur. Conf. of Principles of Data Mining and Knowledge Discovery, pages 160–168. L.N.A.I. 1910, 2000 [76] Phan Quốc Nghĩa, Nguyễn Minh Kỳ, Nguyễn Tấn Hoàng, Huỳnh Xuân Hiệp, Hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê, Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, 2015. [77] Phan Phương Lan, Luận án tiến sĩ “Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê”, Đại học Đà Nẵng, 2019 (in Vietnamese). [78] Phan Phương Lan, Trần Uyên Trang, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, Tư vấn lọc cộng tác dựa trên người sử dụng dùng phép đo gắn kết hàm ý thống kê, Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR’15); Cần Thơ, 2016. [79] Phan Quốc Nghĩa, Luận án tiến sĩ “Hệ tư vấn dựa trên phân tích hàm ý thống kê”, Đại học Đà Nẵng, 2018 (in Vietnamese). [80] Pang Ning Tan and Vipin Kumar. Interestingness measures for association patterns: a perspective. Technical Report TR00-036, University of Minnesota, 2000.
175 [90] Rakesh Agrawal, Tomasz Imielinsky, and Arun Swami. Mining association rules between sets of items in large databases. In Proc. of the ACM SIGMOD’93, pages 207– 216, 1993. [91] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. In Proc. of the 20th Int’l Conf. on Very Large Databases (VLDB ’94), pages 487– 499, 1994. [92] Raphaël Couturier, Un système de recommandation basé sur l’A.S.I., L’Analyse Statistique Implicative. Des Sciences dures aux Sciences Humaines et Sociales, dir. R. Gras, Cépaduès Ed. Toulouse, 2017, pp. 447-452. [93] Régis Gras et al., (1996), “L’implication statistique – Nouvelle méthode exploratoire de données”, La pensée sauvage édition, [in French]. [94] Régis Gras and Pascale Kuntz, (2008), “ An overview of the Statistical Implicative Analysis (SIA) development, Statistical Implicative Analysis “, Studies in Computational Intelligence (Vol. 127), pp.11-40. [95] Régis Gras, Einoshin Suzuki, Fabrice Guillet, Filippo Spagnolo, (2008), “Statistical Implicative AnalysisTheory and Applications“ - Studies in Computational Intelligence, Vol. 127. Springer-Verlag. [96] Régis Gras, Einoshin Suzuki Fabrice Guillet, Filippo Spagnolo (Eds.) (2009): Statistical Implicative Analysis, Theory and Application. Springer Verlag Berlin Heidelberg. [97] Régis Gras, Pascale Kuntz et Nicolas Greffard, (2015) “Notion de champ implicatif en analysis statistique implicative“, 8th International Meeting on Statistical Implicative Analysis, Tunisia, pp 1-21. [98] Roberto Javier Bayardo and Rakesh Agrawal. Mining the most interesting rules. In Proc. Of the 5th Int. Conf. on Knowledge Discovery and Data Mining, pages 145–154, 1999. [99] Robert J. Hilderman and Howard J. Hamilton. Knowledge discovery and interestingness measures: a survey. Technical Report 99-04, University of Regina, 1999.
177 [110] Sylvie Guillaume, Guillet F., Philipp J. (1998): Contribution of the integration of intensity of implication into the algorithm proposed by Agrawal, EMCSR'98, Vienna, vol. 2, pp. 805-810. [111] Timur Osadchiy, Ivan Poliakov, Patrick Olivier, Maisie Rowland, Emma Foster (2018), Recommender system based on pairwise association rules, ExpertSystems with Applications 115 535–542. [112] Tzung Pei Hong, Chang Sheng Kuo, Sheng Chai Chi, (2001) Trade-off between computation time and number of rules for fuzzy mining from quantitative data, International journal of Uncertainty, Fuzziness and Knowledge-Based Systems Vol.9, No.5, pp.587-604. [113] Tzung-Pei Hong, Chun-Hao Chen, Yeong-Chyi Lee, and Yu-Lung Wu. (2008), Genetic-Fuzzy Data Mining with Divide-and-Conquer Strategy, IEEE Transactions on evolutionary computation, Vol. 12 No.2, April 2008. [114] Wan Shiou Yang, San Yih Hwang (2013), “iTravel: a recommender system in mobile peer-to-peer environment”, Journal of Systems and Software, 86, pp. 12- 20. [115] Yeong, et al, 2005. Mining changes in customer buying behavior for collaborative recommendations. Expert Syst. Appl. 28, 2 (February 2005), 359- 369.DOI=10.1016/j.eswa.2004.10.015. [116] Yibo Chen, chanle Wu, Ming Xie and Xiaojun Guo, (2011), “Solving the Sparsity Problem in Recommender Systems Using Association Retrieval”, Journal of Computers, Vol. 6, No. 9. [117] Yonatan Aumann. Yehuda Lindell. (1999). "A Statistical Theory for Quantitative Association Rules." Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ISBN: 1- 58113-143-7 doi>10.1145/312129.312243 pp.261 -270.
i PHỤ LỤC Phụ lục 1: Chứng minh các độ đo hàm ý thống kê là không đối xứng Xét trường hợp 푛 ≥ 푛 Trước tiên, xét quan hệ giữa 푞( , ̅) với 푞( , ̅) 푛 푛 푛 푛 Gọi 휆 = ഥ và 휆 = ഥ 1 푛 2 푛 푛 푛 −푛 푛 푛 (푛−푛 )−푛 (푛−푛 ) 푛푛 −푛 푛 −푛푛 +푛 푛 휆 − 휆 = ഥ ഥ = = = 푛 − 푛 ≤ 1 2 푛 푛 푛 0 ⟹ 휆1 ≤ 휆2 (1) Vì 푛 ̅ =푛 − 푛 và 푛 ̅=푛 − 푛 nên 푛 ̅ − 푛 ̅ = 푛 − 푛 − (푛 − 푛 ) = 푛 − 푛 ≤ 0 ⟹ 푛 ̅ < 푛 ̅ (2) Xét mối quan hệ giữa 푞( , ̅) 푛 푞( , ̅), ta có : 푛 푛 ̅ 푛 푛 ̅ 푛 ̅ − 푛 ̅ − 푞( , ) − 푞( , ) = 푛 − 푛 푛 푛 푛 푛 √ ̅ √ ̅ 푛 푛 푛 푛 푛 푛 Thay ഥ = 휆 và ഥ = 휆 , ta được : 푛 1 푛 2 푛 ̅ − 휆 푛 − 휆 푞( , ̅) − 푞( , ̅) = 1 − ̅ 2 = √휆1 √휆2 푛 ഥ 푛 ഥ ( − √휆1) –( − √휆2)= √휆1 √휆2 푛 ̅ 푛 ̅ − − √휆1 + √휆2 √휆1 √휆2 Vì 0 ≤ 휆1 ≤ 휆2 ⟹ −√휆1 + √휆2 ≥ 0 , và từ (2), ta được 푛 ̅ 푛 푛 ̅ 푛 ̅ 푞( , ̅) − 푞( , ̅) ≥ − ̅ ≥ − ≥ 0 √휆1 √휆2 √휆1 √휆2 ⟹ 푞( , ̅) ≥ 푞( , ̅) (3)
iii Phụ lục 2: Chứng minh sự tương đương của các công thức chỉ số hàm ý trong trường hợp dữ liệu nhị phân ഥ ഥ ഥ Chứng minh khi , là các biến nhị phân, thì 풒풑( , ) = 풒( , ), tức là 푛 푛 ∑ (푖) ̅(푖)− ഥ ̅ 푖∈ 푛 푞 ( , ) = (푛2푠2 +푛2 )((푛2푠2 +푛2 ) √ ഥ ഥ 푛3 tương đương 푛 푛 ഥ 푛 ഥ − ( ̅) 푛 푞 , = 푛 푛 √ ഥ 푛 Chứng minh: Ta có ̅ ∑푖∈ (푖) (푖) = ∑푖∈ (푖)(1 − (푖)) = ∑푖∈ (푖) − ∑푖∈ (푖) (푖)) = 푛 − 푛 = 푛 ̅ (1) 1 Nếu ký hiệu = ∑ (푖) là giá trị trung bình của thì 푛 푖∈ 1 1 푠2 = ∑ ( (푖) − )2 = (∑ (푖)2 − 2 ∑푛 (푖) + ∑푛 2) = 푛 푖∈ 푛 푖∈ 푖=1 푖=1 1 1 1 (∑ (푖)2 − 2 푛 ∑푛 (푖) + ∑푛 2) = (∑ (푖)2 − 2푛 + 푛 푖∈ 푛 푖=1 푖=1 푛 푖∈ 1 1 ∑푛 2) = (∑ (푖)2 − 2푛 2 + 푛 2) = ∑ 2(푖) − 2. 푖=1 푛 푖∈ 푛 푖∈ Trong trường hợp (푖) là các giá trị nhị phân thì: 2 ∑푖∈ (푖) = ∑푖∈ (푖) = 푛 . Do đó: 1 푛 푛 푛2푠2 + 푛2 = 푛2 ( ∑ 2(푖) − 2) + 푛2 = 푛2 ( − 2) + 푛2 = 푛2 − 푛 푖∈ 푛 푛 1 2 1 푛2 2 + 푛2 = 푛푛 − 푛2 ( ∑ (푖)) + 푛2 = 푛푛 − 푛2 ( 푛2 ) + 푛2 = 푛 푖∈ 푛2 2 2 푛푛 − 푛 + 푛 = 푛푛 (2) 2 2 2 Tương tự 푛 푠 ̅ + 푛 ̅ = 푛푛 ̅ (3) ̅ 2 2 2 2 2 2 Thay thế các giá trị của ∑푖∈ (푖) (푖), (푛 푠 + 푛 ), và (푛 푠 ̅ + 푛 ̅ ) từ (1), ̅ ̅ ̅ (2), và (3) vào công thức푞 ( , ) ta được được 푞 ( , ) = 푞( , ).
v • Kết quả của các thử nghiệm khác nhau là độc lập. • Quan tâm đến tổng số lần thành công trong 푛 lần thử nghiệm này. Theo giả thiết trên, gọi là tổng số lần thành công. Khi đó, được gọi là biến ngẫu nhiên nhị thức, và phân phối xác suất của được gọi là phân phối nhị thức. Hàm khối xác suất (Probability-Mass Function) của phân phối Nhi thức Cho là một biến ngẫu nhiên nhị thức. Khi đó, hàm khối xác suất của nó theo công thức (푖): 푛! (푖) 푃( = ) = px(1 − p)n−x x! (n − x)! với = 0, 1, 2 , . . . , . Giá trị của 푛 và được gọi là các tham số của phân phối. Trong (푖), cần lưu ý rằng: • Xác suất để quan sát bất kỳ chuỗi 푛 phép thử độc lập nào chứa thành công và 푛 − thất bại là (1 − ) 푛 − . • Tổng số các chuỗi như vậy bằng 푛 푛! ( ) ≡ ! (푛 − )! (tức là tổng số các kết hợp có thể có khi chúng ta chọn ngẫu nhiên đối tượng trong số 푛 đối tượng). Đồ thị minh hoạ biểu diễn phân phối Nhị thức19 theo một số giá trị 푛 và được trình bày trong Hình 6-1. 19
vii Có thể cho thấy rằng µ = ( ) = 푛 và 휎2 = ( ) = 푛 (1 − ). Đối với ví dụ trên, ta có • ( ) = 10 · 0,25 = 2,5. • ( ) = 10 · (0,25)(1 − 0,25) = 1,875. 2. Phân phối Poisson Phân phối Poisson là một phân phối rời rạc, phát sinh trong một số lượng lớn các tình huống các bài toán thực tế. Nó thường được áp dụng trong các tình huống mà các "sự kiện" ngẫu nhiên xảy ra với một tỷ lệ nhất định trong một khoảng thời gian. Dưới đây là một số tình huống mà phân phối Poisson có thể được áp dụng. - Số lượng khách hàng đến ngân hàng hàng giờ - Số vụ tai nạn hàng ngày trên một đoạn đường cao tốc cụ thể - Số lượt truy cập hàng giờ vào một máy chủ web cụ thể - Số lỗi chính tả trong một cuốn sách - Nhu cầu hàng tháng cho một sản phẩm cụ thể - và nhiều tình huống khác Giống như phân phối Nhị thức, phân phối Poisson phát sinh khi một tập hợp các giả định chính tắc có giá trị hợp lý. Đó là: • Số lượng sự kiện xảy ra trong bất kỳ khoảng thời gian độc lập với số lượng sự kiện trong bất kỳ khoảng thời gian rời rạc nào khác. Ví dụ: Tỷ lệ lỗi trên mỗi trang trong sách. • Sự phân bố số lượng sự kiện trong một khoảng thời gian là như nhau đối với tất cả các khoảng thời gian có cùng kích thước.
ix Ví dụ: Số lỗi đánh máy trong một cuốn sách giáo khoa tuân theo phân phối Poisson với mức trung bình là 1,5 lỗi trên 100 trang. Giả sử 100 trang của cuốn sách được chọn ngẫu nhiên. Xác suất để không mắc lỗi chính tả là: µ 1.50 푃 ( = 0) = 푒−µ = 푒−1,5 = 0,2231 ! 0! Giả sử 400 trang của cuốn sách được chọn ngẫu nhiên. Xác suất để không mắc lỗi chính tả và có từ năm lỗi chính tả trở xuống: (1,5 · 4)0 푃 ( = 0) = 푒−1,5.4 = 0,002479 0! và 5 푃 ( ≤ 5) = ∑ 푃( = 푖) 푖=0 = 0,002479 + 0,0149 + 0,0446 + 0,0892 + 0.1339 + 0.1606 = 0,4457 Giá trị Trung bình và Phương sai Có thể cho thấy rằng ( ) = µ và ( ) = µ. 3. Phân phối Chuẩn Phân phối chuẩn, còn được gọi là phân phối Gauss, là phân phối liên tục và là phân phối quan trọng nhất trong thống kê, vì nó xuất hiện tự nhiên trong nhiều ứng dụng. Một biến ngẫu nhiên được cho là có phân phối chuẩn với các tham số µ và σ nếu hàm mật độ của nó được cho bởi công thức (푖푖푖): 1 1 − µ 2 (푖푖푖) ( ) = 푒 (− ( ) ) √2 휎 2 휎
xi Khi độ lệch chuẩn 휎 tăng lên sẽ làm phẳng hơn đường cong mật độ, giá trị trung bình không đổi. (xem Hình 6-5) Hình 6-5. Sự thay đổi đường cong mật độ theo giá trị 흈 Phân phối chuẩn chuẩn hoá (standard normal distribution) Phân phối chuẩn có giá trị trung bình là 0 và độ lệch chuẩn là 1 được gọi là phân phối chuẩn chuẩn hoá. Trong trường hợp này, hàm mật độ giả định ở dạng đơn giản hơn (công thức (푖푣): 1 − 2 (푖푣) ( ) = 푒 2 √2 với −∞ < < ∞. Trong thực hành, phân phối chuẩn được chuẩn hoá để chuyển đổi một biến ngẫu nhiên chuẩn X với các tham số µ và 휎 tùy ý thành một biến ngẫu nhiên chuẩn Z với các tham số 0 và 1 thông qua phép biến đổi (công thức (푣)): − µ (푣) 푍 = 휎 Ví dụ: Giả sử thời gian cần thiết để lắp ráp một máy tính được phân phối chuẩn với giá trị trung bình là 50 phút và độ lệch chuẩn là 10 phút. Xác suất để thời gian lắp ráp một máy tính trong khoảng từ 45 đến 60 phút là: Để tính xác suất P(45 <X ≤ 60), trước tiên, cần viết lại sự kiện quan tâm thành một dạng dưới dạng biến chuẩn 푍 = ( − 50) / 10, như sau. 45 − 50 − 50 60 − 50 푃 ( < ≤ ) 10 10 10
xiii này là xấp xỉ nhau. Điều này làm cho việc tính xác suất thuận lợi hơn. Vì khi 푛 lớn thì việc tính xác suất theo công thức (푖) hay (푣푖) trở nên khó khăn hơn. Cụ thể, phân phối chuẩn xấp xỉ phân phối nhị thức khi 휇 = 푛 휎2 = 푛 (1 − ) Điều cần lưu ý là ta chỉ có thể sử dụng sự tương đương này khi số phần tử 푛 của mẫu đủ lớn để có 푛 > 4 hoặc 푛(1 − ) > 4 Mối tương quan giữa phân phối Poisson và phân phối Chuẩn Tương tự như phân phối nhị thức, khi số phần tử 푛 của mẫu tăng lên thì phân phối Poisson cũng tương đương với phân phối chuẩn. Phân phối chuẩn tương đương có: 휇 = 휆 휎2 = 휆 Cụ thể, Ta chỉ có thể ứng dụng sự tương đương này khi 휆 > 4. Cũng tương tự như trong trường hợp phân phối nhị thức trên, mối tương đương giữa phân phối Poisson với phân phối chuẩn giúp việc tính xác suất Poisson được thuận lợi hơn thay vì tính theo công thức (푖푖).